Langsung ke konten utama

Konsep Data Mining


Data Mining  
Data mining mengacu pada proses untuk menambang (mining) pengetahuan dari sekumpulan data yang sangat besar [Jiawei, 2001]. Sebenarnya  data mining merupakan suatu langkah dalam knowlegde discovery in databases (KDD). Knowledge discovery sebagai suatu proses terdiri atas pembersihan data (data cleaning), integrasi data (data integration), pemilihan data (data selection), transformasi data (data transformation),  data mining, evaluasi pola (pattern evaluation) dan penyajian pengetahuan (knowledge presentation). Kerangka proses data mining yang akan dibahas tersusun atas tiga tahapan, yaitu pengumpulan data (data collection), transformasi data (data transformation), dan analisis data (data analysis) [Nilakant, 2004]. Proses tersebut diawali dengan preprocessing yang terdiri atas pengumpulan data untuk menghasilkan data mentah (raw data) yang dibutuhkan oleh data mining, yang kemudian dilanjutkan dengan transformasi data untuk mengubah data mentah menjadi format yang dapat diproses oleh kakas data mining, misalnya melalui filtrasi atau agregasi. Hasil transformasi data akan digunakan oleh analisis data untuk membangkitkan pengetahuan dengan menggunakan teknik seperti analisis statistik, machine learning, dan visualisasi informasi.

Proses Data Mining dalam Sistem Pembelajaran Berbantuan Komputer (Mewati Ayub)   23 Gambar 1.  Aliran informasi dalam data mining Pada gambar 1 ditunjukkan diagram yang menggambarkan aliran informasi dalam proses data mining yang diadaptasi dari [Nilakant, 2004]. Proses data mining pada gambar tersebut ditunjukkan sebagai proses yang iteratif. Hasil evaluasi  pengetahuan yang dihasilkan data mining dapat menimbulkan kebutuhan pengetahuan yang lebih lengkap, perbaikan kumpulan data (dataset) atau perubahan pada sistem.
Data mining dalam pembelajaran
 Untuk menentukan variabel apa saja yang perlu dicatat dari interaksi siswa dengan sistem, perlu dikembangkan suatu model interaksi siswa-sistem. Gambar 2 menunjukkan analisis interaksi tersebut pada beberapa lapisan (layer) yang berbeda [Nilakant, 2004].  Apabila evaluasi sistem tutorial diterapkan pada lapisan terluar, maka akan dilakukan  pre-test sebelum pelajaran dimulai dan post-test setelah pelajaran selesai diberikan. Perbedaan pre-test dan post-test akan menunjukkan perubahan kinerja setiap siswa dengan granularitas pada tingkat pelajaran. Jika diperlukan analisis yang lebih terinci, maka eksplorasi hasil belajar (learning outcome) harus dilakukan pada lapisan yang lebih dalam. Sebagai contoh, pembelajaran dalam suatu pelajaran tersusun atas beberapa sesi. Setiap sesi diawali dan diakhiri dengan tes untuk mengevaluasi perubahan kinerja setiap siswa per sesi. Selama suatu sesi, siswa akan mencoba mengerjakan sejumlah soal. Untuk mengerjakan suatu soal, siswa mungkin akan mencoba beberapa kali sebelum mendapatkan solusi yang paling tepat. Dari interaksi tersebut, beberapa informasi dapat dicatat oleh sistem, seperti misalnya apakah siswa dapat menjawab setiap soal dengan benar, berapa kali siswa mencoba sebelum akhirnya memberikan jawaban yang tepat. Pada tingkat granularitas yang paling baik, setiap usaha siswa menjawab soal dibedakan atas melanggar atau memenuhi sejumlah aturan. Informasi mengenai pelanggaran atau pemenuhan tersebut dapat dicatat, dan akan menghasilkan representasi status kognitif siswa, yang dikenal sebagai model siswa. 




Gambar 2. Model interaksi siswa-sistem (lapisan granularitas)
Informasi yang dihasilkan pada berbagai lapisan tersebut di atas dapat saling melengkapi, sehingga analisis data dapat menunjukkan hubungan antara data dari berbagai lapisan. Sebagai contoh, untuk setiap pelanggaran aturan yang dicatat, informasi mengenai siswa yang melakukan pelanggaran, pelajaran yang sedang diikuti, soal yang sedang dipelajari, serta usaha yang menyebabkan pelanggaran harus disimpan juga. Pada tabel 1 ditunjukkan ringkasan data yang dapat disimpan untuk setiap usaha yang dilakukan siswa dalam menjawab soal. 




Tahap pengumpulan data akan menyediakan data dalam volume yang cukup besar, namun analisis data tidak dapat langsung dilakukan terhadap kumpulan data tersebut, karena harus dilakukan transformasi terhadap data sehingga analisis siap dilakukan. Data mentah yang dihasilkan dari pengumpulan data, biasanya tersimpan dalam bentuk beberapa tabel basis data. Karena analisis data umumnya dilakukan terhadap suatu tabel tunggal, maka perlu dilakukan penggabungan (join)  beberapa tabel yang relevan. Hasilnya adalah suatu struktur yang disebut dengan dataset, seperti tampak pada gambar 3 [Nilakant, 2004]. Dataset dapat dikelompokkan secara vertikal sebagai kumpulan atribut dan secara horisontal sebagai kumpulan instans. Setiap atribut mempunyai tipe data, yang dapat berupa numerik, teks, atau bentuk lainnya. Jika domain nilai suatu atribut berhingga, maka disebut atribut nominal. Suatu instans adalah data yang dihasilkan dari suatu kejadian di dunia nyata, yang dicatat dalam beberapa atribut.


Transformasi dataset dapat dilakukan dalam beberapa cara, antara lain filtrasi dataset dan konversi atribut [Nilakant, 2004][Jiawei, 2001]. Filtrasi dataset dilakukan dengan mengurangi ukuran dataset, yaitu dengan membuang beberapa informasi yang tidak relevan. Sebagai contoh, dari analisis terhadap data mentah ditemukan bahwa beberapa soal dalam basis data cenderung menimbulkan pelanggaran terhadap aturan tertentu. Untuk eksplorasi penyebabnya, analisis harus dibatasi hanya terhadap kumpulan soal tersebut. Dengan menyaring informasi tersebut, proses analisis akan memberikan hasil yang lebih dapat diandalkan (reliable). Filtrasi dilakukan terhadap salinan data, sehingga data asli tidak mengalami perubahan data. Cara berikutnya untuk transformasi data adalah konversi atribut, yaitu bekerja pada nilai atribut di setiap instans dari dataset. Tujuan dari konversi atribut adalah mengubah atribut bernilai kontinu (tidak berhingga) menjadi atribut dengan nilai nominal (berhingga), karena sebagian cara analisis dengan machine learning tidak dapat berfungsi pada atribut yang bernilai kontinu.
Penerapan Teknik Data Mining
 Proses analisis data dengan menerapkan teknik data mining dapat dilakukan melalui analisis statistik atau dengan pendekatan machine learning. Analisis data pembelajaran dengan pendekatan machine learning akan menggunakan tiga teknik, yaitu association rules,  clustering, dan classification [Nilakant, 2004][Merceron, 2005]. Algoritma  association rule (AR) digunakan untuk menemukan hubungan antar nilai tertentu dari atribut nominal dalam suatu dataset. Aturan yang dihasilkan dapat ditulis dalam bentuk “if-then” dengan mempertimbangkan besaran support dan confidence untuk menilai reliabilitas aturan. Bentuk umum aturan dalam association rule adalah :   (X = xi) →(Y = yi)  [sup,conf] dengan X = { x1, x2, . . ., xn}, Y = { y1, y2, . . ., ym}, sup = probabilitas bahwa suatu instans dalam dataset mengandung X Y, conf = probabilitas kondisional bahwa instans yang mengandung X juga mengandung Y.  Pada gambar 4 ditunjukkan contoh atribut dataset  yang dapat diturunkan dari Tabel 1  yang akan digunakan sebagai acuan untuk pembahasan dalam algoritma AR, classification, dan clustering berikut ini. Dataset tersebut dapat merupakan gabungan dari beberapa data yang diperoleh saat siswa berinteraksi dengan sistem pembelajaran


Dalam mining data pembelajaran, algoritma AR dapat dimanfaatkan untuk menemukan kesalahan yang sering terjadi pada saat siswa mengerjakan latihan soal. Sebagai contoh, dari dataset pada gambar 4,  diperoleh kumpulan instans mengenai siswa yang melakukan kesalahan dengan frekuensi tertentu.  Diasumsikan kumpulan instans tersebut memenuhi kondisi jika siswa melakukan kesalahan A dan kesalahan B, maka mereka juga melakukan kesalahan C, misalnya dengan support 30% dan confidence 60%, akan ditulis sebagai : A and B → C [30%,60%] Aturan tersebut dapat dibaca sebagai berikut : dari 30% siswa yang melakukan kesalahan A dan kesalahan B (dari seluruh siswa yang mengerjakan latihan soal), 60% diantaranya melakukan kesalahan C. Algoritma AR juga dapat menyatakan hubungan antara beberapa atribut yang berbeda, misalnya kesalahan A pada konsep X menimbulkan kesalahan B pada konsep Y, yang ditulis sebagai  A and X → B and Y Teknik  classification bekerja dengan mengelompokkan data berdasarkan data training  dan nilai atribut klasifikasi. Aturan pengelompokan tersebut akan digunakan untuk klasifikasi data baru ke dalam kelompok yang ada. Classification dapat direpresentasikan dalam bentuk pohon keputusan (decision tree). Setiap node dalam pohon keputusan menyatakan suatu tes terhadap atribut dataset, sedangkan setiap cabang menyatakan hasil dari tes tersebut. Pohon keputusan yang terbentuk dapat diterjemahkan menjadi sekumpulan aturan dalam bentuk IF condition THEN outcome.


Referensi jurnal:

Komentar

Postingan populer dari blog ini

Tugas 4 soal no 2.penjelasan dan gambar dari siklus pendapatan

1. Siklus Pendapatan       -     Pengertian Siklus Pendapatan Siklus pendapatan adalah rangkaian aktivitas bisnis dan kegiatan pemrosesan informasi terkait yang terus berlangsung dengan menyediakan barang dan jasa ke para pelanggan dan menagih kas sebagai pembayaran dari penjualan – penjualan tersebut. Siklus Pendapatan merupakan prosedur pendapatan dkimulai dari bagian penjualanotorisasi kredit, pengambilan barang, penerimaan barang, penagihan sampai denganpenerimaan kas.      -      Aktivitas Bisnis Siklus Pendapatan         Empat aktivitas dasar bisnis yang dilakukan dalam siklus pendapatan :         1. Penerimaan pesanan dari para pelanggan - Mengambil pesanan pelanggan - Persetujuan kredit - Memeriksa ketersediaan persediaan - Menjawab permintaan pelanggan         2. Pengiriman barang - Ambil dan pak pesanan - Kirim pesanan         3. Penagihan dan piutang usaha - Penagihan - Pemeliharaan data piutang usaha - Pengecualian : Penyesuaian rekening dan