Data
Mining
Data mining mengacu pada proses untuk menambang
(mining) pengetahuan dari sekumpulan data yang sangat besar [Jiawei, 2001].
Sebenarnya data mining merupakan suatu
langkah dalam knowlegde discovery in databases (KDD). Knowledge discovery sebagai
suatu proses terdiri atas pembersihan data (data cleaning), integrasi data
(data integration), pemilihan data (data selection), transformasi data (data
transformation), data mining, evaluasi
pola (pattern evaluation) dan penyajian pengetahuan (knowledge presentation).
Kerangka proses data mining yang akan dibahas tersusun atas tiga tahapan, yaitu
pengumpulan data (data collection), transformasi data (data transformation),
dan analisis data (data analysis) [Nilakant, 2004]. Proses tersebut diawali dengan
preprocessing yang terdiri atas pengumpulan data untuk menghasilkan data mentah
(raw data) yang dibutuhkan oleh data mining, yang kemudian dilanjutkan dengan
transformasi data untuk mengubah data mentah menjadi format yang dapat diproses
oleh kakas data mining, misalnya melalui filtrasi atau agregasi. Hasil
transformasi data akan digunakan oleh analisis data untuk membangkitkan
pengetahuan dengan menggunakan teknik seperti analisis statistik, machine
learning, dan visualisasi informasi.
Proses Data Mining dalam Sistem Pembelajaran
Berbantuan Komputer (Mewati Ayub) 23
Gambar 1. Aliran informasi dalam data
mining Pada gambar 1 ditunjukkan diagram yang menggambarkan aliran informasi
dalam proses data mining yang diadaptasi dari [Nilakant, 2004]. Proses data
mining pada gambar tersebut ditunjukkan sebagai proses yang iteratif. Hasil
evaluasi pengetahuan yang dihasilkan
data mining dapat menimbulkan kebutuhan pengetahuan yang lebih lengkap,
perbaikan kumpulan data (dataset) atau perubahan pada sistem.
Data
mining dalam pembelajaran
Untuk
menentukan variabel apa saja yang perlu dicatat dari interaksi siswa dengan
sistem, perlu dikembangkan suatu model interaksi siswa-sistem. Gambar 2
menunjukkan analisis interaksi tersebut pada beberapa lapisan (layer) yang
berbeda [Nilakant, 2004]. Apabila
evaluasi sistem tutorial diterapkan pada lapisan terluar, maka akan
dilakukan pre-test sebelum pelajaran
dimulai dan post-test setelah pelajaran selesai diberikan. Perbedaan pre-test
dan post-test akan menunjukkan perubahan kinerja setiap siswa dengan
granularitas pada tingkat pelajaran. Jika diperlukan analisis yang lebih
terinci, maka eksplorasi hasil belajar (learning outcome) harus dilakukan pada
lapisan yang lebih dalam. Sebagai contoh, pembelajaran dalam suatu pelajaran
tersusun atas beberapa sesi. Setiap sesi diawali dan diakhiri dengan tes untuk
mengevaluasi perubahan kinerja setiap siswa per sesi. Selama suatu sesi, siswa
akan mencoba mengerjakan sejumlah soal. Untuk mengerjakan suatu soal, siswa
mungkin akan mencoba beberapa kali sebelum mendapatkan solusi yang paling
tepat. Dari interaksi tersebut, beberapa informasi dapat dicatat oleh sistem,
seperti misalnya apakah siswa dapat menjawab setiap soal dengan benar, berapa
kali siswa mencoba sebelum akhirnya memberikan jawaban yang tepat. Pada tingkat
granularitas yang paling baik, setiap usaha siswa menjawab soal dibedakan atas
melanggar atau memenuhi sejumlah aturan. Informasi mengenai pelanggaran atau
pemenuhan tersebut dapat dicatat, dan akan menghasilkan representasi status
kognitif siswa, yang dikenal sebagai model siswa.
Gambar
2. Model interaksi siswa-sistem (lapisan granularitas)
Informasi yang dihasilkan pada berbagai lapisan
tersebut di atas dapat saling melengkapi, sehingga analisis data dapat
menunjukkan hubungan antara data dari berbagai lapisan. Sebagai contoh, untuk
setiap pelanggaran aturan yang dicatat, informasi mengenai siswa yang melakukan
pelanggaran, pelajaran yang sedang diikuti, soal yang sedang dipelajari, serta
usaha yang menyebabkan pelanggaran harus disimpan juga. Pada tabel 1
ditunjukkan ringkasan data yang dapat disimpan untuk setiap usaha yang
dilakukan siswa dalam menjawab soal.
Tahap pengumpulan data akan menyediakan data dalam
volume yang cukup besar, namun analisis data tidak dapat langsung dilakukan
terhadap kumpulan data tersebut, karena harus dilakukan transformasi terhadap
data sehingga analisis siap dilakukan. Data mentah yang dihasilkan dari
pengumpulan data, biasanya tersimpan dalam bentuk beberapa tabel basis data.
Karena analisis data umumnya dilakukan terhadap suatu tabel tunggal, maka perlu
dilakukan penggabungan (join) beberapa
tabel yang relevan. Hasilnya adalah suatu struktur yang disebut dengan dataset,
seperti tampak pada gambar 3 [Nilakant, 2004]. Dataset dapat dikelompokkan
secara vertikal sebagai kumpulan atribut dan secara horisontal sebagai kumpulan
instans. Setiap atribut mempunyai tipe data, yang dapat berupa numerik, teks,
atau bentuk lainnya. Jika domain nilai suatu atribut berhingga, maka disebut
atribut nominal. Suatu instans adalah data yang dihasilkan dari suatu kejadian
di dunia nyata, yang dicatat dalam beberapa atribut.
Transformasi dataset
dapat dilakukan dalam beberapa cara, antara lain filtrasi dataset dan konversi
atribut [Nilakant, 2004][Jiawei, 2001]. Filtrasi dataset dilakukan dengan
mengurangi ukuran dataset, yaitu dengan membuang beberapa informasi yang tidak
relevan. Sebagai contoh, dari analisis terhadap data mentah ditemukan bahwa
beberapa soal dalam basis data cenderung menimbulkan pelanggaran terhadap
aturan tertentu. Untuk eksplorasi penyebabnya, analisis harus dibatasi hanya
terhadap kumpulan soal tersebut. Dengan menyaring informasi tersebut, proses
analisis akan memberikan hasil yang lebih dapat diandalkan (reliable). Filtrasi
dilakukan terhadap salinan data, sehingga data asli tidak mengalami perubahan
data. Cara berikutnya untuk transformasi data adalah konversi atribut, yaitu
bekerja pada nilai atribut di setiap instans dari dataset. Tujuan dari konversi
atribut adalah mengubah atribut bernilai kontinu (tidak berhingga) menjadi
atribut dengan nilai nominal (berhingga), karena sebagian cara analisis dengan
machine learning tidak dapat berfungsi pada atribut yang bernilai kontinu.
Penerapan
Teknik Data Mining
Proses analisis data dengan menerapkan teknik
data mining dapat dilakukan melalui analisis statistik atau dengan pendekatan
machine learning. Analisis data pembelajaran dengan pendekatan machine learning
akan menggunakan tiga teknik, yaitu association rules, clustering, dan classification [Nilakant,
2004][Merceron, 2005]. Algoritma
association rule (AR) digunakan untuk menemukan hubungan antar nilai
tertentu dari atribut nominal dalam suatu dataset. Aturan yang dihasilkan dapat
ditulis dalam bentuk “if-then” dengan mempertimbangkan besaran support dan
confidence untuk menilai reliabilitas aturan. Bentuk umum aturan dalam
association rule adalah : (X = xi) →(Y
= yi) [sup,conf] dengan X = { x1, x2, .
. ., xn}, Y = { y1, y2, . . ., ym}, sup = probabilitas bahwa suatu instans
dalam dataset mengandung X ∪Y,
conf = probabilitas kondisional bahwa instans yang mengandung X juga mengandung
Y. Pada gambar 4 ditunjukkan contoh
atribut dataset yang dapat diturunkan
dari Tabel 1 yang akan digunakan sebagai
acuan untuk pembahasan dalam algoritma AR, classification, dan clustering
berikut ini. Dataset tersebut dapat merupakan gabungan dari beberapa data yang
diperoleh saat siswa berinteraksi dengan sistem pembelajaran
Dalam mining data
pembelajaran, algoritma AR dapat dimanfaatkan untuk menemukan kesalahan yang
sering terjadi pada saat siswa mengerjakan latihan soal. Sebagai contoh, dari
dataset pada gambar 4, diperoleh
kumpulan instans mengenai siswa yang melakukan kesalahan dengan frekuensi
tertentu. Diasumsikan kumpulan instans
tersebut memenuhi kondisi jika siswa melakukan kesalahan A dan kesalahan B,
maka mereka juga melakukan kesalahan C, misalnya dengan support 30% dan confidence
60%, akan ditulis sebagai : A and B → C [30%,60%] Aturan tersebut dapat dibaca
sebagai berikut : dari 30% siswa yang melakukan kesalahan A dan kesalahan B
(dari seluruh siswa yang mengerjakan latihan soal), 60% diantaranya melakukan
kesalahan C. Algoritma AR juga dapat menyatakan hubungan antara beberapa
atribut yang berbeda, misalnya kesalahan A pada konsep X menimbulkan kesalahan
B pada konsep Y, yang ditulis sebagai A
and X → B and Y Teknik classification bekerja
dengan mengelompokkan data berdasarkan data training dan nilai atribut klasifikasi. Aturan
pengelompokan tersebut akan digunakan untuk klasifikasi data baru ke dalam
kelompok yang ada. Classification dapat direpresentasikan dalam bentuk pohon
keputusan (decision tree). Setiap node dalam pohon keputusan menyatakan suatu
tes terhadap atribut dataset, sedangkan setiap cabang menyatakan hasil dari tes
tersebut. Pohon keputusan yang terbentuk dapat diterjemahkan menjadi sekumpulan
aturan dalam bentuk IF condition THEN outcome.
Referensi jurnal:
Komentar
Posting Komentar