Konsep Data Mining Tugas 2

Pengertian Decision Tree

Decision Tree (Pohon Keputusan) adalah pohon dimana setiap cabangnyamenunjukkan pilihan diantara sejumlah alternatif pilihan yang ada, dan setiapdaunnya menunjukkan keputusan yang dipilih.Decision tree biasa digunakan untuk mendapatkan informasi untuk tujuanpengambilan sebuah keputusan. Decision tree dimulai dengan sebuah root node(titik awal) yang dipakai oleh user untuk mengambil tindakan. Dari node root ini,user memecahnya sesuai dengan algoritma decision tree. Hasil akhirnya adalahsebuah decision tree dengan setiap cabangnya menunjukkan kemungkinansekenario dari keputusan yang diambil serta hasilnya

Decision Tree menggunakan algoritma ID3 atau C4.5, yang diperkenalkan dan dikembangkan pertama kali oleh Quinlan yang merupakan singkatan dari Iterative Dichotomiser 3 atau Induction of Decision “3″ (baca: Tree).
Algoritma ID3 membentuk pohon keputusan dengan metode divide-and-conquer data secara rekursif dari atas ke bawah. Strategi pembentukan Decision Tree dengan algoritma ID3 adalah:
• Pohon dimulai sebagai node tunggal (akar/root) yang merepresentasikan semua data..
• Sesudah node root dibentuk, maka data pada node akar akan diukur dengan information gain untuk dipilih atribut mana yang akan dijadikan atribut pembaginya.
• Sebuah cabang dibentuk dari atribut yang dipilih menjadi pembagi dan data akan didistribusikan ke dalam cabang masing-masing.
• Algoritma ini akan terus menggunakan proses yang sama atau bersifat rekursif untuk dapat membentuk sebuah Decision Tree. Ketika sebuah atribut telah dipilih menjadi node pembagi atau cabang, maka atribut tersebut tidak diikutkan lagi dalam penghitungan nilai information gain.
• Proses pembagian rekursif akan berhenti jika salah satu dari kondisi dibawah ini terpenuhi:
1. Semua data dari anak cabang telah termasuk dalam kelas yang sama.
2. Semua atribut telah dipakai, tetapi masih tersisa data dalam kelas yang berbeda. Dalam kasus ini, diambil data yang mewakili kelas yang terbanyak untuk menjadi label kelas pada node daun.
3. Tidak terdapat data pada anak cabang yang baru. Dalam kasus ini, node daun akan dipilih pada cabang sebelumnya dan diambil data yang mewakili kelas terbanyak untuk dijadikan label kelas.

Beberapa contoh pemakaian Decision Tree,yaitu :
• Diagnosa penyakit tertentu, seperti hipertensi, kanker, stroke dan lain-lain
• Pemilihan produk seperti rumah, kendaraan, komputerdanlain-lain
• Pemilihan pegawai teladan sesuai dengan kriteria tertentu
• Deteksi gangguan pada computer atau jaringan computer seperti Deteksi Entrusi, deteksi virus (Trojan dan varians),dan lain-lain

Pada project ini,Kami mencoba mengakali konsep decision tree dengan cara,mengubah implementasinya pada penjumlahan nilai dari tiap kepribadian.
Jadi gini,gampangannya..

Kunci dari program kami terletak pada pertanyaan utama.Jadi gini,4 kepribadian itu dibagi menjadi 2 golongan besar, yaitu : Ekstrovert : sanguinis dan Koleris
Introvert : Melankolis dan Plegmatis

Nilai Ekstrovert : sanguinis + Koleris
Nilia Introvert : Melankolis + Plegmatis
pertanyaan pertama pada aplikasi kami adalah mengkondisikan apakah jumlah nilai ekstrovert >= introvert.
apabila benar maka,tinggal membandingkan nilai sanguinis dan koleris,en klo jawabannya salah,maka program akan membandingkan nilai melankolis dan plegmatis.
Hasilnya adalah nilai kepribadian yang paling besar.
oia,setiap Nilai yang didapat akan disimpan kedalam temp,dan akan dimunculkan dalam bentuk grafik di program.

Contoh Pemanfaatan Decision Tree

Diagnosa beberapa penyakit seperti kanker, hipertensi, stroke.

Menentukan apakah dengan kondisi yang ada layak untuk bermaintenis atau tidak

Menentukan apakah sebuah investasi bisnis layak dilakukan atau tidak

Pemilihan pegawai teladan sesuai dengan kriteria tertentu

Deteksi gangguan pada komputer atau jaringan komputer

Pemilihan produk seperti rumah, kendaraan dan lain lain

Adaptive naive bayes

Teorema Bayes adalah teorema yang digunakan dalam statistika untuk menghitung peluang untuk suatu hipotesis. Bayes Optimal Classifier menghitung peluang dari suatu kelas dari masing-masing kelompok atribut yang ada, dan menentukan kelas mana yang paling optimal.

Pengklasifikasian menggunakan Teorema Bayes ini membutuhkan biaya komputasi yang mahal (waktu prosessor dan ukuran memory yang besar) karena kebutuhan untuk menghitung nilai probabilitas untuk tiap nilai dari perkalian kartesius untuk tiap nilai atribut dan tiap nilai kelas. Data latih untuk Teorema Bayes membutuhkan paling tidak perkalian kartesius dari seluruh kelompok atribut yang mungkin, jika misalkan ada 16 atribut yang masing-masingnya berjenis boolean tanpa missing value, maka data latih minimal yang dibutuhkan oleh Teorema bayes untuk digunakan dalam klasifikasi adalah 216 = 65.536 data. Untuk mengatasi kekurangan tersebut maka digunakan Naïve Bayes.

Naïve Bayes Classifier merupakan sebuah metoda klasifikasi yang berakar pada teorema Bayes. Metode pengklasifikasian dengan menggunakan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema Bayes. Ciri utama dari Naïve Bayes Classifier ini adalah asumsi yang sangat kuat (naïf) akan independensi dari masing-masing kondisi atau kejadian.

Menurut Olson dan Delen (2008) menjelaskan Naïve Bayes untuk setiap kelas keputusan, menghitung probabilitas dengan syarat bahwa kelas keputusan adalah benar, mengingat vektor informasi obyek. Algoritma ini mengasumsikan bahwa atribut obyek adalah independen. Probabilitas yang terlibat dalam memproduksi perkiraan akhir dihitung sebagai jumlah frekuensi dari "master" tabel keputusan.

The Naive Bayes Classifier bekerja sangat baik dibanding dengan model classifierlainnya. Hal ini dibuktikan oleh Xhemali, Hinde dan Stone dalam jurnalnya “Naïve Bayes vs. Decision Trees vs. Neural Networks in the Classification of Training Web Pages” mengatakan bahwa “Naïve Bayes Classifier memiliki tingkat akurasi yang lebih baik dibandingmodel classifier lainnya”.

logistic regression

Model regresi logistik digunakan untuk menggambarkan hubungan antara variabel respon biner dengan satu atau beberapa buah variabel prediktor. Menurut Agresti (1996), dalam model regresi logistik dapat menggunakan variabel independen yang berupa kualitatif (berskala pengukuran nominal atau ordinal) atau kuantitatif (berskala pengukuran interval atau rasio) atau gabungan (campuran) dari keduanya. Dalam regresi logistik digunakan link function logit.

Variabel dependen dalam regresi logistik pada umumnya berbentuk dikotomus, dimana variabel dependen dapat mengambil nilai 0 dengan suatu kemungkinan sukses π(x), atau nilai 1 dengan kemungkinan kegagalan 1-π(x). Variabel jenis ini disebut variabel biner.

Seperti yang telah dijelaskan sebelumnya, variabel independen atau prediktor dalam regresi logistik dapat berbentuk apapun, baik itu berbentuk kategori atau kontinu. Selain itu, terdapat juga asumsi-asumsi dalam regresi logistik, yakni tidak harus berdistribusi normal, berhubungan secara linier atau memiliki varians yang sama di dalam masing-masing kelompok. Hubungan antara variabel prediksi dan variabel respon bukanlah suatu fungsi linier dalam regresi logistik, sebagai alternatif, fungsi regresi logistik yang digunakan merupakan transformasi logit dari π(x):

dimana α = konstanta, β = koefisien regresi, dan i = banyaknya variabel independen. Namun terdapat suatu bentuk alternatif dari persamaan regresi logistik, yaitu:

Untuk menaksir parameter dalam model regresi logistik digunakan metode penaksiran maximum likelihood melalui iterasi. Dengan cara ini, regresi logistik menaksir peluang terjadinya suatu peristiwa tertentu. Perhatikan bahwa regresi logistik menghitung perubahan dalam log odds variabel dependen, bukan perubahan dalam variabel dependen itu sendiri seperti halnya pada regresi linier biasa.

Odds dapat diartikan sebagai rasio antara dua peluang, seperti rasio antara peluang peristiwa sukses dengan peluang peristiwa gagal. Nilai odds yang tinggi dapat disamakan dengan nilai peluang yang tinggi. Begitu pula sebaliknya, nilai odds yang rendah sesuai dengan nilai peluang yang rendah. Odds yang dinotasikan oleh θ dapat dirumuskan sebagai berikut:

Untuk menghitung asosiasi X dan Y dapat diperlihatkan melalui rasio dua buah odds yang disebut Odds Ratio, yang mana dinotasikan oleh ψ dengan perumusan sebagai berikut:

Regresi logistik memiliki banyak kesamaan dengan regresi linier biasa: koefisien logit dapat disamakan dengan koefisien β dalam persamaan regresi linier biasa, koefisien logit yang distandarisasi dapat disamakan dengan β yang diboboti, dan R2 untuk meringkas kekuatan hubungan. Walau bagaimanapun tidak seperti regresi linier biasa, regresi logistik tidak mengasumsikan hubungan linier antara variabel independen dan variabel dependen, tidak memerlukan variabel yang berdistribusi normal, tidak mengasumsikan homokedastisitas, dan biasanya memiliki syarat yang lebih sedikit. Akan tetapi, regresi logistik memiliki syarat bahwa pengamatan bersifat independen. Uji kecocokan model dapat dilakukan dengan menggunakan chi-square sebagai indikator kecocokan model, dan statistik Wald untuk menguji signifikans variabel independen secara individual.

Uji Signifikansi Parameter

Sebelum melakukan uji signifikansi parameter secara individual, lakukan uji signifikansi parameter secara overall terlebih dahulu. Pengujian secara overall dapat disebut juga uji keberartian model, dimana salah satu alat pengujiannya adalah Likelihood Ratio Test. Hipotesis dalam Likelihood Ratio Test adalah H0: β1 = β2 = … = βp = 0, yang menyatakan model tidak berarti. Statistik uji yang digunakan dalam Likelihood Ratio Test, yaitu:

dengan:

l0 : Nilai maksimum dari fungsi likelihood untuk model dibawah hipotesis nol.

l1 : Nilai maksimumdari fungsi likelihood untuk model dibawah hipotesis alternatif.

L0 : Nilai fungsi log likelihood yang maksimum untuk model dibawah hipotesis nol.

L1 : Nilai fungsi log likelihood yang maksimum untuk model dibawah hipotesis alternatif.

Nilai -2(L0–L1) tersebut mengikuti distribusi chi-square dengan df = p. Jika -2(L0–L1) ≥ χ²(p), maka tolak H0, terima dalam hal lainnya. Jika H0 ditolak artinya model berarti, sehingga uji signifikansi parameter dapat dilanjutkan dengan pengujian secara individual untuk mengetahui variabel-variabel X yang signifikan terhadap variabel Y.

Wald Test digunakan untuk menguji signifikans dari tiap koefisien (β) dalam model. Hipotesis dalam Wald Test adalah H0: β = 0, yang menyatakan peluang sukses independen terhadap variabel X. Statistik uji yang digunakan dalam Wald Test, yaitu:

Nilai kuadrat Z tersebut mengikuti distribusi chi-square dengan df = 1. Jika Z² ≥ χ²(1), maka tolak H0, terima dalam hal lainnya.

Uji Kecocokan Model

Salah satu alat yang dapat digunakan untuk menguji kecocokan model dari regresi logistik adalah Uji Hosmer-Lemeshow. Statistik Hosmer-Lemeshow mengevaluasi kecocokan model dengan membuat 10 kelompok pengamatan yang direncanakan dan kemudian dibandingkan dengan jumlah yang sebenarnya pada masing-masing kelompok (yang diamati) dengan jumlah yang diprediksi oleh model regresi logistik (yang diprediksi). Sehingga, statistik uji adalah suatu statistik chi-square dengan df = g-2, dimana g adalah banyaknya kelompok. Hipotesis (H0) dalam uji Hosmer-Lemeshow adalah model prediksi dengan yang diamati tidak berbeda secara signifikan.

Langkah-langkah dalam uji Hosmer-Lemeshow adalah sebagai berikut:

Koefisien Determinasi

Koefisien determinasi dapat menjelaskan besarnya kekuatan hubungan antara variabel dependen dengan variabel independen. Koefisien determinasi pada regresi linier tidak dapat digunakan pada analisis regresi logistik karena dalam analisis regresi linier biasa terdapat asumsi bahwa variabel dependen harus berupa metrik.

Agresti (1990), mengemukakan suatu nilai koefisien determinasi pada model regresi logistik untuk variabel dependen berupa biner yaitu (koefisien determinasi) dan R²0,adj (koefisien determinasi yang disesuaikan), yang dapat dirumuskan sebagai berikut:

Bentuk sepuluh kelompok pengamatan yang dapat menggunakan dua cara, yaitu:

a. Pengamatan dapat dikelompokkan berdasarkan peluang taksirannya; yaitu pengamatan yang mempunyai peluang taksiran 0-0,1 membentuk satu kelompok, kemudian pengamatan yang mempunyai peluang taksiran 0,1-0,2 membentuk satu kelompok pula, dan begitu seterusnya, sampai kepada pengamatan yang mempunyai peluang 0,9-1,0.

b. Pengamatan dikelompokkan berdasarkan persentil dari nilai peluang taksirannya; yaitu kelompok pertama beranggotakan n1 = n/10 pengamatan yang memiliki peluang taksiran terkecil, dan begitu seterusnya hingga kelompok terakhir beranggotakan n10 = n/10 pengamatan yang memiliki peluang taksiran terbesar.

Masing-masing kelompok tersebut selanjutnya dibagi menjadi dua kelompok berdasarkan variabel hasil pengamatan yang sebenarnya (sukses, gagal). Kemudian sebagian besar pengamatan dengan peristiwa sukses digolongkan dalam desil resiko yang lebih tinggi dan pengamatan dengan peristiwa gagal digolongkan dalam desil resiko yang lebih rendah.

Hitung statistik chi-square dengan perumusan sebagai berikut:

dengan:

Ni : Total frekuensi pengamatan kelompok ke-i,

Oi : Frekuensi pengamatan kelompok ke-i,

πi : Rata-rata taksiran peluang kelompok ke-i.

Bandingkan dengan nilai χ² pada tabel chi-square dengan df = g-2, dimana g adalah banyaknya kelompok. Jika χ²HL ≥ χ²(g-2) maka tolak hipotesis (H0), dan terima dalam hal lainnya.

Koefisien Determinasi

dan R²0,adj sebagai berikut:

dengan:

n: banyaknya pengamatan

k: banyaknya prediktor

Untuk memudahkan proses estimasi model, kita dapat menggunakan software statistik seperti SPSS, Stata, Minitab, atau yang lainnya. Pada artikel berikutnya akan dijelaskan langkah-langkah analisa dan interpretasi model binary logistic regression dengan menggunakan software SPSS.

Pengertian pola SVM

PENGERTIAN

Support Vector Machine (SVM) adalah salah satu metode PR yang akhir-akhir ini banyak mendapat perhatian. Support Vector Machine (SVM)dikembangkan oleh Boser, Guyon, Vapnik, dan pertama kali dipresentasikanpada tahun 1992 di Annual Workshop on Computational Learning Theory.Konsep dasar SVM sebenarnya merupakan kombinasi harmonis dari teoriteorikomputasi yang telah ada puluhan tahun sebelumnya, seperti margin hyperplane(Duda & Hart tahun 1973, Cover tahun 1965, Vapnik 1964, dsb.), kerneldiperkenalkan oleh Aronszajn tahun 1950, dan demikian juga dengan konsep-konsep pendukung yang lain. Akan tetapi hingga tahun 1992, belum pernah adaupaya merangkaikan komponen – ,komponen tersebut. Prinsip dasar SVM adalahlinear classifier, dan selanjutnya dikembangkan agar dapat bekerja pada problemnon-linear. dengan memasukkan konsep kernel trick pada ruang kerja berdimensitinggi.

Support Vector Machine

(SVM ) juga dikenal sebagai teknik pembelajaranmesin (machine learning) paling mutakhir setelah pembelajaran mesinsebelumnya yang dikenal sebagai Neural Network ( NN). Baik SVM maupun NN tersebut telah berhasil digunakan dalam pengenalan pola. Pembelajarandilakukan dengan menggunakan pasangan data input dan data output berupasasaran yang diinginkan. Pembelajaran dengan cara ini disebut denganpembelajaran terarah (supervised learning). Dengan pembelajaran terarah iniakan diperoleh fungsi yang menggambarkan bentuk ketergantungan input danoutputnya. Selanjutnya, diharapkan fungsi yang diperoleh mempunyaikemampuan generalisasi yang baik, dalam arti bahwa fungsi tersebut dapat digunakan untuk data input di luar data pembelajaran.

SUPPORT VECTOR MACHINE (UMUM)

Konsep SVM dapat dijelaskan secara sederhana sebagai usaha mencarihyperplane terbaik yang berfungsi sebagai pemisah dua buah class pada input space.Gambar 1a memperlihatkan beberapa pattern yang merupakan anggota dari dua buahclass : positif (dinotasikan dengan +1) dan negatif (dinotasikan dengan –1). Patternyang tergabung pada class negatif disimbolkan dengan kotak, sedangkan pattern padaclass positif, disimbolkan dengan lingkaran. Proses pembelajaran dalam problemklasifikasi diterjemahkan sebagai upaya menemukan garis (hyperplane) yangmemisahkan antara kedua kelompok tersebut. Berbagai alternatif garis pemisah(discrimination boundaries) ditunjukkan pada Gambar 1a.Hyperplane pemisah terbaik antara kedua class dapat ditemukan dengan mengukurmargin hyperplane tsb. dan mencari titik maksimalnya. Margin adalah jarak antarahyperplane tersebut dengan data terdekat dari masing-masing class. Subset datatraining set yang paling dekat ini disebut sebagai support vector Garis solid padaGambar 1b menunjukkan hyperplane yang terbaik, yaitu yang terletak tepat pada tengah-tengah kedua class, sedangkan titik kotak dan lingkaran yang berada dalamlingkaran hitam adalah support vector. Upaya mencari lokasi hyperplane optimal inimerupakan inti dari proses pembelajaran pada SVMD data yang tersedia dinotasikan sebagai sedangkan label masing-masingdinotasikan untuk

i= 1,2,…,l, yang mana

l adalah banyaknya data.Diasumsikan kedua class – 1 dan +1 dapat terpisah secara sempurna oleh hyperplane berdimensi d, yang didefinisikan:Sebuah pattern yang termasuk class –1 (sampel negatif) dapat dirumuskansebagai pattern yang memenuhi pertidaksamaan:sedangkan pattern yang termasuk class +1 (sampel positif):

url:

http://dyan123.blogspot.co.id/2012/03/pengertian-decision-tree.html

http://newbiegameku.blogspot.co.id/2014/07/pengertian-decision-tree.html

http://aiidu.blogspot.co.id/2014/09/naive-bayes-classifier.html

http://menrvalab.com/binary-logistic-regression-bagian-1/

http://wayanwidhiblogspotcom.blogspot.co.id/2011/10/pengertian-pola-svm-dan-contohnya_23.html