Pengertian
Decision Tree
Decision Tree (Pohon
Keputusan) adalah pohon dimana setiap cabangnyamenunjukkan pilihan diantara
sejumlah alternatif pilihan yang ada, dan setiapdaunnya menunjukkan keputusan
yang dipilih.Decision tree biasa digunakan untuk mendapatkan informasi untuk
tujuanpengambilan sebuah keputusan. Decision tree dimulai dengan sebuah root
node(titik awal) yang dipakai oleh user untuk mengambil tindakan. Dari node
root ini,user memecahnya sesuai dengan algoritma decision tree. Hasil akhirnya
adalahsebuah decision tree dengan setiap cabangnya menunjukkan
kemungkinansekenario dari keputusan yang diambil serta hasilnya
Decision Tree menggunakan algoritma ID3 atau
C4.5, yang diperkenalkan dan dikembangkan pertama kali oleh Quinlan yang
merupakan singkatan dari Iterative Dichotomiser 3 atau Induction of Decision
“3″ (baca: Tree).
Algoritma ID3 membentuk pohon keputusan dengan metode divide-and-conquer data secara rekursif dari atas ke bawah. Strategi pembentukan Decision Tree dengan algoritma ID3 adalah:
• Pohon dimulai sebagai node tunggal (akar/root) yang merepresentasikan semua data..
• Sesudah node root dibentuk, maka data pada node akar akan diukur dengan information gain untuk dipilih atribut mana yang akan dijadikan atribut pembaginya.
• Sebuah cabang dibentuk dari atribut yang dipilih menjadi pembagi dan data akan didistribusikan ke dalam cabang masing-masing.
• Algoritma ini akan terus menggunakan proses yang sama atau bersifat rekursif untuk dapat membentuk sebuah Decision Tree. Ketika sebuah atribut telah dipilih menjadi node pembagi atau cabang, maka atribut tersebut tidak diikutkan lagi dalam penghitungan nilai information gain.
• Proses pembagian rekursif akan berhenti jika salah satu dari kondisi dibawah ini terpenuhi:
1. Semua data dari anak cabang telah termasuk dalam kelas yang sama.
2. Semua atribut telah dipakai, tetapi masih tersisa data dalam kelas yang berbeda. Dalam kasus ini, diambil data yang mewakili kelas yang terbanyak untuk menjadi label kelas pada node daun.
3. Tidak terdapat data pada anak cabang yang baru. Dalam kasus ini, node daun akan dipilih pada cabang sebelumnya dan diambil data yang mewakili kelas terbanyak untuk dijadikan label kelas.
Algoritma ID3 membentuk pohon keputusan dengan metode divide-and-conquer data secara rekursif dari atas ke bawah. Strategi pembentukan Decision Tree dengan algoritma ID3 adalah:
• Pohon dimulai sebagai node tunggal (akar/root) yang merepresentasikan semua data..
• Sesudah node root dibentuk, maka data pada node akar akan diukur dengan information gain untuk dipilih atribut mana yang akan dijadikan atribut pembaginya.
• Sebuah cabang dibentuk dari atribut yang dipilih menjadi pembagi dan data akan didistribusikan ke dalam cabang masing-masing.
• Algoritma ini akan terus menggunakan proses yang sama atau bersifat rekursif untuk dapat membentuk sebuah Decision Tree. Ketika sebuah atribut telah dipilih menjadi node pembagi atau cabang, maka atribut tersebut tidak diikutkan lagi dalam penghitungan nilai information gain.
• Proses pembagian rekursif akan berhenti jika salah satu dari kondisi dibawah ini terpenuhi:
1. Semua data dari anak cabang telah termasuk dalam kelas yang sama.
2. Semua atribut telah dipakai, tetapi masih tersisa data dalam kelas yang berbeda. Dalam kasus ini, diambil data yang mewakili kelas yang terbanyak untuk menjadi label kelas pada node daun.
3. Tidak terdapat data pada anak cabang yang baru. Dalam kasus ini, node daun akan dipilih pada cabang sebelumnya dan diambil data yang mewakili kelas terbanyak untuk dijadikan label kelas.
Beberapa contoh pemakaian Decision Tree,yaitu :
• Diagnosa penyakit tertentu, seperti hipertensi, kanker, stroke dan lain-lain
• Pemilihan produk seperti rumah, kendaraan, komputerdanlain-lain
• Pemilihan pegawai teladan sesuai dengan kriteria tertentu
• Deteksi gangguan pada computer atau jaringan computer seperti Deteksi Entrusi, deteksi virus (Trojan dan varians),dan lain-lain
• Diagnosa penyakit tertentu, seperti hipertensi, kanker, stroke dan lain-lain
• Pemilihan produk seperti rumah, kendaraan, komputerdanlain-lain
• Pemilihan pegawai teladan sesuai dengan kriteria tertentu
• Deteksi gangguan pada computer atau jaringan computer seperti Deteksi Entrusi, deteksi virus (Trojan dan varians),dan lain-lain
Pada project ini,Kami mencoba mengakali konsep
decision tree dengan cara,mengubah implementasinya pada penjumlahan nilai dari
tiap kepribadian.
Jadi gini,gampangannya..
Jadi gini,gampangannya..
Kunci dari program kami terletak pada pertanyaan
utama.Jadi gini,4 kepribadian itu dibagi menjadi 2 golongan besar, yaitu
:
Ekstrovert : sanguinis dan Koleris
Introvert : Melankolis dan Plegmatis
Introvert : Melankolis dan Plegmatis
Nilai Ekstrovert : sanguinis + Koleris
Nilia Introvert : Melankolis + Plegmatis
pertanyaan pertama pada aplikasi kami adalah mengkondisikan apakah jumlah nilai ekstrovert >= introvert.
apabila benar maka,tinggal membandingkan nilai sanguinis dan koleris,en klo jawabannya salah,maka program akan membandingkan nilai melankolis dan plegmatis.
Hasilnya adalah nilai kepribadian yang paling besar.
oia,setiap Nilai yang didapat akan disimpan kedalam temp,dan akan dimunculkan dalam bentuk grafik di program.
Nilia Introvert : Melankolis + Plegmatis
pertanyaan pertama pada aplikasi kami adalah mengkondisikan apakah jumlah nilai ekstrovert >= introvert.
apabila benar maka,tinggal membandingkan nilai sanguinis dan koleris,en klo jawabannya salah,maka program akan membandingkan nilai melankolis dan plegmatis.
Hasilnya adalah nilai kepribadian yang paling besar.
oia,setiap Nilai yang didapat akan disimpan kedalam temp,dan akan dimunculkan dalam bentuk grafik di program.
Contoh Pemanfaatan Decision Tree
- Diagnosa
beberapa penyakit seperti kanker, hipertensi, stroke.
- Menentukan
apakah dengan kondisi yang ada layak untuk bermaintenis atau tidak
- Menentukan
apakah sebuah investasi bisnis layak dilakukan atau tidak
- Pemilihan
pegawai teladan sesuai dengan kriteria tertentu
- Deteksi
gangguan pada komputer atau jaringan komputer
- Pemilihan
produk seperti rumah, kendaraan dan lain lain
Adaptive naive bayes
Teorema Bayes adalah teorema
yang digunakan dalam statistika untuk menghitung peluang untuk suatu hipotesis.
Bayes Optimal Classifier menghitung peluang dari suatu kelas dari masing-masing
kelompok atribut yang ada, dan menentukan kelas mana yang paling optimal.
Pengklasifikasian
menggunakan Teorema Bayes ini membutuhkan biaya komputasi yang mahal (waktu
prosessor dan ukuran memory yang besar) karena kebutuhan untuk menghitung nilai
probabilitas untuk tiap nilai dari perkalian kartesius untuk tiap nilai atribut
dan tiap nilai kelas. Data latih untuk Teorema Bayes membutuhkan paling tidak
perkalian kartesius dari seluruh kelompok atribut yang mungkin, jika misalkan
ada 16 atribut yang masing-masingnya berjenis boolean tanpa missing value, maka
data latih minimal yang dibutuhkan oleh Teorema bayes untuk digunakan dalam
klasifikasi adalah 216 = 65.536 data. Untuk mengatasi kekurangan tersebut maka
digunakan Naïve Bayes.
Naïve Bayes
Classifier merupakan sebuah metoda klasifikasi yang
berakar pada teorema
Bayes. Metode pengklasifikasian dengan menggunakan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan
Inggris Thomas Bayes, yaitu memprediksi peluang
di masa depan
berdasarkan pengalaman di masa
sebelumnya sehingga dikenal
sebagai Teorema Bayes.
Ciri utama dari Naïve Bayes
Classifier ini adalah asumsi yang sangat kuat
(naïf) akan independensi
dari masing-masing kondisi atau
kejadian.
Menurut Olson dan Delen
(2008) menjelaskan Naïve
Bayes untuk setiap kelas
keputusan, menghitung probabilitas dengan syarat bahwa kelas keputusan
adalah benar, mengingat vektor informasi obyek. Algoritma ini
mengasumsikan bahwa atribut obyek
adalah independen.
Probabilitas yang terlibat
dalam memproduksi perkiraan akhir dihitung sebagai jumlah frekuensi dari
"master" tabel keputusan.
The Naive
Bayes Classifier bekerja sangat
baik dibanding dengan model classifierlainnya. Hal ini dibuktikan
oleh Xhemali, Hinde dan Stone dalam jurnalnya “Naïve Bayes vs. Decision Trees
vs. Neural Networks in the Classification
of Training Web
Pages” mengatakan bahwa
“Naïve Bayes Classifier memiliki
tingkat akurasi yang lebih baik dibandingmodel classifier lainnya”.
logistic regression
Model regresi logistik
digunakan untuk menggambarkan hubungan antara variabel respon biner dengan satu
atau beberapa buah variabel prediktor. Menurut Agresti (1996), dalam model
regresi logistik dapat menggunakan variabel independen yang berupa kualitatif
(berskala pengukuran nominal atau ordinal) atau kuantitatif (berskala
pengukuran interval atau rasio) atau gabungan (campuran) dari keduanya. Dalam
regresi logistik digunakan link function logit.
Variabel dependen dalam
regresi logistik pada umumnya berbentuk dikotomus, dimana variabel dependen
dapat mengambil nilai 0 dengan suatu kemungkinan sukses π(x), atau nilai 1
dengan kemungkinan kegagalan 1-π(x). Variabel jenis ini disebut variabel biner.
Seperti yang telah
dijelaskan sebelumnya, variabel independen atau prediktor dalam regresi
logistik dapat berbentuk apapun, baik itu berbentuk kategori atau kontinu.
Selain itu, terdapat juga asumsi-asumsi dalam regresi logistik, yakni tidak
harus berdistribusi normal, berhubungan secara linier atau memiliki varians
yang sama di dalam masing-masing kelompok. Hubungan antara variabel prediksi
dan variabel respon bukanlah suatu fungsi linier dalam regresi logistik,
sebagai alternatif, fungsi regresi logistik yang digunakan merupakan transformasi
logit dari π(x):
dimana α = konstanta, β =
koefisien regresi, dan i = banyaknya variabel independen. Namun terdapat suatu
bentuk alternatif dari persamaan regresi logistik, yaitu:
Untuk menaksir parameter
dalam model regresi logistik digunakan metode penaksiran maximum likelihood
melalui iterasi. Dengan cara ini, regresi logistik menaksir peluang terjadinya
suatu peristiwa tertentu. Perhatikan bahwa regresi logistik menghitung
perubahan dalam log odds variabel dependen, bukan perubahan dalam variabel dependen
itu sendiri seperti halnya pada regresi linier biasa.
Odds dapat diartikan sebagai
rasio antara dua peluang, seperti rasio antara peluang peristiwa sukses dengan
peluang peristiwa gagal. Nilai odds yang tinggi dapat disamakan dengan nilai
peluang yang tinggi. Begitu pula sebaliknya, nilai odds yang rendah sesuai
dengan nilai peluang yang rendah. Odds yang dinotasikan oleh θ dapat dirumuskan
sebagai berikut:
Untuk menghitung asosiasi X
dan Y dapat diperlihatkan melalui rasio dua buah odds yang disebut Odds Ratio,
yang mana dinotasikan oleh ψ dengan perumusan sebagai berikut:
Regresi logistik memiliki
banyak kesamaan dengan regresi linier biasa: koefisien logit dapat disamakan
dengan koefisien β dalam persamaan regresi linier biasa, koefisien logit yang
distandarisasi dapat disamakan dengan β yang diboboti, dan R2 untuk meringkas
kekuatan hubungan. Walau bagaimanapun tidak seperti regresi linier biasa,
regresi logistik tidak mengasumsikan hubungan linier antara variabel independen
dan variabel dependen, tidak memerlukan variabel yang berdistribusi normal,
tidak mengasumsikan homokedastisitas, dan biasanya memiliki syarat yang lebih
sedikit. Akan tetapi, regresi logistik memiliki syarat bahwa pengamatan
bersifat independen. Uji kecocokan model dapat dilakukan dengan menggunakan
chi-square sebagai indikator kecocokan model, dan statistik Wald untuk menguji
signifikans variabel independen secara individual.
Uji Signifikansi Parameter
Sebelum melakukan uji
signifikansi parameter secara individual, lakukan uji signifikansi parameter
secara overall terlebih dahulu. Pengujian secara overall dapat disebut juga uji
keberartian model, dimana salah satu alat pengujiannya adalah Likelihood Ratio
Test. Hipotesis dalam Likelihood Ratio Test adalah H0: β1 = β2 = … = βp = 0,
yang menyatakan model tidak berarti. Statistik uji yang digunakan dalam
Likelihood Ratio Test, yaitu:
dengan:
l0 : Nilai maksimum dari
fungsi likelihood untuk model dibawah hipotesis nol.
l1 : Nilai maksimumdari
fungsi likelihood untuk model dibawah hipotesis alternatif.
L0 : Nilai fungsi log
likelihood yang maksimum untuk model dibawah hipotesis nol.
L1 : Nilai fungsi log
likelihood yang maksimum untuk model dibawah hipotesis alternatif.
Nilai -2(L0–L1) tersebut
mengikuti distribusi chi-square dengan df = p. Jika -2(L0–L1) ≥ χ²(p), maka
tolak H0, terima dalam hal lainnya. Jika H0 ditolak artinya model berarti,
sehingga uji signifikansi parameter dapat dilanjutkan dengan pengujian secara
individual untuk mengetahui variabel-variabel X yang signifikan terhadap
variabel Y.
Wald Test digunakan untuk
menguji signifikans dari tiap koefisien (β) dalam model. Hipotesis dalam Wald
Test adalah H0: β = 0, yang menyatakan peluang sukses independen terhadap
variabel X. Statistik uji yang digunakan dalam Wald Test, yaitu:
Nilai kuadrat Z tersebut
mengikuti distribusi chi-square dengan df = 1. Jika Z² ≥ χ²(1), maka tolak H0,
terima dalam hal lainnya.
Uji Kecocokan Model
Salah satu alat yang dapat
digunakan untuk menguji kecocokan model dari regresi logistik adalah Uji
Hosmer-Lemeshow. Statistik Hosmer-Lemeshow mengevaluasi kecocokan model dengan
membuat 10 kelompok pengamatan yang direncanakan dan kemudian dibandingkan
dengan jumlah yang sebenarnya pada masing-masing kelompok (yang diamati) dengan
jumlah yang diprediksi oleh model regresi logistik (yang diprediksi). Sehingga,
statistik uji adalah suatu statistik chi-square dengan df = g-2, dimana g
adalah banyaknya kelompok. Hipotesis (H0) dalam uji Hosmer-Lemeshow adalah
model prediksi dengan yang diamati tidak berbeda secara signifikan.
Langkah-langkah dalam uji
Hosmer-Lemeshow adalah sebagai berikut:
Koefisien Determinasi
Koefisien determinasi dapat
menjelaskan besarnya kekuatan hubungan antara variabel dependen dengan variabel
independen. Koefisien determinasi pada regresi linier tidak dapat digunakan
pada analisis regresi logistik karena dalam analisis regresi linier biasa
terdapat asumsi bahwa variabel dependen harus berupa metrik.
Agresti (1990), mengemukakan
suatu nilai koefisien determinasi pada model regresi logistik untuk variabel
dependen berupa biner yaitu (koefisien
determinasi) dan R²0,adj (koefisien determinasi yang disesuaikan), yang dapat
dirumuskan sebagai berikut:
Bentuk sepuluh kelompok
pengamatan yang dapat menggunakan dua cara, yaitu:
a. Pengamatan dapat
dikelompokkan berdasarkan peluang taksirannya; yaitu pengamatan yang mempunyai
peluang taksiran 0-0,1 membentuk satu kelompok, kemudian pengamatan yang
mempunyai peluang taksiran 0,1-0,2 membentuk satu kelompok pula, dan begitu
seterusnya, sampai kepada pengamatan yang mempunyai peluang 0,9-1,0.
b. Pengamatan dikelompokkan
berdasarkan persentil dari nilai peluang taksirannya; yaitu kelompok pertama
beranggotakan n1 = n/10 pengamatan yang memiliki peluang taksiran terkecil, dan
begitu seterusnya hingga kelompok terakhir beranggotakan n10 = n/10 pengamatan
yang memiliki peluang taksiran terbesar.
Masing-masing kelompok
tersebut selanjutnya dibagi menjadi dua kelompok berdasarkan variabel hasil
pengamatan yang sebenarnya (sukses, gagal). Kemudian sebagian besar pengamatan
dengan peristiwa sukses digolongkan dalam desil resiko yang lebih tinggi dan
pengamatan dengan peristiwa gagal digolongkan dalam desil resiko yang lebih
rendah.
Hitung statistik chi-square
dengan perumusan sebagai berikut:
dengan:
Ni : Total frekuensi
pengamatan kelompok ke-i,
Oi : Frekuensi pengamatan
kelompok ke-i,
πi : Rata-rata taksiran
peluang kelompok ke-i.
Bandingkan dengan nilai χ²
pada tabel chi-square dengan df = g-2, dimana g adalah banyaknya kelompok. Jika
χ²HL ≥ χ²(g-2) maka tolak hipotesis (H0), dan terima dalam hal lainnya.
Koefisien Determinasi
Koefisien determinasi dapat
menjelaskan besarnya kekuatan hubungan antara variabel dependen dengan variabel
independen. Koefisien determinasi pada regresi linier tidak dapat digunakan
pada analisis regresi logistik karena dalam analisis regresi linier biasa
terdapat asumsi bahwa variabel dependen harus berupa metrik.
Agresti (1990), mengemukakan
suatu nilai koefisien determinasi pada model regresi logistik untuk variabel
dependen berupa biner yaitu (koefisien
determinasi) dan R²0,adj (koefisien determinasi yang disesuaikan), yang dapat
dirumuskan sebagai berikut:
dan R²0,adj sebagai berikut:
dengan:
n: banyaknya pengamatan
k: banyaknya prediktor
Untuk memudahkan proses
estimasi model, kita dapat menggunakan software statistik seperti SPSS, Stata,
Minitab, atau yang lainnya. Pada artikel berikutnya akan dijelaskan
langkah-langkah analisa dan interpretasi model binary logistic regression
dengan menggunakan software SPSS.
Pengertian pola SVM
PENGERTIAN
Support Vector Machine (SVM)
adalah salah satu metode PR yang akhir-akhir ini banyak mendapat perhatian.
Support Vector Machine (SVM)dikembangkan oleh Boser, Guyon, Vapnik, dan pertama
kali dipresentasikanpada tahun 1992 di Annual Workshop on Computational
Learning Theory.Konsep dasar SVM sebenarnya merupakan kombinasi harmonis dari
teoriteorikomputasi yang telah ada puluhan tahun sebelumnya, seperti margin
hyperplane(Duda & Hart tahun 1973, Cover tahun 1965, Vapnik 1964, dsb.),
kerneldiperkenalkan oleh Aronszajn tahun 1950, dan demikian juga dengan
konsep-konsep pendukung yang lain. Akan tetapi hingga tahun 1992, belum pernah
adaupaya merangkaikan komponen – ,komponen tersebut. Prinsip dasar SVM
adalahlinear classifier, dan selanjutnya dikembangkan agar dapat bekerja pada
problemnon-linear. dengan memasukkan konsep kernel trick pada ruang kerja
berdimensitinggi.
Support Vector Machine
(SVM ) juga dikenal sebagai
teknik pembelajaranmesin (machine learning) paling mutakhir setelah
pembelajaran mesinsebelumnya yang dikenal sebagai Neural Network ( NN). Baik
SVM maupun NN tersebut telah berhasil digunakan dalam pengenalan pola.
Pembelajarandilakukan dengan menggunakan pasangan data input dan data output
berupasasaran yang diinginkan. Pembelajaran dengan cara ini disebut
denganpembelajaran terarah (supervised learning). Dengan pembelajaran terarah
iniakan diperoleh fungsi yang menggambarkan bentuk ketergantungan input
danoutputnya. Selanjutnya, diharapkan fungsi yang diperoleh mempunyaikemampuan
generalisasi yang baik, dalam arti bahwa fungsi tersebut dapat digunakan untuk
data input di luar data pembelajaran.
SUPPORT VECTOR MACHINE
(UMUM)
Konsep SVM dapat dijelaskan
secara sederhana sebagai usaha mencarihyperplane terbaik yang berfungsi sebagai
pemisah dua buah class pada input space.Gambar 1a memperlihatkan beberapa
pattern yang merupakan anggota dari dua buahclass : positif (dinotasikan dengan
+1) dan negatif (dinotasikan dengan –1). Patternyang tergabung pada class
negatif disimbolkan dengan kotak, sedangkan pattern padaclass positif,
disimbolkan dengan lingkaran. Proses pembelajaran dalam problemklasifikasi
diterjemahkan sebagai upaya menemukan garis (hyperplane) yangmemisahkan antara
kedua kelompok tersebut. Berbagai alternatif garis pemisah(discrimination
boundaries) ditunjukkan pada Gambar 1a.Hyperplane pemisah terbaik antara kedua
class dapat ditemukan dengan mengukurmargin hyperplane tsb. dan mencari titik
maksimalnya. Margin adalah jarak antarahyperplane tersebut dengan data terdekat
dari masing-masing class. Subset datatraining set yang paling dekat ini disebut
sebagai support vector Garis solid padaGambar 1b menunjukkan hyperplane yang
terbaik, yaitu yang terletak tepat pada tengah-tengah kedua class, sedangkan
titik kotak dan lingkaran yang berada dalamlingkaran hitam adalah support
vector. Upaya mencari lokasi hyperplane optimal inimerupakan inti dari proses
pembelajaran pada SVMD data yang tersedia dinotasikan sebagai sedangkan label
masing-masingdinotasikan untuk
i= 1,2,…,l, yang mana
l adalah banyaknya
data.Diasumsikan kedua class – 1 dan +1 dapat terpisah secara sempurna oleh
hyperplane berdimensi d, yang didefinisikan:Sebuah pattern yang termasuk class
–1 (sampel negatif) dapat dirumuskansebagai pattern yang memenuhi
pertidaksamaan:sedangkan pattern yang termasuk class +1 (sampel positif):
url:
Komentar
Posting Komentar