Berikut adalah tahapan-tahapan dalam pemodelan data. Tahapan-tahapan ini adalah diperoleh dari hasil training tentang Credit Scoring di tempat Praktik Lapang tercinta PT.Ganesha Cipta Informatika. Sang trainer adalah seorang yang sudah berpengalaman dalam masalah pemodelan selama belasan tahun. Beliau kakak kelasqu, Statistika IPB angkatan 27. Sedikit curhat, dari praktek lapang banyak banget ilmu, pengalaman, wawasan dan inspirasi bermanfaat yang qu dapet. Oleh karena itu, aq pengen menuliskan semampuku biar manfaatnya bisa dirasakan sama semua orang yang baca.
Artikel ini lumayan panjang, tapi keep going on ya…
These are the steps :
1. Variable Creation
Selama ini gw cuma tau memodelkan data dengan variabel yang tersedia. Ga pernah berpikir untuk membuat variabel turunan dari variabel yang sudah ada. Nah, ternyata pada dunia pemodelan yang high class, variabel turunan wajib dibuat.
Dari 30 variabel inti bisa didapat 150 atau lebih variabel turunan. Variabel turunan itu bisa apa saja, misalnya average, min, max, dsb. Pembentukan variabel turunan ini menjadi begitu penting karena pada model akhir yang didapat biasanya hanya terdiri dari beberapa variabel inti dan sisanya adalah variabel turunan. Satu hal yang pasti yaitu belum tentu variabel inti adalah variabel terbaik, bisa saja turunannya yang terbaik.
2. Variable Checking
Setelah dibuat variabel turunan dari variabel inti, selanjutnya adalah mengecek keberadaan missing value dan outlier (pencilan). Sehingga, dua tahap terpenting yang harus dilakukan dalam variable checking adalah :
* Missing Value Handling *
Missing value tidak bisa dibiarkan begitu saja, terutama jika analisisnya menggunakan Regresi Logistik, karena analisis tersebut akan membuang semua data yang mengandung missing value. Jadi sayang kan kalau udah capek-capek nyari datanya, malah ga dipake tuk model. Jika data dianalisis dengan classification tree, keberadaan missing value tidak jadi masalah. Classification tree akan menganggap missing value sebagai suatu kategori tersendiri, jadi tidak akan membuangnya.
Ok, dalam pemodelan yang sering dilakukan oleh sang trainer, terdapat 4 cara yang sering dilakukan untuk mengatasi missing value, yaitu :
1. memberikan score dengan nilai terendah
2. memberikan score 0
3. mengisi dengan mean/median/modus
— mean digunakan pada data yang berskala kontinu, misal jumlah pendapatan pada usia tertentu
— median/modus digunakan pada data yang berskala kategorik, misal jenis kelamin
4. memprediksi nilainya dengan regresi linier sederhana
penggunaan metode-metode diatas harus disesuaikan dengan bentuk data dan perlu diperhatikan bahwa pemberian suatu nilai tertentu dipilih tidak hanya berdasarkan data keseluruhan tetapi juga berdasarkan kategori peubah-peubah lain yang bersandingan. Ya, seperti kasus yang jumlah pendapatan tadi, ngisinya jangan langsung rata-rata dari seluruh nilai jumlah pendapatan tapi liat dulu variabel lain kya umur, pekerjaan, jumlah tanggungan.
** Outlier Handling **
Menurut sang trainer, outlier itu cuma punya satu penanganan yaitu “Di Buang”. Walaupun begitu satu hal yang perlu diperhatikan adalah cara mendeteksi outlier. Ada 2 cara yang sering di pake :
* liat dari box plot
** bikin batesan Xbar +/- 3Sigma, outlier tu yang diluar bates.