Indaizy’s Weblog

Data Modeling

Maret 5, 2009 · & Komentar

Berikut adalah tahapan-tahapan dalam pemodelan data. Tahapan-tahapan ini adalah diperoleh dari hasil training tentang Credit Scoring di tempat Praktik Lapang tercinta PT.Ganesha Cipta Informatika. Sang trainer adalah seorang yang sudah berpengalaman dalam masalah pemodelan selama belasan tahun. Beliau kakak kelasqu, Statistika IPB angkatan 27. Sedikit curhat, dari praktek lapang banyak banget ilmu, pengalaman, wawasan dan inspirasi bermanfaat yang qu dapet. Oleh karena itu, aq pengen menuliskan semampuku biar manfaatnya bisa dirasakan sama semua orang yang baca.

Artikel ini lumayan panjang, tapi keep going on ya…
These are the steps :

1. Variable Creation

Selama ini gw cuma tau memodelkan data dengan variabel yang tersedia. Ga pernah berpikir untuk membuat variabel turunan dari variabel yang sudah ada. Nah, ternyata pada dunia pemodelan yang high class, variabel turunan wajib dibuat.

Dari 30 variabel inti bisa didapat 150 atau lebih variabel turunan. Variabel turunan itu bisa apa saja, misalnya average, min, max, dsb. Pembentukan variabel turunan ini menjadi begitu penting karena pada model akhir yang didapat biasanya hanya terdiri dari beberapa variabel inti dan sisanya adalah variabel turunan. Satu hal yang pasti yaitu belum tentu variabel inti adalah variabel terbaik, bisa saja turunannya yang terbaik.

2. Variable Checking

Setelah dibuat variabel turunan dari variabel inti, selanjutnya adalah mengecek keberadaan missing value dan outlier (pencilan). Sehingga, dua tahap terpenting yang harus dilakukan dalam variable checking adalah :

* Missing Value Handling *

Missing value tidak bisa dibiarkan begitu saja, terutama jika analisisnya menggunakan Regresi Logistik, karena analisis tersebut akan membuang semua data yang mengandung missing value. Jadi sayang kan kalau udah capek-capek nyari datanya, malah ga dipake tuk model. Jika data dianalisis dengan classification tree, keberadaan missing value tidak jadi masalah. Classification tree akan menganggap missing value sebagai suatu kategori tersendiri, jadi tidak akan membuangnya.

Ok, dalam pemodelan yang sering dilakukan oleh sang trainer, terdapat 4 cara yang sering dilakukan untuk mengatasi missing value, yaitu :

1. memberikan score dengan nilai terendah
2. memberikan score 0
3. mengisi dengan mean/median/modus
— mean digunakan pada data yang berskala kontinu, misal jumlah pendapatan pada usia tertentu
— median/modus digunakan pada data yang berskala kategorik, misal jenis kelamin
4. memprediksi nilainya dengan regresi linier sederhana

penggunaan metode-metode diatas harus disesuaikan dengan bentuk data dan perlu diperhatikan bahwa pemberian suatu nilai tertentu dipilih tidak hanya berdasarkan data keseluruhan tetapi juga berdasarkan kategori peubah-peubah lain yang bersandingan. Ya, seperti kasus yang jumlah pendapatan tadi, ngisinya jangan langsung rata-rata dari seluruh nilai jumlah pendapatan tapi liat dulu variabel lain kya umur, pekerjaan, jumlah tanggungan.

** Outlier Handling **

Menurut sang trainer, outlier itu cuma punya satu penanganan yaitu “Di Buang”. Walaupun begitu satu hal yang perlu diperhatikan adalah cara mendeteksi outlier. Ada 2 cara yang sering di pake :

* liat dari box plot

** bikin batesan Xbar +/- 3Sigma, outlier tu yang diluar bates.

Baca terus →

→ 3 CommentsKategori: Uncategorized

pencuri beng-beng…

Januari 29, 2009 · & Komentar

melicul ku harap kau membacanya…

aq hanya berniat iseng..

tidakkah kau mau mengambil beng-beng itu dariqu

a..k..u..i..k..h..l..a..s..

ntar kapan2 klo ketemu qu balikin

(k..l..o..m..a..s..i..h..a..d..a)

→ 2 CommentsKategori: Uncategorized

2 hari lagi SU

Desember 21, 2008 · 1 Komentar

2 hari lagi BEM FMIPA2007/2008 akan menghadapi Sidang Umum

ya sidang untuk semua LPJ yang telah masuk ke DPM

rasa khawatir merasuki setiap diri anggota BEM-G yang aktif

terutama bagi mereka yang memang mempunyai tanggung jawab terbesar akan hal itu….

hari ini Sidang Umum GSB berlangsung dengan baik

mudah2an Sidang Umum BEM G juga berlangsuing dengan baik

semua LPJ diterima tanpa terkecuali

deg…deg…deg…

yang paling takut LPJ ga diterima tu mungkin gw

Infokom adalah departemen yang paling fluktuatif di BEM G tahun ini

gw sebagai pemegang tanggung jawab terbesar di Infokom bener2 dalam kecemasan yang nyata

gw dah berusaha semaksimal mungkin tuk ngebangkitin lagi departemen ini

dengan minimnya pengalaman organisasi yang gw punya

hanya sebatas apa yang tertulis di LPJ lah yang mampu gw berikan

andai mereka yang memeriksa itu tahu bagaimana perjuangan dibalik setiap kegiatan….

mereka pasti tidak akan tega mengeluarkan pernyataan penolakan

………..

banyak pelajaran dan pengalaman yang gw dapet dari sini

pelajaran tuk dapat menjadi….

seorang pemimpin yang mampu mendengarkan setiap aspirasi dari teman2 yang mendukungnya

seorang yang mampu menghandle setiap kegiatan saat yang lain tidak mampu

seorang yang mampu untuk mengandalkan dirinya dan teman2nya dalam menyelesailkan kewajiban bersama

seorang yang tidak boleh terbawa dalam keluhannya menghadapi segala persoalan

seorang yang tidak ingin mengecewakan ketuanya, organisasinya, jurusannya, dan fakultasnya

sorang yang selalu berusaha optimal sesuai kemampuannya

”””””””””””””””””””””””””’SIDANG UMUM”"”"”"”"”"”"”"”"”"”"”"”"”"”

tinggal 2 hari lagi masa jabatan sebagai pemimpin, gw ga boleh melewatkan setiap detik ini untuk kegiatan yang sia-sia

gw harus memanfaatkan waktu ini untuk mengeratkan teman2

gw ga boleh meninggalkan penyesalan yang lebih besar lagi terhadap organisasi ini dan lainnya…

BANGKIT….

SEMANGAT…

after 23 Desember 2008……………..

setelah ini gw berharap waktu yang gw punya akan menjadi waktu2 terbaik dalam hidup gw dan orang lain

menjadi waktu2 yang berisi kegiatan bermanfaat bukan hanya tuk pribadi dan lingkungan tapi tuk semuanya

tuk agama, bangsa, negara, dan dunia..

Amin…

→ 1 CommentKategori: Uncategorized

Hosting WEB BEM FMIPA

Desember 19, 2008 · & Komentar

oh…. sungguh salah perhitungan

kata seorang teman yang sangat terpercaya

hosting bisa hanya 10 menit saja

tapi apa yang terjadi…..?????

qu sudah tiga jam di nature dan ga selesai2 mpe sekarang

file yang diupload baru setengah

mo mpe kapan qu disini…..

kemaren ngerjain LPJ n mading terakhir mpe jam 24.00

‘n baru nyampe kostan jam 01.00, muter2 dulu nganter yang laen

hari ini sepertinya tidak akan berbeda jauh dengan kemaren

bagaimana dengan hari esok????

ah….pokoknya selalu semangat

semua nak MIPA kudu ngakses bemfmipa-ipb.org oke……..

ini adalah perjuangan semalaman di nature….

→ 2 CommentsKategori: Uncategorized

Alhamdulillah..

September 10, 2008 · & Komentar

terkait posting yang duluuuuuu banggetz, dikejar deadline..
akhirnya baru selesai bersihnya sekarang
fyuhh….
untuk sebuah akhir yang baik walaupun itu telat dan rada ga sesuai harapan awal
ya Alhamdulillah…

Alhamdulillah juga,
…if there’s a will, there’s a way…
ndah keterima beasiswa yang memang sangat ndah harepin ‘n butuhin

semua karna keyakinan kali ya
selalu berjuang, ga pernah putus asa
keluhan pada teman2 sebenernya jadi pelengkap usaha
dalam keluhan itu, ada banyak kata2 semangat dan masukan
makasih tuk smua temen2 yang dah jadi pendengar yang sangat Baik
dan konsultan yang Hebat..

yang penting :
yakin bahwa Allah SWT akan selalu memberikan jalan keluar dari masalah2 hambaNya,
jika hambaNya mau berusaha  dan berdoa, tidak pernah ada kata menyerah atau putus asa!!!
selalu bersyukur pada apa yang dia punya….

Alhamdulillah…

→ 6 CommentsKategori: Uncategorized

existance…

September 4, 2008 · & Komentar

i obviously realize that this person has a big influence to me,
that person makes me depend on his existance…
but,
i dont wanna face it just like a routine…
‘coz routine could change
‘n when it change…
i would be on big distortion

pliz never place me on that horrible situation….

→ 3 CommentsKategori: Uncategorized

ralat niey

September 4, 2008 · & Komentar

ralat cerita gw yang sebelumnya niey…
ARIMA yang dimaksud bukan seasonal ARIMA lag 12 tapi ARIMA X12
ARIMA X12 itu mang salah satu pemodelan time series yang ada trading factors
maksud trading factor di kasus ini adalah si HARI RAYA
Jadi..
maklum aja klo gw heran seasonal ARIMA ada faktor lain yang berpengaruh kya hari raya
ternyata mang bukan seasonal tapi ARIMA X12

Kausalitas Grangger itu tuk ngeliat hubungan sebab-akibat.
hub. sebab-akibatnya dilihat dari pola waktu juga krn ada lag-nya
tuk lebih jelas silahkan cari bahan sendiri ye

→ 2 CommentsKategori: Uncategorized

cerita yang telat…

Agustus 15, 2008 · & Komentar

sbenernya gw mo nyeritain ni kemaren, udah ditulis lengkap + pake b.inggris pula tapi pas di publish internetnya expired alias ga connect…cape kan, kecewa berat jadi males mo nulis lagi
tapi skarang i change my mind, masih mo nulis yg kmeren..

jadi gini..(sin maap ya.., sabotase kata2 niey^-^)
kmaren itu gw ngikutin seminar partnership, itu suatu badan yang didirikan oleh pemerintah yang awalnya untuk ngebantu kpk ngeberantas korupsi, ga tau juga sie jelasnya yg gw denger pokoknya b’hub ma pemerintah ‘n korupsi.

partnership diminta sama bappenas tuk ngelakuin banyak hal, dan setiap hal itu sama partnership dibagi2 ke dlm tim2 tersendiri,
kenapa gw nyebut hal2 karna gw juga ga tau apaan aje yang bappenas minta ke partnership,
satu diantara hal itu adalah yang gw lagi kerjain sekarang, gw masuk ke tim’nya bu rina (kadep ie) yang ngurusin download data sekunder eksport ‘n import dari situs www.comtrade.un, teruz dari data2 sekunder itu dibuat satu bentuk database sendiri, nah dari database itu dibikin sistem untuk ngitung indikator2 yang diperlikan, nah sistem itulah yang lagi gw buat..

kembali ke seminar..
kemaren yang jadi pembicaranya ada 2 orang, salah satunya bu rina dan salah duanya pak cecep, kayaknya siey dosen ie juga.

bu rina ngebahas hasil penelitiannya terhadap hasil perhitungan indikator2 tertentu (Opennes, RCA & EPD…, gw cm tau istilah tapi ga tau maknanya apaan…) dengan menggunaan alat tersendiri kya CGE, GEMPACK, ‘n sistem yang gw buat, truz klo pak cecep ngebahas hasil penelitiannya terhadap business cycle ‘n penentuan leading factors( gw juga ga ngerti…)

nah yang menarik adalah penelitian pak cecep ternyata menggunakan seasonal ARIMA lag 12 + hari raya.., jadi pak cecep itu menganggap bahwa hari raya mempunyai pengaruh yang signifikan terhadap objek penelitiannya…

selama ini gw cuma tau klo seasonal ARIMA cm punya lag yang per musim tertentu & ga da embel2 waktu lainnya.., ternyata bisa ada tambahannya juga gitu loch…

truz…
selain seasonal ARIMA, Pak cecep juga make korelasi dinamik
penentuan leading factors itu bener2 ditentuin sm korelasi dinamiknya
tapi yang masih belum memuaskan adalah korelasi yang didapet cuma 0.3an…, so belum cukup merepresentasikan hubungan yang kuat.

variabel apapun klo dicari korelasinya sangat memungkinkan untuk menunjukkan suatu angka, tapi apakah angka tersebut dapat dipercaya sebagai suatu hubungan sebab akibat kan belum tentu.., apalagi kalau nilai korelasinya hanya 0.3

menariknya lagi karena ini menggunakan konsep deret waktu pastilah ada grafik correlation semacam ACF & PACF, ‘n line graph untuk plot datanya. semua grafik yang ditampilin keliatan ruwet. terutana line graph karena line graph itu kan plot datanya. fluktuatif banggetz..,
digrafik itu bukan hanya ada satu garis tapi beberapa, gw kurang ngerti juga tapi ada grafik yang terdiri dari 2 garis, yang satu katanya dari data asli dan satunya lagi pendekatannya.., pak cecep bilang karena grafik pendekatannya mirip data asli makanya bisa dibilaing sebagai suatu variabel substitusi

Pak cecep menyebutkan penelitiannya itu berbasis “logic”, soalnya dia banyak menyimpulkan dari visualisasi grafik, tapi keliatannya banyak peserta yang kurang mengerti bahasan yang disampaikan. karna banyak banget pertanyaan, sanggahan, ‘n sarannya.

karena berkali-kali pak cecep menyebutkan bahwa penelitiannya itu berbasis logc, maka adalah salah seorang dosen AGB yang dateng menyanggah bahwa penelitiannya itu bukan hanya berbasis logic karena pasti ada teorinya juga. disini ngebahas business cycle dan itu teori ekonomi jadi bukan cuma logic doank..
begityu..

terus ada juga mahasiswa pasca yang dari BPS nanyain metode apa aja yang pak cecep pakai, karena dia pernah melakukan penelitian yang sama, dan metodenya memakai grangger causality (apa itu…????)
teruz pak cecep bilang, oh jelas dia juga menggunakan kausalitas grangger.., eh ada lagi, pak dekan (klo ga salah) bilang kalau kausalitas grangger tidak perlu dipakai, seharusnya penelitian tersebut cukup memakai korelasi bukan kausalitas. jadi..????

yah intinya ekonomi, statistika, ‘n ilkom itu berhubungan eret
ekonomi sebagai pengambil keputusan tidak begitu mengerti tentang perhitungan dan metode penelitian tapi jago bangget dalam interpretasi, statistika jago dalam penelitian samapai ketemu hasil dan kesimpulan tapi ga begitu ngerti ilmu dasar didalemnya bahkan untuk menjadi suatu pengambil keputusan itu kudu memperdalam ilmu lagi…, terkadang statistikawan itu hanya suka mengolah datanya tapi ga tau ilmunya (jangan marah dulu y, beberapa bo…!)
teruz kalo ilkom apalagi, kyaknya hampir sama sama statistika, ya sebagai alat untuk membuat alat, yang nanti dipakai sama statistikawan teruz dikasih hasilnya sama si pengambil keputusan dan jadilah perputaran uang…(maksudnya…??)

ya perputaran uang didunia, kan ngebahas ekonomi..

udah capek nulisnya

semua yang disampaikan disini pure my opinion, okay…

→ 2 CommentsKategori: Uncategorized

lama terpendam..

Agustus 10, 2008 · & Komentar

kadang susah untuk cerita ke orang apa yang lagi qt alamin, disaat cerita terkesan seperti mengeluh or minta belas kasihan, padahal bukan itu intinya, cerita ya cuma sekedar cerita aja…

belakangan ini gw bener2 lagi berjuang mempertahankan banyak hal, perjuangan diri sendiri untuk terus bertahan, perjuangan untuk keluarga, untuk organisasi, untuk kepanitiaan…

kendala gw paling utama adalah belum mampu’nya gw ngebagi waktu.., gw ga mau di cap sbg orang yang ga bertanggung jawab, gw ga mau memilih diantara semua prioritas kewajiban yang gw punya, gw pengen ngelaksanain semuanya adil..

tapi terkadang yang kita inginkan belum tentu sesuai dengan keadaan dan kemampuan, sekarang gw berusaha tuk hadir disemua prioritas itu tapi belum bisa involve penuh, tu karna gw juga harus berjuang tuk status gw sbg mhs di sini, kalo gw ga bisa bertahan di kampus ini gimana gw bisa ikut semua kegiatan2 itu…

seandainya mereka bisa mengerti ini bukan sebagai sesuatu yang seperti mementingkan diri sendiri tetapi sebagai suatu pejuangan untuk bisa bersama mereka….

→ 4 CommentsKategori: Uncategorized

liburan seruuuu…(my wish)

Juli 14, 2008 · 1 Komentar

libur panjaaaang mpe 25 agustus bisa diisi apa aja yach…

sebelumnya dah ngebayangin klo lburan ni bisa ngapain aja

mo jalan2, update isi komputer ’n otak yang dah ketinggalan jaman,

ngajar2 nak angkatan pejuang ipb, nonton film baru, baca buku pinjeman yang dah numpuk

di meja belajar, ‘n masih buanyaaak lagiiii…

tapi..

pe sekarang lo banyak yang dilakuin

jalan2 baru sebatas bara, paling serunya cuma ke pasar kaget,

komputer boro2 di update, monitornya ja rusak goyang2 kya lagi tripping,

nak yang diajar masih d’only one..

nonton film baru masih sebatas kungfu panda, bee movie, ‘n wal-e… all cartoon,

buku yang lagi di baca ge masih 5cm, tinggal 1/4 lagi..

huahhh…. out of target

+ kesepian di kostan…

awal liburan ini memang seruuu, penuh perjuangan tuk bertahan…

tapi tenang pasti akan lebih baik….(hope so..)

→ 1 CommentKategori: Uncategorized