catatan ilmu: 01/25/12

Data Mining

gorbyrashid Filed Under: Labels: Data Mining

Apa itu Data Mining

Pendahuluan Perkembangan data mining(DM) yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Sebagai contoh, toko swalayan merekam setiap penjualan barang dengan memakai alat POS(point of sales). Database data penjualan tsb. bisa mencapai beberapa GB setiap harinya untuk sebuah jaringan toko swalayan berskala nasional. Perkembangan internet juga punya andil cukup besar dalam akumulasi data. Tetapi pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai rich of data but poor of information karena data yang terkumpul itu tidak dapat digunakan untuk aplikasi yang berguna. Tidak jarang kumpulan data itu dibiarkan begitu saja seakan-akan kuburan data (data tombs). Investasi yang besar di bidang IT untuk mengumpulkan data berskala besar ini perlu dijustifikasi dengan didapatnya nilai tambah dari kumpulan data ini.

Kebutuhan dari dunia bisnis yang ingin memperoleh nilai tambah dari data yang telah mereka kumpulkan telah mendorong penerapan teknik-teknik analisa data dari berbagai bidang seperti statistik, kecerdasan buatan dsb pada data berskala besar itu. Ternyata penerapan pada data berskala besar memberikan tantangan-tantangan baru yang akhirnya memunculkan metodologi baru yang disebut data mining ini. Bermula dari penerapan di dunia bisnis, sekarang ini data mining juga diterapkan pada bidang-bidang lain yang memerlukan analisa data berskala besar seperti bioinformasi dan pertahanan negara.

Dalam tulisan ini, penulis mencoba memperkenalkan data mining dengan membandingkannya dengan bidang ilmu yang sudah ada, dan juga memberikan beberapa ilustrasi tentang teknik-teknik yang umum dipakai di data mining,

Definisi

Ada beberapa definisi dari data mining yang dikenal di buku-buku teks data mining. Diantaranya adalah :

Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.

Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya

Menarik untuk diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Dari definisi-definisi itu, dapat dilihat ada beberapa faktor yang mendefinisikan data mining :

data mining adalah proses otomatis terhadap data yang dikumpulkan di masa lalu
objek dari data mining adalah data yang berjumlah besar atau kompleks
tujuan dari data mining adalah menemukan hubungan-hubungan atau pola-pola yang mungkin memberikan indikasi yang bermanfaat

Sejarah Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dulu. Gambar 1 menunjukkan bahwa data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistic, database dan juga information retrieval.

Beberapa teknik yang sering disebut-sebut dalam literatur data mining seperti classification, neural network, genetic algorithm dll. sudah lama dikenal di dunia kecerdasan buatan. Statistik memberikan kontribusi pada data mining dengan teknik-teknik untuk menyeleksi data dan evaluasi hasil data mining selain teknik-teknik data mining seperti clustering. Yang membedakan persepsi terhadap data mining adalah perkembangan teknik-teknik data mining untuk aplikasi pada database skala besar. Sebelum populernya data mining, teknik-teknik tersebut pada umunya diterapkan untuk data skala kecil saja. Selain itu beberapa teknik dari bidang database untuk transformasi data juga merupakan bagian integral dari proses data mining.

Akhir-akhir ini ada beberapa bidang ilmu seperti information retrieval yang juga terlibat dalam proses data mining untuk mengekstrak sumber data bagi data mining dari sumber-sumber seperti teks dan website. Walaupun data mining memiliki sumber dari beberapa bidang ilmu, data mining berbeda dalam beberapa aspek dibandingkan dengan bidang ilmu seperti berikut :

statistik : model statistik dipersiapkan oleh para ahli statistik, sedangkan data mining mengembangkan statistik untuk menangani data berjumlah besar secara otomatis -
expert system (sistem cerdas) : model pada expert system dibuat berupa aturan-aturan berdasar pada pengalaman-pengalaman para ahli
data warehouse (DWH) : sering terjadi kerancuan antara data mining dan data warehouse karena keduanya sering dipakai bersamaan. Pada umumnya data warehouse lebih merujuk pada tempat untuk menyimpan data yang terkonsolidasi sedangkan data mining bisa dianggap sebagai perkakas untuk menganalisa otomatis nilai dari data itu

OLAP : seperti data warehouse, OLAP juga sering dibahas bersama data mining. Tetapi OLAP memiliki tujuan untuk memastikan hipotesa yang sudah diformulasikan terlebih dulu oleh penggunanya.

Kemampuan kita dalam memperoleh dan mengolah data telah meningkat secara drastis belakangan ini. Banyak faktor yang mempengaruhi peningkatan data ini, diantaranya komputerisasi dalam bisnis, pemerintahan dan juga ilmiah. Semakin tingginya kapasitas media penyimpanan dengan harga yang relatif terjangkau serta meluasnya penggunaan kamera digital, alat-alat publik, penggunaan bar code dalam proses transaksi produk menjadikan data tumbuh secara ekplosif dalam berbagai bidang. Selain itu, perkembangan jaringan internet sebagai sarana informasi global menjadikan penumpukan data ini semakin tak terkendali.

Pertumbuhan data yang ekplosif itu disimpan dalam database-database sementara yang bersifat operasional. Dengan berjalannya waktu, databse tersebut menjadi gudang data atau lebih dikenal dengan data warehouse. Di dalam data warehouse ini tersimpan banyak sekali data yang telah direkap setiap harinya. Melalui data-data ini lah terdapat informasi yang harus digali untuk menunjang proses bisnis yang ada dalam menjalankan visi misi perusahaan.

Dibutuhkan suatu teknik untuk menggali informasi yang terdapat pada data warehouse tersebut. Lahirlah data mining, yaitu suatu teknik untuk meng-ekstrasi suatu pola dari data. Data mining diterapkan dengan paradigma untuk melihat informasi yang tersembunyi. Proses pencarian ini dilakukan secara otomatis terhadap pola dalam data dengan jumlah besar dengan menggunakan teknik-teknik seperti klasifikasi, clustering, dll. Data mining adalah suatu multidisiplin ilmu yang kompleks dan beririsan dengan ilmu lain seperti statistika, database, information retrieval, machine learning, pattern recognition, algoritma dan ilmu lainnya.

Menurut para ahli, data mining merupakan sebuah analisa dari observasi data dalam jumlah besar untuk menemukan hubungan yang tidak diketahui sebelumnya dan metode baru untuk meringkas data agar mudah dipahami serta kegunaannya untuk pemilik data (David Hand, 2001). Data mining dikenal juga dengan istilah Knowledge Discovery from Data (KDD)Data mining merupakan suatu tahapan dalam penemuan pengetahuan dan menjadi core proses dari suatu jumlah data yang besar, tahapan-tahapan tersebut yaitu :

Gambar 1. Data mining sebagai tahapan dalam penemuan pengetahuan (Jiawei Han, 2006)

1. Data cleaning, untuk membersihkan data dari noise data dan data yang tidak konsiten

2. Data integration, megkombinasikan/mengintegrasikan beberapa sumber data

3. Data selection, mengambil data-data yang relevan dari database untuk dianalisis

4. Data transformation, mentransformasikan data summary ataupun operasi agregasi

5. Data mining, merupakan proses yang esensial dimana metode digunakan untuk mengekstrak pola data yang tersembunyi

6. Pattern evaluation, untuk mengidentifikasi pola sehingga mereperesentasikan pengetahuan berdasarkan nilai-nilai yang menarik

7. Knowledge presentation, dimana teknik representasi dan visualisai data digunakan untuk mempresentasikan pengetahuan yang diadapat kepada user

Apa itu Data Mining ?

Secara singkat Data Mining adalah sebuah proses penggalian pola dari data, dalam penjabaran yang lebih luas Data mining adalah sebuah proses dari pencarian korelasi yang baru, pola dan trend yang memberikan informasi, dengan cara menyaring data dalam kuantitas yang besar, menggunakan teknologi pola pengenalan yang serupa dengan teknik statistik dan teknik matematika.

Data mining semakin menjadi hal yang sangat penting dalam mengubah data menjadi informasi. Tidak seperti statistik yang menggunakan sampel populasi sebagai datanya, data mining membutuhkan data yang besar, semakin besar, proses menambangan akan semakin efektif menemukan pola-pola tertentu.

Dimana Data Mining digunakan?

Data mining digunakan di banyak tempat, dan bidang penerapannya juga dapat bermacam macam, misalnya:

militer menggunakan data mining untuk mempelajari apa saja yang menjadi fator utama dalam ketepatan sasaran pengeboman
Agen intelejen dapat mengaplikasikan data mining dalam menangkap dan memilah informasi-informasi yang sesuai dengan apa yang ingin dipelajari
Spesialis keamanan jaringan dapat memanfaatkan data mining untuk melihat paket data mana yang berpotensi memicu ancaman
Analis kartu kredit dapat menggunakan data mining dalam memilah calon nasabah kartu kredit yang berpotensi melakukan kredit macet.
Pelaku retail dapat menggunakan data mining untuk melihat karakteristik dan perilaku pembelinya, sehingga dapat selalu menjual produk yang diinginkan oleh customer.

Walaupun metode dan tools yang digunakan untuk data mining dapat diaplikasikan pada banyak hal, saya akan lebih memberikan pendekatan dari sudut pandang bisnis. Beberapa pertanyaan umum berkaitan dengan bisnis dapat di jawab dengan menggunakan Data Mining, termasuk diantaranya adalah:

Dari sekian banyak daftar calon customer, kira-kira mana yang akan benar-benar menjadi customer baru? Kita dapat menggunakan teknik klasifikasi (misal: Logistic Regression, Classification Trees, atau metode lainnya) untuk mengenali individu yang mempunya kemiripan faktor dengan customer terbaik yang kita miliki. faktor ini dapat berupa faktor demografi, faktor usia, faktor kelas pendapatan, atau faktor lainnya.
Customer mana yang kira kira berpotensi untuk melakukan kejahatan penipuan ?, kita dapat menggunakan metode klasisfikasi untuk mengenali aplikasi kartu kredit yang berpotensi tinggi dalam keterlibatan kejahatan penipuan, serta memberikan perhatian lebih kepada mereka-mereka yang masuk dalam klasifikasi tersebut.
Mengenali calon nasabah mana yang mungkin akan menunggak pembayaran personal loan ?, kita dapat menggunakan teknik klasifikasi dalam mengidentifikasi mereka (atau dengan metode logistic regression dalam menentukan nilai yang akan menjadi patokan dalam mengidentifikasi calon penunggak)
Mengenali pelanggan mana yang kira-kira berpotensi akan mengabaikan tagihan berlangganan (telepon, majalah, dan lainnya) ?. sekali lagi, kita dapat menggunakan teknik klasifikasi untuk mengidentifikasikan mereka (logistic regression dapat digunakan untuk menetapkan nilai "probability of leaving")

Asal Mula Data Mining

Data Mining sangat dipengaruhi oleh pertemuan statistik dan machine learning (atau yang juga dikenal dengan artificial intelligence / kecerdasan buatan).

Beragam teknik yang digunakan untuk mengeksplorasi data dan membangun model, sebenarnya telah ada sejak lama di dalam statistika seperti linear regression, logistic regression, discriminant analysis, dan principal component analysis.

{akan saya tambahkan kemudian}

Kenapa ada banyak metode yang berbeda-beda?

Ada banyak metode pada data mining, anda mungkin bertanya kenapa ada banyak metode klasifikasi dan prediksi, dan metode mana yang terbaik?

Masing-masing metode memiliki kelebihan dan kekurangan, metode yang cocok bergantung kepada beberapa faktor, seperti ukuran dari dataset, tipe dari pola yang sudah ada dalam data, apakah data cocok dengan asumsi dari metode yang ditetapkan, seberapa banyak noise dalam data, dan apa tujuan khusus dari analisa. Gunakan metode yang tepat, tidak perlu menghantam nyamuk dengan menggunakan meriam :).

Terminologi dan notasi pada data mining

Karena data mining berasal dari pertemuan antara statistik dan machine learning, para praktisi sering menggunakan beberapa istilah untuk mengacu kepada hal yang sama. sebagai contoh, machine learning menggunakan istilah target variable atau output variable untuk variabel yang sedang di prediksi, tapi para pengguna statistik menyebutnya dengan dependent variable atau the response.

Berikut ini adalah rangkuman dari istilah yang biasa di gunakan:

Algorithm - Mengacu kepada prosedur spesifik yang digunakan untuk menerapkan sebuah teknik khusus dari data mining, seperti: clasification tree, discriminant analysis, dll.
Atribute - Lihat ke Predictor
Case - lihat ke Observation
Confidence - Confidence mempunyai arti khusus didalam Association Rule, misalnya di dalam pernyataan "Apabila A dan B dibeli, maka C juga dibeli" maka, Confidence adalah kondisi kemungkinan C juga di beli apabila A dan B dibeli. Confidence juga memiliki arti yang lebih luas didalam statistik (Confidence Interval), mengenai derajat dari kesalahan didalam sebuah estimasi yang dihasilkan dari pemilihan sebuah sample sebagai lawan dari sample lainnya.
Dependent Variable - lihat Response
Estiation - Lihat Prediction
Feature - Lihat Predictor
Holdout Sample - Adalah sebuah sample dari data yang tidak digunakan didalam fitting sebuah model, digunakan untuk menilai performa dari model tersebut.
Input Variable - Lihat Predictor
Model - Mengacu kepada sebuah algoritma yang diterakan kepada sebuah dataset, lengkap dengan settingnya (beberapa algoritma mempunyai parameter yang dapat disesuaikan oleh user)
Observation - Adalah sebuah unit dari analisis dimana sebuah pengukuran di ambil (misal; transaksi dari customer) juga dikenal sebagai case, record, pattern atau row (setiap row seringkali merepresentasikan sebuah record setiap kolom adalah satu variabel).
Outcome Variable - Lihat Response
Output Variable - Lihat Response
Pattern - Adalah sebuah seperangkat pengukuran pada sebuah observasi atau pengamatan.(misal: tinggi, berat, dan umur dari seseorang)
Prediction - Berarti ramalan dalam sebuah nilai yang didapat dari output variabel yang terus menerus (Juga dikenal sebagai estimation).
Predictor - Biasanya di notasikan dengan X juga disebut dengan Feature, Input Variable, Independent Variable, atau dari perspektif database, predictor disebut dengan field.
Record - Lihat observation
Response - Biasanya dinotasikan dengan Y, adalah variabel yang sedang diramalkan pada supervised learning; juga dikenal dengan dependent variable, output variable, target variable, atau outcome variable.
Score - mengacu kepada value atau class yang di prediksi. Scoring new data berarti menggunakan sebuah model yang dibangun dengan training data untuk memprediksi output value di data yang baru.
Success Class - Adalah sebuah class of interest pada sebuah hasil binary (misal: purchaser didalam outcome purchase / no purchase)
Supervised learning - Mengacu kepada proses dalam penyediaan algoritma (logistic regression, regression tree, dll) dengan record didalam sebuah output variable of interest yang diketahui dan algoritma belajar bagaimana memprediksi nilai dengan record baru dimana outputnya tidak diketahui.
Test Data (atau Test Set) - Mengacu kepada porsi dari data yang digunakan hanya pada akhir dari pembangunan model dan proses seleksi untuk menaksir seberapa bagus final model pada penambahan data.T
Training Data (atau Training Set) - Mengacu kepada porsi dari data yang digunakan untuk mencocokan sebuah model.
Unsupervised Learning - Mengacu kepada analisa tentang analisis mana yang melakukan percobaan untuk mempelajari sesuatu dari data daripada mencari nilai outputnya.
Validation data (atau validation set) - Mengacu kepada porsi dari data yang digunakan untuk menilai seberapa baik model itu cocok, untuk menyesuaikan beberapa model, dan untuk memilih model terbaik dari model-model yang pernah dicoba.
Variable - Segala pengukuran pada record, termasuk variable input (X) dan variable Output (Y).

Mungkin membosankan membaca teori dasarnya ya? :) i know it, tapi ini adalah pondasi dari apa yang akan saya terus tuliskan, tujuan akhirnya adalah membangun sebuah Business Intelligence dengan menggunakan Microsoft Excel (+ beberapa plug in) dan Microsoft Access (kalau ada waktu lebih, saya akan tambahkan sentuhan sharepoint disini), kenapa menggunakan dua tools ini? padahal kan di SQL Server 2005 ke atas sudah ada fitur Business Intelligence ? mudah lagi menggunakannya.

Jawabannya, yang pertama ada pada harganya, tidak semua orang atau perusahaan mampu membeli lisensi Microsoft SQL 2005 ke atas, dan tidak semua orang bisa dengan cepat menggunakannya, harga microsoft office relatif lebih murah dibanding microsoft SQL Server (memang saya akui ada kesenjangan luar biasa dalam fiturnya), tapi kembali lagi bahwa kita akan fokus kepada fitur business intelligence, dan untuk Usaha Kecil Menengah (UKM), Keluarga Microsoft Office adalah senjata yang tepat. harga terjangkau dan mudah dalam menggunakannya. The Most Cost Effective Solution.

Alasan kedua adalah Working Environment yang familiar, ketika saya tanyakan, siapa yang tidak bisa menggunakan microsoft excel ? saya rasa setiap orang yang menggunakan microsoft office dalam perjalanan hidupnya pasti bisa menggunakan microsoft excel. ini yang akan kita gali lebih dalam lagi.

Microsoft Office sejatinya adalah tools yang luar biasa, tapi tidak banyak orang mau untuk mengeksplorasinya. kebanyakan pengguna hanya menggunakan microsoft word sebagai pengganti mesin ketik, menggunakan microsoft excel hanya sebagai pengganti kalkulator, Microsoft Outlook hanya sebagai alat untuk mengirim dan menerima e-mail, dll.

saya berharap bisa terus berbagi ilmu dan pengalaman saya dalam Industri Retail dengan menggunakan produk Microsoft Office secara optimal.

Data Mining merupakan disiplin ilmu yang kini sedang hot dimana-mana. Dipakai di industri perbankan sampai mikrobiologi. Data mining merupakan gabungan dari statistika, machine learning, database dan visualisasi.

Ada tiga pilar data mining: data, teknik data mining dan modelling. Jadi harus ada data sebagai bahan untuk diolah. Dan yang penting kemampuan pemodelan. Bagaimana model yang kita pilih untuk menyelesaikan problem yang kita hadapi. Aapakah klstering, klasifikasi atau prediksi. Setelah itu harus ada teknik data mining yang kita kuasai untuk menyelesaikan model yang kita punyai.

Tugas utama data mining adalah: Klastering, klasifikasi, prediksi, analisis pola berurutan dan asosiasi. Masing-masing tugas mempunyai tool yang berbeda. Klastering memerlukan kmeans, hirarchical clustering atau fuzzy c means. Klasifikasi memerlukan analisis diskriminan, decision tree, neural networks atau suppur vector machines.

Sedangkan prediksi memerlukan regresi, support vector regresi, neural networks. Sebelum kita bisa menerapkan teknik mana yang akan diterapkan, kita harus memahami dulu kasus apa yang kita hadapi. Setelah itu perlu dilakukan data preprocessing sebelum bisa digunakan sebagai input untuk teknik data mining yang dipilih.

Dengan meningkatnya transaksi yang disimpan dengan sistem basis data sekarang ini, maka dibutuhkan proses untuk menangani data tersebut. Proses untuk menangani data tersebut dikenal dengan Knowledge Discovery in Databases (KDD). Data Mining adalah kegiatan untuk menemukan informasi atau pengetahuan yang berguna secara otomatis dari data yang jumlahnya besar. Data Mining merupakan salah satu proses dari keseluruhan proses yang ada pada Knowledge Discovery in Databases (KDD). KDD sendiri merupakan sekumpulan proses untuk menemukan pengetahuan yang bermanfaat dari data. KDD terdiri dari serangkaian langkah perubahan, termasuk data preprocessing dan juga post processing. Data preprocessing merupakan langkah untuk mengubah data mentah menjadi format yang sesuai untuk tahap analisis berikutnya.

Selain itu data preprocessing juga digunakan untuk membantu dalam pengenalan atribut dan data segmen yang relevan dengan task data mining. Data preprocessing kemungkinan akan membutuhkan waktu yang sangat lama, hal ini dikarenakan data yang mentah kemungkinan disimpan dengan format dan database yang berbeda. Post processing meliputi semua operasi yang harus dilakukan agar hasil dari Data Mining dapat diakses dan lebih mudah untuk diinterpretasikan oleh para analis. Teknik visualisasi juga dapat digunakan untuk mempermudah para analis untuk menggali dan memahami kegunaan dari data mining.

Kumpulan proses dalam KDD meliputi : pembersihan data (data cleaning), integrasi data (data integration), pemilihan data (data selection), transformasi data (data transformation), penambangan data (data mining), evaluasi pola (pattern evaluation), dan presentasi pengetahuan (knowledge presentation). Berdasarkan definisi ini terlihat bahwa data mining hanya merupakan salah satu proses dari keseluruhan proses yang ada pada KDD, tetapi merupakan proses yang sangat penting dalam usaha menemukan pola-pola yang berguna dari sejumlah data yang besar (data tersebut bisa disimpan dalam basisdata, data warehouse, atau media penyimpanan informasi lainnya).

Data Mining Task

Pada umumnya, data mining task dibagi menjadi dua kategori yang penting, yaitu:

1. Predictive tasks

Tujuan dari task ini adalah untuk memprediksi nilai sebuah atribut yang penting berdasarkan nilai dari atribut yang lainnya. Atribut yang diprediksi biasanya dikenal sebagai target atau dependent variable, sedangkan atribut yang digunakan untuk melakukan prediksi dikenal dengan explanatory atau independent variable.

2. Descriptive task

Tujuan dari task ini adalah untuk menghasilkan pola (correlations, trends, clusters, trajecttories dan anomalies) yang merangkum keterhubungan dalam data.

Dari gambar diatas , data yang ada dapat digunakan sebagai inti dari data mining task. Data mining task tersebut antara lain:

1) Predictive Modelling

Predictive Modelling digunakan untuk membangun sebuah model untuk target variable sebagai fungsi dari explanatory variable. Explanatory variable dalam hal ini merupakan semua atribut yang digunakan untuk melakukan prediksi, sedangkan target variable merupakan atribut yang akan diprediksi nilainya. Predictive modeling task dibagi menjadi dua tipe yaitu : Classification digunakan untuk memprediksi nilai dari target variable yang discrete (diskret) dan regression digunakan untuk memprediksi nilai dari target variable yang continu (berkelanjutan).

2) Association Analysis

Association analysis digunakan untuk menemukan aturan association yang memperlihatkan kondisi-kondisi nilai atribut yang sering muncul secara bersamaan dalam sebuah himpunan data.

3) Cluster Analysis

Tidak seperti klasifikasi yang menganalisa kelas data obyek yang mengandung label. Clustering menganalisa objek data tanpa memeriksa kelas label yang diketahui. Label-label kelas dilibatkan di dalam data training. Karena belum diketahui sebelumnya. Clustering merupakan proses pengelompokkan sekumpulan objek yang sangat mirip.

4) Anomaly Detection

Anomaly Detection merupakan metode pendeteksian suatu data dimana tujuannya adalah menemukan objek yang berbeda dari sebagian besar objek lain. Anomaly dapat di deteksi dengan menggunakan uji statistik yang menerapkan model distribusi atau probabilitas untuk data.

Pendahuluan

Manusia telah “secara manual” mengekstrak pola dari data selama berabad-abad, tetapi meningkatnya volume data yang di zaman modern telah menyerukan pendekatan yang lebih otomatis. Metode awal untuk mengidentifikasi pola-pola dalam data termasuk Bayes ‘teorema (1700) dan Analisis Regresi (1800). Proliferasi, di mana-mana dan meningkatkan kekuatan teknologi komputer telah meningkat pengumpulan data dan penyimpanan. Seperti kumpulan data telah tumbuh dalam ukuran dan kompleksitas, tangan langsung-analisis data telah semakin telah ditambah dengan tidak langsung, pemrosesan data otomatis. Ini telah dibantu oleh penemuan-penemuan lain dalam ilmu komputer, seperti jaringan saraf, Clustering, Genetic algorithms (1950), Keputusan pohon (1960) dan Dukungan mesin vektor (1980). Diperlukan sebuah metode sebagai penerapan pengumpulan data yang dapat menampung, menganalisis secara akurat data yang bagitu besar, metode tersebut hingga saat ini dikenal sebagai Data Mining.

Data Mining

Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data

berupa pengetahuan yang selama ini tidak diketahui secara manual. Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu DM sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Data mining adalah proses menerapkan metode ini untuk data dengan maksud untuk mengungkap pola-pola tersembunyi. Dengan arti lain Data mining adalah proses untuk penggalian pola-pola dari data. Data mining menjadi alat yang semakin penting untuk mengubah data tersebut menjadi informasi. Hal ini sering digunakan dalam berbagai praktek profil, seperti pemasaran, pengawasan, penipuan deteksi dan penemuan ilmiah. Telah digunakan selama bertahun-tahun oleh bisnis, ilmuwan dan pemerintah untuk menyaring volume data seperti catatan perjalanan penumpang penerbangan, data sensus dan supermarket scanner data untuk menghasilkan laporan riset pasar.

Alasan utama untuk menggunakan data mining adalah untuk membantu dalam analisis koleksi pengamatan perilaku. Data tersebut rentan terhadap collinearity karena diketahui keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang dianalisis mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contoh-contoh hubungan kritis tertentu dan perilaku yang ada di bagian lain dari domain . Untuk mengatasi masalah semacam ini, analisis dapat ditambah menggunakan berbasis percobaan dan pendekatan lain, seperti Choice Modelling untuk data yang dihasilkan manusia.

Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau dihapus sama sekali, selama konstruksi desain eksperimental. Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining dalam penerapannya antara lain: clustering, classification, association rule mining, neural network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data Mining adalah perkembangan teknik-teknik Data Mining untuk aplikasi 1 pada database skala besar. Sebelum populernya Data Mining, teknik-teknik tersebut hanya dapat dipakaiuntuk data skala kecil saja.

Proses Data Mining

Tahap-Tahap Data Mining. Karena Data Mining adalah suatu rangkaian proses, Data Mining dapat dibagi menjadi beberapa tahap:

1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise)

2. Integrasi data (penggabungan data dari beberapa sumber)

3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)

4. Aplikasi teknik Data Mining

5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)

6. Presentasi pengetahuan (dengan teknik visualisasi)

Tahap-tahap tsb. bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base.

Teknik Data Mining

Berikut beberapa jenis teknik Data Mining yang paling populer dikenal dan digunakan:

1. Association Rule Mining

Association rule mining adalah teknik mining untuk menemukan aturan assosiatif antara suatu kombinasi item. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support yaitu persentase kombinasi item tsb. dalam database dan confidence yaitu kuatnya hubungan antar item dalam aturan assosiatif. Algoritma yang paling populer dikenal sebagai Apriori dengan paradigma generate and test, yaitu pembuatan kandidat kombinasi item yang mungkin berdasar aturan tertentu lalu diuji apakah kombinasi item tsb memenuhi syarat support minimum. Kombinasi item yang memenuhi syarat tsb. disebut frequent itemset, yang nantinya dipakai untuk membuat aturan-aturan yang memenuhi syarat confidence minimum. Algoritma baru yang lebih efisien bernama FP-Tree.

2. Classification Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jika-maka”, berupa decision tree, formula matematis atau neural network. Decision tree adalah salah satu metode classification yang paling populer karena mudah untuk

diinterpretasi oleh manusia. Disini setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohon menyatakan kelas data. Algoritma decision tree yang paling terkenal adalah C4.5, tetapi akhir- akhir ini telah dikembangkan algoritma yang mampu menangani data skala besar yang tidak dapat ditampung di main memory seperti RainForest. Metode-metode classification yang lain adalah Bayesian, neural network, genetic algorithm, fuzzy, case-based reasoning, dan k-nearest neighbor. Proses classification biasanya dibagi menjadi dua fase : learning dan test. Pada fase learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tsb. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui.

3. Clustering

Berbeda dengan association rule mining dan classification dimana kelas data telah ditentukan sebelumnya, clustering melakukan penge-lompokan data tanpa berdasarkan kelas data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui itu. Karena itu clustering sering digolongkan sebagai metode unsupervised learning. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yan memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi. Banyak algoritma clustering memerlukan fungsi jarak untuk mengukur kemiripan antar data, diperlukan juga metode untuk normalisasi bermacam atribut yang dimiliki data. Beberapa kategori algoritma clustering yang banyak dikenal adalah metode partisi dimana pemakai harus menentukan jumlah k partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi, metode lain yang telah lama dikenal adalah metode hierarki yang terbagi dua lagi : bottom-up yang menggabungkan cluster kecil menjadi cluster lebih besar dan top-down yang memecah cluster besar menjadi cluster yang lebih kecil.

Kelemahan 3 metode ini adalah bila bila salah satu penggabungan/pemecahan dilakukan pada tempat yang salah, tidak dapat didapatkan cluster yang optimal. Pendekatan yang banyak diambil adalah menggabungkan metode hierarki dengan metode clustering lainnya seperti yang dilakukan oleh Chameleon. Akhir-akhir ini dikembangkan juga metode berdasar kepadatan data, yaitu jumlah data yang ada di sekitar suatu data yang sudah teridentifikasi dalam suatu cluster. Bila jumlah data dalam jangkauan tertentu lebih besar dari nilai ambang batas, data-data tsb dimasukkan dalam cluster. Kelebihan metode ini adalah bentuk cluster yang lebih fleksibel. Algoritma yang terkenal adalah DBSCAN.

Implementasi (Penerapan)

Dalam bidang apasaja data mining dapat diterapkan? Berikut beberapa contoh bidang penerapan data mining:

- Analisa pasar dan manajemen.

Solusi yang dapat diselesaikan dengan data mining, diantaranya: Menembak target pasar, Melihat pola beli pemakai dari waktu ke waktu, Cross-Market analysis, Profil Customer, Identifikasi kebutuhan Customer, Menilai loyalitas Customer, Informasi Summary.

- Analisa Perusahaan dan Manajemen resiko.

Solusi yang dapat diselesaikan dengan data mining, diantaranya: Perencanaan keuangan dan Evaluasi aset, Perencanaan sumber daya (Resource Planning), Persaingan (Competition).

- Telekomunikasi.

Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara manual.

- Keuangan.

Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini menggunakan data mining untuk me-nambang trilyunan dari berbagai subyek seperti property, rekening bank dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan yang mencurigakan (seperti money laundry) .

- Asuransi.

Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi layanan kesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh peserta asuransi .

- Olahraga.

IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA (jumlah shots blocked, assists dan fouls) dalam rangka mencapai keunggulan bersaing (competitive advantage) untuk tim New York Knicks dan Miami Heat.

- Astronomi.

Jet Propulsion Laboratory (JPL) di Pasadena, California dan Palomar Observatory berhasil menemukan 22 quasar dengan bantuan data mining. Hal ini merupakan salah satu kesuksesan penerapan data mining di bidang astronomi dan ilmu ruang angkasa.

- Internet Web surf-aid

IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman Web khususnya yang berkaitan dengan pemasaran guna melihat prilaku dan minat customer serta melihat ke- efektif-an pemasaran melalui Web.

Contoh kasus penerapan: Implementasi data mining dengan teknik Clustering untuk melakukan Competitive Intelligence perusahaan.

Pembangunan perangkat lunak data mining dengan metode clustering menggunakan algoritma hirarki divisive untuk pengelompokan customer dalam studi kasus ini, fungsi – fungsi yang dipakai adalah fungsi untuk menentukan titik-titik pusat yang berguna sebagai pusat-pusat kelompok customer.

catatan ilmu

Rabu, 25 Januari 2012

Data Mining New

Data Mining