Pada perkuliahan sebelumnya, kami telah membahas terkait apa itu data mining, tujuan dari data mining, dan beberapa metode data mining. Jika diulas kembali, data mining adalah proses pengumpulan data dari database yang tujuannya untuk diekstrak menjadi suatu informasi yang dapat memenuhi target tertentu (suatu prediksi).
Nah, pada perkuliahan kemarin pula, kita telah membahas bagaimana cara mengolah data-data yang diambil dari database itu hingga akhirnya menghasilkan informasi sesuai kebutuhan.Â
Knowledge Discovery (KDD) Process
Langkah-langkah melakukan data mining (pengolahan data) ialah sebagai berikut:
1. Database
Untuk mendapatkan informasi yang akan diteliti dan diolah, tentu saja kita memerlukan data-data dan akses database dari pemiliknya. Data-data tersebut menjadi dasar pemikiran untuk kita amati dan diproses lebih lanjut. Sebab, jika kita tidak memiliki data-data, apa yang akan kita olah? serta jika akses ke data-data tersebut tidak diberikan, hasil pekerjaan kita akan diklaim sebagai ilegalisasi data. Maka dari itu, pemberian izin atau akses sangatlah penting ......
2. Data Cleaning
Banyaknya data yang ada kemungkinan mempunyai data yang tidak valid atau bahkan tidak tersedia. Hal ini mengharuskan kita untuk melakukan pembersihan data sehingga kita dapat menyaring data yang akan digunakan.
3. Data Integration
Pada tahap ini, data-data yang terlihat mirip atau duplikat akan dijadikan satu data.
4. Data Transformation
Proses ini merupakan proses mentransformasikan data ke dalam bentuk mining atau kita sebut melakukan diskrit pada data.
5. Data Selection
Setelah mengubah ke bentuk mining, perlu adanya penyeleksian terhadap artibut apa saja yang akan digunakan untuk mengolah data-data tersebut.
6. Data Mining
Dengan atribut-atribut yang ada, kita dapat mengekstrak ke pola-pola yang berpontensi memiliki manfaat.
7. Pattern Evaluation
Proses pengamatan pada pola-pola yang telah dibuat dan diidentifikasi.
Karakteristik Data
- Dimensionality, banyaknya data menghailkan banyaknya dimensi dan usaha yang besar. Hasil yang didapat belum tentu baik sehingga kemungkinan menhasilkan data yang kurang berguna hingga usaha yang dilakukan menjadi sia-sia.
- Sparsity, ditemukannya data yang kosong sehingga membuat titik-titik jarang pada pola.Â
- Resolution, skala yang berpengaruh terhadap pola yang akan dihasilkan, seperti hilang bahkan tidak terlihat
- Distribution, jarak penyebaran data.
Atribut Data
Tipe-tipe atribut data, yaitu:
- Nominal : kategori, pemberian nama tetapi tidak ada perbedaan nilai atau ranking.
- Binary  : atribut yang hanya menyatakan dua nilai
- Simetris, nilai yang menyatakan kedua hasil tidak begitu penting atau keduanya setara. Contohnya: jenis kelamin (laki-laki dan perempuan).
- Asimetris, nilai yang menyatakan kedua hasil sama pentingnya atau tidak setara. Contohnya: tes kesehatan (positif dan negatif).
- Ordinal : kategori yang memiliki rangking atau nilai yang berbeda.