Getting to Know Your Data "First" In Data Mining Before Knowledge Discovery in Database (KDD)

Halo teman – teman semua kembali lagi Bersama saya disini Sarman Chisara, di mana pada kesempatan kali ini saya kembali akan menjelaskan topik seputar Data Mining.

Sedikit kita flashback sedikit ke pertemuan sebelumnya mengenai Data Mining. Data Mining adalah upaya atau usaha yang dilakukan untuk mengolah data untuk memperoleh pengetahuan (pola atau model matematika) yang akan digunakan untuk melakukan klarifikasi dan clustering, prediksi, lalu mencari hubungan keterkaitan atau keterhubungan (asosiasi) yang nantinya akan digunakan untuk memperoleh suatu keputusan.

Untuk memperoleh sebuah keputusan tentu saja ada proses – proses teknis yang terjadi di dalamnya. Proses ini dikenal dengan sebutan Proses Knowledge Discovery In Database (KDD). Sebelum berbicara lebih dalam mengenai Proses Knowledge Discovery (KDD), ayo kita simak terlebih dahulu mengenai apasih itu “Getiing To Know Your Data”?.

Getiing To Know Your Data

Getting To Know Your Data berarti kita harus mengetahui telebih dulu mengenai data yang akan kita gunakan. Adapun pada tahap ini terbagi menjadi :

Data objek, merupakan kumpulan data. Pada umumnya sebuah objek data mewakili sebuah entitas. Sebagai contoh sebuah database penjualan barang maka yang menjadi entitas atau tablenya adalah entitas pelanggan, entitas penjualan, entitas barang, dan lain – lain. Data Objek dideskripsikan/memiliki sebuah atribut. Misal pada sebuah table atau entitas baris/row pada entitas disebut sebagai objek data/record, sedangkan kolom/field disebut sebagai atribut.

Karakteristik penting struktur data, antara lain meliputi :
- Dimensionality adalah karakteristik dataset yang mengolah data multidimensional sehingga menyebabkan data yang diolahmemiliki dimensi yang besar dan usaha yang dilakukan juga semakin besar. Hasil dari pengolahan data ini belum tentu lebih baik karena adanya korelasi data yang memberikan korelasi sempit terutama saat menggunakan machine learning ketika mengklasifikasikan data sehingga tak jarang usaha yang dilakukan menjadi sia-sia.
- Sparsity merupakan terjadinya titik jarang atau kekosongan dalam data. Hal ini dapat terjadi pada data multidimensional.
- Resolution merupakan skala pada data dan resolusi yang berbeda. Level resolusi mempengaruhi pola dalam data, jika resolusinya terlalu kasar maka pola akan hilang dan begitu juga ketika resolusi terlalu halus menyebabkan pola mungkin tidak akan terlihat.
- Distribution merupakan sifat penyebaran data dan sejauh mana renggang atau jarak dari data tersebut.

Atribut/dimensi/fitur/variable, merupakan sekumpulan data yang mewakili ciri atau karakteristik atau fitur dari objek data. Adapun jenis atribut data yaitu :
- Nominal merupakan atribut berupa kategori yang cukup untuk digunakan ketika membandingkan satu objek dengan objek lainnya. Contoh warna rambut (hitam, putih, pirang, dll), pekerjaan (guru, dokter, polisi, dll).
- Binary merupakan atribut yang hanya memilki 2 niilai kemungkinan mutlak. Contohnya jenis kelamin (wanita, pria), nilai bolean (true, false).
- Ordinary merupakan atribut yang memiliki urutan yang bermakna (peringkat) tetapi besarnya antara nilai yang berurutan tidak diketahui. Contoh ukuran (kecil, sedang, besar).
- Numeric merupaka atribut yang memiliki nilai bilangan bulat atau bilangan riil. Contoh umur. Atribut numerik terbagi menjadi 2 yaitu interval dan rasio.

Similarity dan Dissimilarity

Simmilarity merupakan ukuran numerik seberapa mirip dua objek data. Dissimilarity merupakan Ukuran numerik tentang seberapa berbeda dua objek data. Similaraty dan dissimilarity seringkali dianalogikan menggunakan konsep jarak, dimana maksudnya adalah semakin tinggi nilai jarak maka nilai kemiripan suatu data semakin dekat misal (1), sedangkan semakin jauh nilai jarak maka semakin dekat nilai ketidakmiripan (0).

Setelah kita melalui “Getting To Know Your Data”, maka kita sudah dapat melangkah pada proses Knowledge Discovery In Database (KDD). KDD sendiri merupakan tahapan yang ada dalam data mining. Tahapan ini terdiri dari :

Database, merupakan kumpulan data yang akan diolah nantinya.
Data Integration, merupakan tahapan menggabungkan beberapa data yang telah diperoleh kemudian disimpan ke dalam suatu tempat yang sama. Tempat disebut sebagai “Data Warehouse”.
Data Cleaning, merupakan proses membersihkan data – data untuk dilakukan perbaikan. Data yang diperbaiki yaitu data yang tidak lengkap , noisy, data yang bersifat null, dan data ganda agar tidak terjadi redundansi.
Data Transformation, merupakan proses merubah data menjadi kategori tertentu. Misal data jenis kelamin dimana jenis kelamin perempuan dikaterikan sebagai “P” , dan jenis kelamin laki – laki dikategorikan sebagai “L”.

Ke – 4 tahapan awal ini pada umumnya dikenal sebagaia “Prepocessing Data”. Selanjutnyaa yaitu :

Data Selection, merupakan proses pemilihan data yang akan digunakan sesuai dengan kebutuhan atau tujuan yang akan dicapai.
Data Mining, merupakan proses memasukkan metode algoritma atau model machine learning (Clasification, Clustering, dan Asosiation).
Pattern Evaluation, merupakan proses melakukan evaluasi untuk memperoleh pola yang tepat sesuai dengan yang diinginkan.
Knowledge Presentation, merupakan tahapan akhir pada KDD, dimana pada tahap akhir ini data yang telah diolah dengan algoritma/machine learning akan ditampilka atau divisualisasikan sedemikian rupa misal dalam bentuk grafik, sehingga pembaca atau pengguna dapat dengan mudah memahaminya.

Nah itulah apa yang saya paparkan pada kesempatan kali ini. Terimakasih teman – teman, selamat membaca. See ya on next artikel cuyyyyyy.

Sumber referensi :https://hanj.cs.illinois.edu/bk3/bk3_slidesindex.htm (Chapter 2 : Know Your Data)

Mohon tunggu...

Lihat Ilmu Alam & Tekno Selengkapnya

Beri Komentar

Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!

Getting to Know Your Data "First" In Data Mining Before Knowledge Discovery in Database (KDD)

ilmualamtekno

ruang kelas

tugas di kompasiana

ilmu alam tekno

Artikel Lainnya

LAPORKAN KONTEN

In Case of Emergency

Kebocoran Data NPWP, Apakah UU Perlindungan Data Hanya Janji Kosong?

In Shades of Gray

Fall in You 3

Effective Communications in English

Fall in You 4

Getting to Know Your Data "First" In Data Mining Before Knowledge Discovery in Database (KDD)

ilmualamtekno

ruang kelas

tugas di kompasiana

ilmu alam tekno

Artikel Lainnya

LAPORKAN KONTEN