Lihat ke Halaman Asli

Konsep Knowledge Discovery in Database (KDD) pada Data Mining

Diperbarui: 28 September 2022   10:28

Kompasiana adalah platform blog. Konten ini menjadi tanggung jawab bloger dan tidak mewakili pandangan redaksi Kompas.

Ilmu Alam dan Teknologi. Sumber ilustrasi: PEXELS/Anthony

Hallo, salam sehat teman - teman semua, kembali lagi dengan saya warham aliansa, dimana pada kesempatan kali ini saya masih membahas seputar data mining pada  topik kali ini  ilalah Konsep Knowledge Discovery in Database (KDD) pada Data Mining.

seperti kesempakatan kita pada pertemuan sebelumnya dalam mengafsir arti dari data mining, bahwa data mining adalah hubungan atau koneksi yang digunakan untuk mengolah data untuk memperoleh pengetahuan (pola atau model matematis) dan menggunakannya untuk mengklarifikasi dan mengelompokkan, membuat prediksi, dan kemudian membuat keputusan. 

Untuk mengambil keputusan tentunya kita membutuhkan proses teknis. Proses ini dikenal sebagai proses Knowledge Discovery In Database (KDD). Sebelum kita mempelajari proses Knowledge Discovery (KDD), mari kita lihat dulu apa itu "Mengenal Data Anda". 


Mengetahui data Anda berarti Anda perlu mengetahui terlebih dahulu data apa yang akan digunakan. Pada tahap ini, mereka dikategorikan sebagai berikut:

Data objek adalah kumpulan data. Objek data umumnya mewakili entitas. Misalnya, dalam database penjualan produk, entitas atau tabel adalah entitas pelanggan, entitas penjualan, entitas produk, dan seterusnya. Data objek dideskripsikan/memiliki atribut. Misalnya, entitas tabel atau baris dalam entitas disebut objek data/catatan, dan kolom/bidang disebut atribut. Karakteristik penting dari struktur data adalah:


Dimensi adalah properti dari kumpulan data yang memproses data multidimensi, sehingga data yang diproses memiliki dimensi yang besar dan jumlah usaha yang besar. Hasil pengolahan data ini, terutama ketika menggunakan pembelajaran mesin untuk mengklasifikasikan data, tidak selalu baik karena korelasi data yang erat, sehingga upaya sering sia-sia.
Sparsity adalah terjadinya sparse point atau gap pada data. Ini bisa terjadi dengan data multidimensi.


Resolusi adalah ukuran dari berbagai data dan resolusi. Tingkat resolusi mempengaruhi pola data. Jika resolusinya terlalu kasar, polanya akan hilang dan jika resolusinya terlalu halus, polanya mungkin tidak terlihat.Dispersi adalah cara data didistribusikan, seberapa jauh atau terpisah dari data.Atribut/dimensi/fitur/variabel adalah kumpulan data yang mewakili properti atau properti atau karakteristik objek data. Tipe atribut data adalah:

  • Nominal adalah bentuk atribut yang cukup kategoris untuk digunakan ketika membandingkan satu objek dengan objek lainnya. Contoh warna rambut (hitam, putih, pirang, dll), pekerjaan (guru, dokter, polisi, dll). Biner adalah atribut dengan hanya dua kemungkinan nilai absolut. Misalnya, jenis kelamin (perempuan, laki-laki), boolean (benar, salah).
    Common adalah atribut dengan urutan yang berarti (peringkat), tetapi besarnya antara nilai berurutan tidak diketahui. Ukuran sampel (kecil, sedang, besar). 
  • Biner adalah atribut dengan hanya dua kemungkinan nilai absolut. Misalnya, jenis kelamin (perempuan, laki-laki), boolean (benar, salah).
  • Common adalah atribut dengan urutan yang bermakna (peringkat), tetapi besarnya antara nilai berurutan tidak diketahui. Ukuran sampel (kecil, sedang, besar).
  • Numerik adalah atribut dengan bilangan bulat atau nilai nyata. contoh umur. Atribut numerik dibagi menjadi dua kategori: interval dan rasio.

Similarity dan Dissimilarity

Similarity adalah ukuran numerik seberapa mirip dua objek data. Dissimilarity adalah ukuran numerik tentang seberapa berbeda dua objek data. Kesamaan dan ketidakmiripan sering dianalogikan dengan konsep jarak. Artinya, semakin tinggi nilai jarak, semakin dekat nilai kesamaan data. B. (1), semakin jauh nilai jarak, semakin dekat nilai ketidaksamaan (0).

Setelah kita melalui "Getting To Know Your Data", maka kita sudah dapat melangkah pada proses Knowledge Discovery In Database (KDD). KDD sendiri merupakan tahapan yang ada dalam data mining. Tahapan ini terdiri dari :

  • Database, merupakan kumpulan data yang akan diolah nantinya.
  • Data Integration, merupakan tahapan menggabungkan beberapa data yang telah diperoleh kemudian disimpan ke dalam suatu tempat yang sama. Tempat disebut sebagai "Data Warehouse".
  • Data Cleaning, merupakan proses membersihkan data -- data untuk dilakukan perbaikan. Data yang diperbaiki yaitu data yang tidak lengkap , noisy, data yang bersifat null, dan data ganda agar tidak terjadi redundansi.
  • Data Transformation, merupakan proses merubah data menjadi kategori tertentu. Misal data jenis kelamin dimana jenis kelamin perempuan dikaterikan sebagai "P" , dan jenis kelamin laki -- laki dikategorikan sebagai "L".

itu sa penjelelasan saya mengenai Konsep Knowledge Discovery in Database (KDD) pada Data Mining, See you on next artikell gaesssssss !!!!

Halaman Selanjutnya


BERI NILAI

Bagaimana reaksi Anda tentang artikel ini?

BERI KOMENTAR

Kirim

Konten Terkait


Video Pilihan

Terpopuler

Nilai Tertinggi

Feature Article

Terbaru

Headline