Getting Started: Weka

Weka adalah sebuah perangkat lunak yang memiliki banyak algoritma machine learning untuk keperluan data mining. Weka juga memiliki banyak tools untuk pengolahan data, mulai dari pre-processing, classification, regression, clustering, association rules, dan visualization. Weka adalah perangkat lunak open source berbasis Java dan kita dapat menggunakannya secara langsung atau melalui program Java kita. Weka juga bisa diimplementasikan ke program python. Untuk penjelasan Weka lebih lengkap, kamu bisa membuka halaman dokumentasinya di sini.

Pertama kali saya mengenal Weka ketika mengikuti mata kuliah Information Retrieval, pada pertemuan tentang Clustering. Clustering adalah proses mengelompokkan sekumpulan objek ke kelas-kelas dengan objek yang mirip (Cluster). Clustering adalah salah satu bentuk unsupervised learning. Banyak sekali algoritma untuk clustering, namun secara umum terbagi dua yaitu flat algorithms dan hierarchical algorithms. Pada kuliah tersebut, saya mempelajari tentang algoritma K-means yang merupakan flat algorithms, mulai dari teori K-means hingga implementasinya menggunakan Weka. Pada tulisan ini saya akan berbagi tentang penggunaan Weka untuk aplikasi Simple K-means. Diharapkan teman-teman telah sedikit membaca tentang K-means.

Oh ya, Weka juga dapat diimplementasikan untuk big data!

Instalasi Weka

Kamu bisa mendownload program instalasinya dari sini : http://www.cs.waikato.ac.nz/ml/weka/downloading.html. Sebelum menginstall, cek terlebih dahulu apakah kamu sudah menginstall JRE (Java Runtime Environment). Kamu bisa mengeceknya di folder ini : C:\Program Files\Java. Jika JRE sudah terinstall, kamu cukup mendowload file weka-3-6-11.exe. Jika belum menginstall JRE, kamu harus mendownload file weka-3-6-11jre.exe. Sesuaikan juga file yang didownload dengan tipe sistem operasi kita, apakah 32-bit atau 64-bit.

Setelah berhasil mendownload filenya, jalankan proses instalasi. Ikuti petunjuk instalasi, mudah kok. Setelah selesai, segera buka Weka 🙂

Mulai Menggunakan Weka

Oke. Sebelum mulai menggunakan Weka, kita harus mempersiapkan data yang mau diolah terlebih dahulu. Kamu bisa download file data.csv untuk langsung digunakan. File data.csv berisi data berikut :

Doc	T1	T2	T3	T4	T5
1	0	3	2	0	0
2	2	1	0	0	4
3	0	2	4	0	0
4	3	0	0	4	0
5	0	4	3	0	0
6	4	0	0	0	6

Terdapat 6 dokumen, yaitu Doc1, Doc2, …, Doc6, dimana setiap dokumen memiliki 5 kata kunci (T1, T2, …, T5). Doc1 hanya memiliki kata kunci T2 dan T3, Doc2 hanya memiliki kata kunci T1, T2, dan T5, begitu seterusnya.

Selanjutnya, buka Weka, dan klik Explorer.

Kemudian klik Open file… dan buka file data.csv tadi. Berikut hasilnya :

Next step, kita akan langsung mencoba melakukan clustering Simple K-means. Klik tab Cluster, lalu klik tombol Choose, lalu pilih SimpleKMeans, dan klik Start. Tarraaa, ini hasilnya :

Hasil Simple K-means dengan numCluster = 2

Kita telah melakukan Simple K-means dengan numCluster = 2. Kita dapat mengubah numCluster (jumlah cluster) sesuai keinginan kita. Juga kita dapat mengubah parameter algoritma K-means yang lain seperti fungsi untuk distance.

Caranya pertama klik text box di sebelah tombol Choose, kemudian akan muncul windows baru. Ubah numCluster menjadi 3.

Hasil Simple K-means dengan numCluster = 3

Kita juga dapat menvisualisasikan hasil Simple K-means dengan cara klik kanan pada Result list lalu pilih Visualize cluster assignments.

Sekian tutorial singkat tentang penggunaan Weka. Kamu bisa mengeksplorasi lebih jauh sendiri sekarang. Seperti yang saya tulis di awal, Weka memiliki banyak algoritma lain untuk data mining dan fungsi-fungsi Weka dapat diimplemntasikan di program kita.

Semoga bermanfaat 😀

5 thoughts on “Getting Started: Weka”

sikonyols says:

November 19, 2014 at 12:18 am

Thanks bro

1. Arief Rahmansyah says:
  
  November 19, 2014 at 12:30 am
  
  wah, dikomen oleh kakak blogger. sipp
  
NARITA says:

February 19, 2015 at 12:41 pm

SEP MANTAP, MAKASIY ILMUNYA”’

Lala says:

May 10, 2015 at 8:57 pm

terima ksih infonya. saya mau nanya, klo data yg dipake adalah data training DARPA/KDD gmna cara prosesnya.. dan data tersebut akan dicluster menjadi 2 cluster. bagaimna caranya?

1. Sari Sandra says:
  
  June 7, 2016 at 7:06 pm
  
  terima kasih infonya kak