Getting Started: Weka

Weka adalah sebuah perangkat lunak yang memiliki banyak algoritma machine learning untuk keperluan data mining. Weka juga memiliki banyak tools untuk pengolahan data, mulai dari pre-processing, classification, regression, clustering, association rules, dan visualization. Weka adalah perangkat lunak open source berbasis Java dan kita dapat menggunakannya secara langsung atau melalui program Java kita. Weka juga bisa diimplementasikan ke program python. Untuk penjelasan Weka lebih lengkap, kamu bisa membuka halaman dokumentasinya di sini.

Pertama kali saya mengenal Weka ketika mengikuti mata kuliah Information Retrieval, pada pertemuan tentang Clustering. Clustering adalah proses mengelompokkan sekumpulan objek ke kelas-kelas dengan objek yang mirip (Cluster). Clustering adalah salah satu bentuk unsupervised learning. Banyak sekali algoritma untuk clustering, namun secara umum terbagi dua yaitu flat algorithms dan hierarchical algorithms. Pada kuliah tersebut, saya mempelajari tentang algoritma K-means yang merupakan flat algorithms, mulai dari teori K-means hingga implementasinya menggunakan Weka. Pada tulisan ini saya akan berbagi tentang penggunaan Weka untuk aplikasi Simple K-means. Diharapkan teman-teman telah sedikit membaca tentang K-means.

Oh ya, Weka juga dapat diimplementasikan untuk big data!

Instalasi Weka

Kamu bisa mendownload program instalasinya dari sini : http://www.cs.waikato.ac.nz/ml/weka/downloading.html. Sebelum menginstall, cek terlebih dahulu apakah kamu sudah menginstall JRE (Java Runtime Environment). Kamu bisa mengeceknya di folder ini : C:\Program Files\Java. Jika JRE sudah terinstall, kamu cukup mendowload file weka-3-6-11.exe. Jika belum menginstall JRE, kamu harus mendownload file weka-3-6-11jre.exe. Sesuaikan juga file yang didownload dengan tipe sistem operasi kita, apakah 32-bit atau 64-bit.

Setelah berhasil mendownload filenya, jalankan proses instalasi. Ikuti petunjuk instalasi, mudah kok. Setelah selesai, segera buka Weka 🙂

Tampilan Awal Weka
Tampilan awal Weka

Mulai Menggunakan Weka

Oke. Sebelum mulai menggunakan Weka, kita harus mempersiapkan data yang mau diolah terlebih dahulu. Kamu bisa download file data.csv untuk langsung digunakan. File data.csv berisi data berikut :

Doc T1 T2 T3 T4 T5
1 0 3 2 0 0
2 2 1 0 0 4
3 0 2 4 0 0
4 3 0 0 4 0
5 0 4 3 0 0
6 4 0 0 0 6

Terdapat 6 dokumen, yaitu Doc1, Doc2, …, Doc6, dimana setiap dokumen memiliki 5 kata kunci (T1, T2, …, T5). Doc1 hanya memiliki kata kunci T2 dan T3, Doc2 hanya memiliki kata kunci T1, T2, dan T5, begitu seterusnya.

Selanjutnya, buka Weka, dan klik Explorer.

Weka Explorer
Weka Explorer

Kemudian klik Open file… dan buka file data.csv tadi. Berikut hasilnya :

Hasil Open data.csv
Hasil Open data.csv

Next step, kita akan langsung mencoba melakukan clustering Simple K-means. Klik tab Cluster, lalu klik tombol Choose, lalu pilih SimpleKMeans, dan klik Start. Tarraaa, ini hasilnya :

Hasil Simple K-means dengan numCluster = 2
Hasil Simple K-means dengan numCluster = 2

Kita telah melakukan Simple K-means dengan numCluster = 2. Kita dapat mengubah numCluster (jumlah cluster) sesuai keinginan kita. Juga kita dapat mengubah parameter algoritma K-means yang lain seperti fungsi untuk distance.

Caranya pertama klik text box di sebelah tombol Choose, kemudian akan muncul windows baru. Ubah numCluster menjadi 3.

Mengubah atribut Simple K-means
Mengubah atribut Simple K-means
Hasil Simple K-means dengan numCluster = 3
Hasil Simple K-means dengan numCluster = 3

Kita juga dapat menvisualisasikan hasil Simple K-means dengan cara klik kanan pada Result list lalu pilih Visualize cluster assignments.

Pilih Visualize cluster assignments
Pilih Visualize cluster assignments
visualize1
Hasil visualisasi

Sekian tutorial singkat tentang penggunaan Weka. Kamu bisa mengeksplorasi lebih jauh sendiri sekarang. Seperti yang saya tulis di awal, Weka memiliki banyak algoritma lain untuk data mining dan fungsi-fungsi Weka dapat diimplemntasikan di program kita.

Semoga bermanfaat 😀

5 thoughts on “Getting Started: Weka

  1. terima ksih infonya. saya mau nanya, klo data yg dipake adalah data training DARPA/KDD gmna cara prosesnya.. dan data tersebut akan dicluster menjadi 2 cluster. bagaimna caranya?

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s