We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF or read online on Scribd
You are on page 1/ 114
iv 2
ALGORITMA
DATA MINING
bdALGORITMA DATA MINING
Oleh:
Miftahul Huda, M.Kom
1 September 2019Kata Pengantar
Saya sangat bersyukur memiliki kesempatan menyelesaikan
penulisan buku berjudul Algoritma Data Mining dengan lancar dan
baik. Bersamaan dengan ungkapan syukur tersebut Saya berharap
dapat merasa bahagia dalam berbagai situasi. Selesainya
penulisan buku Algoritma Data Mining pada bulan September
tahun 2019 juga menjadi motivasi tambahan bagi Saya.
Buku ini berisi tentang bermacam-macam Algoritma Data
Mining yang banyak digunakan oleh para ahli komputer dan
ilmuwan. Teori-teori yang ada menjelaskan tentang perangkat
lunak, algoritma dan perangkat keras komputer yang digunakan
untuk melakukan Data Mining. Setelah selesai membaca buku ini
wawasan Anda akan bertambah sehingga pemahaman tentang
Data Mining juga menjadi lebih baik.
Pada bulan Agustus 2019 saya mulai menulis bagian isi dan
selesai pada bulan September 2019. Saya ucapkan banyak terima
kasih kepada keluarga, teman dan orang-orang yang telah
mendukung penyelesaian buku ini.
Setelah berusaha maksimal untuk membuat karya tulis yang
baik, tetapi kemungkinan timbul kesalahan tetap ada. Sehingga
Saya mohon maaf sebelumnya jika pada saat membaca buku ini
menemui_ kesalahan-kesalahan. Terima kasih telah bersedia
meluangkan waktu untuk membaca buku Algoritma Data Mining.
PenulisDaftar Isi
Kata Penganta
Daftar Isi
Bagian I.. 1
Menentukan Akurat Atau Tidak Suatu Prediksi Dengan Cara
Menghitung MSE..........00
Perangkat Lunak Deep Learning Digunakan Scientist Untuk
Mengidentifikasi Berbagai Objek... om
Basis Data Yang Di Analisis Dengan ‘IDA Menghasilkan.
Informasi Berguna.
Mikrokontroller Pada Voice Recognition Berguna Untuk
Mengenali Biometrik Pengguna... eee
Ilmuwan Mengembangkan Cara Pendeteksian Email
Berbahaya Dengan Naive Bayes Classifie!
Algoritma C4.5 merupakan Pengembangan Dari Algoritma
Decision Tree ID3.
Algoritme 1R Merupakan Salah Satu Algoritme Klasifikasi
Pada Machine Learning
Bagian Il.
ECLAT Merupakan Metode Percabangan Association Rule
Mining Untuk Menghasilkan Informasi..
Manajer Swalayan Menggunakan Hasil ‘Algoritma ‘Apriori_
Untuk Menentukan Tata Letak Produk... Ee
Data Mining Memiliki Algoritma Clustering Populer
Bernama K-Means Clustering
Clustering Data-set Dengan Salah Satu Metode Non-
Hierarki Bernama Mixture Modelling.....
HTML Di Transformasi Dengan XLST Sehingga Menjadi
Sesuai Standar XML.
FP-Growth Menghasilkan Frequent Patter Suatu Itemset
Dengan Cepat Dan Efisien....
Data Mining Menjadi Lebih Efisien Dengan Menerapkan
ALgoritma FP-TREE
Bagian IllMetodologi ANFIS Dapat Dipelajari Dengan Berbagai
Macam Perangkat Lunak Komputer...
Bayes Estimation Merupakan Metodologi Untuk Melakukan
Analisis Berdasarkan Data Komputer.
Aplikasi WEKA Dapat Digunakan Untuk Melakukan
Klasifikasi Dengan Algoritma J48.
Data Dapat Diklasifikasi Dengan Cepa'
Algoritma Bernama NB-Tree... rend
Dataset Di Klasifikasi Dengan ‘Metode CART Sehingga
Menghasilkan Informasi Bernilai.
CBR Menyelesaikan Permasalahan Dengan Mempelajari
Permasalahan Yang Pernah Terjadi. A
Bayesian Linear Regression Merupakan Bagian Analisis
Statistik Berbasis Bayesian Inference.
Bagian IV..
Analisis Wavelets Berguna Sebagai Alat Bantu
Representasi Sinyal Non-Stasioner...
Approximate Bayesian Computation ‘Digunakan Ilmuwan
Untuk Melakukan Berbagai Analisis Biologi...
Self-Organizing Map Populer Digunakan Untuk Clustering
Data Berukuran Besar... :
Algoritma Particle Swarm Optimization Terinspirasi Dari
Sekumpulan Kawanan Burung...
ANN Merupakan Metode Soft Computing Yang Mengadopsi
Prinsip Kerja Saraf... 101
Menentukan Perkiraan Cuaca Melalui Hasil Analisis
Numeric Wheater Prediction...
BiografiBagian |
Menentukan Akurat Atau Tidak Suatu Prediksi
Dengan Cara Menghitung MSE
Analis Runtun Waktu merupakan metode analisis kuantitatif
yang mempertimbangkan adanya suatu pengaruh waktu terhadap
hasil analisis. Jenis data yang digunakan dalam analisis ini adalah
data time series. Data time series merupakan data yang
dikumpulkan secara periodik berdasarkan urutan waktu, contohnya
dalam jam, hari, minggu, bulan dan tahun. Beberapa analisis
runtun waktu yang digunakan untuk melakukan penelitian yaitu
Moving Average, Double Moving Average, Exponential Smoothing,
Double dan Triple Exponential Smoothing, Arima, Sarima, dan
masih banyak lagi. Ada 4 macam jenis pola data dalam metode
time series, yaitu Horizontal, Siklis, Trend dan Musiman. Pola data
Horizontal adalah data observasi yang berubah-ubah di sekitar
tingkatan atau rata-rata yang konstan, Contohnya adalah:
penjualan setiap bulan suatu barang yang tidak meningkat atau
menurun secara konsisten pada suatu waktu tertentu dapat
dipertimbangkan untuk menggunakan pola horizontal. Pola data
Siklis adalah pola data yang ditandai dengan adanya fluktuasi
bergelombang data yang terjadi di sekitar garis trend. Pola data
Trend adalah pola data yang dapat digunakan ketika data
pengamatan mengalami kenaikan atau penurunan selama periode
jangka panjang. Pola data Musiman diterapkan ketika suatu deret
dipengaruhi oleh faktor musiman. Pola data musiman dapat
mempunyai pola musim yang berulang dari periode ke periode
berikutnya. Misalnya pola data yang berulang pada setiap bulan
tertentu, tahun tertentu atau pada minggu tertentu.
Mean Squared Error (MSE) adalah metode untuk mengevaluasi
metode perhitungan prediksi. Perhitungan tersebut dapat
digunakan untuk membandingkan berbagai jenis prediksi. Model-
model prediksi yang dilakukan kemudian dievaluasi menggunakansejumlah parameter. Parameter-parameter lain yang umum
digunakan adalah Mean Squared Error (MSE), Root Mean Squared
Error (RMSE), Mean Absolute Deviation (MAD) dan Peak Signal-to-
Noise Ratio (PSNR). Parameter-parameter tersebut juga sering
digunakan untuk membandingkan hasil pengolahan suatu citra
dengan citra awal atau citra asli-nya. Dalam kasus tersebut MSE
dimanfaatkan untuk menghitung nilai kesalahan kuadran rata-rata
antara citra asli dengan citra hasil penyelisikan (steno-image). Di
bidang ilmu statistik Mean Squared Error juga disebut dengan
Mean Squared Deviation. Mean Squared Error(MSE) merupakan
suatu parameter untuk menguji keakuratan hasil prediksi yang
telah dilakukan. Mean-Squared Error merupakan salah satu metode
statistik yang digunakan untuk menganalisis atau mengukur
kesalahan metode perhitungan prediksi yang banyak diterapkan di
berbagai bidang. Hasil suatu proses perhitungan prediksi dapat
dievaluasi menggunakan metode Mean Squared Error (MSE).
Dengan menggunakan MSE, kesalahan nilai yang muncul
menunjukkan perbedaan hasil perhitungan dengan hasil yang
terjadi. Semakin kecil nilai Mean Squared Error(MSE) pada suatu
proses analisis, dapat digunakan untuk membuat kesimpulan
bahwa semakin akurat hasil perhitungan yang telah dilakukan.
Contoh penggunaan MSE ialah untuk menghitung _nilai
kesalahan suatu penelitian dengan metodologi Arima dan Sarima.
Dari hasil perhitungan MSE kedua metodologi tersebut
menunjukkan bahwa nilai MSE Sarima lebih besar dari Arima. Oleh
karena itu dapat disimpulkan bahwa Arima lebih akurat daripada
metodologi Sarima. Nilai kesalahan yang ditunjukkan dari hasil
perhitungan MSE tersebut menunjukkan perbedaan antara nilai
hasil perhitungan dengan nilai sebenarnya yang dikarenakan
adanya data acak atau karena tidak mengandung perhitungan
yang akurat. Hasil perhitungan prediksi yang mendekati kenyataan
merupakan perhitungan yang memiliki nilai tingkat kesalahan
minimal. Hasil perhitungan tersebut dapat diperoleh dengan
membandingkan metodologi yang memiliki nilai MAD dan MSEterkecil. Root Mean Squared Error (RMSE) merupakan pengakaran
nilai dari nilai MSE yang sudah dicari sebelumnya. Semakin kecil
nilai yang dihasilkan menunjukkan bahwa semakin bagus hasil
perhitungan yang dilakukan. Untuk memastikan hasil pengukuran
tingkat kesalahan perhitungan prediksi, beberapa akademisi
menggunakan lebih dari satu metode untuk menghitung nilai
tingkat kesalahan pada penelitian yang dilakukan. Dengan begitu
nilai total yang dihasilkan menjadi lebih akurat. Jika hasil
perhitungan MSE tidak relevan maka dapat mengakibatkan
kesulitan menentukan kesimpulan sekaligus memberikan penilaian
terhadap penelitian yang telah dilakukan.
Perangkat lunak yang biasa digunakan untuk menghitung nilai
MSE adalah Matlab, Rstudio dan Octave. Matlab sudah digunakan
oleh ilmuwan dan akademisi sejak tahun 1970, perangkat lunak
tersebut dikembangkan oleh perusahaan swasta asal Amerika
bernama MathWorks, Website perusahaan MathWorks yang dapat
di akses pengguna Matlab sekaligus mendapatkan berkas instalasi
perangkat lunak Matlab memiliki alamat
https://www.mathworks.com. Perangkat lunak Rstudio dapat
dimanfaatkan oleh pengguna komputer sejak tanggal 28 Februari
2011. Perangkat lunak tersebut dikembangkan oleh perusahaan
yang memiliki nama sama dengan nama perangkat lunak tersebut,
yaitu perusahaan Rstudio yang berlokasi di negara Amerika
Serikat. Website perusahaan tersebut dapat di akses melalui
alamat https://www.rstudio.com. Berbeda dengan Octave yang
merupakan bagian dari proyek GNU, istilah GNU sendiri merupakan
suatu istilah yang diciptakan oleh Richard Stallman pada tanggal
27 September 1983. Website Octave dapat di akses melalui alamat
https://www.gnu.org/software/octave. Ketiga perangkat lunak
tersebut dapat dimiliki oleh siapa saja. Diantara ketiga perangkat
lunak tersebut hanya Matlab yang memberi tuntutan kepada
pengguna untuk membayar lisensi menggunakan perangkat lunak.
Sedangkan Octave dan Rstudio dapat dimanfaatkan penggunadengan bebas tanpa tuntutan untuk membayar biaya lisensi
menggunakan perangkat lunak tersebut.
Agar suatu hasil prediksi dapat memberikan hasil akurat maka
data yang digunakan harus relevan dan metode atau metodologi
yang digunakan juga harus tepat. Dengan begitu nilai MSE atau
parameter kesalahan yang muncul bernilai kecil. Akurasi hasil
perhitungan prediksi akan memperlancar proses membuat rencana
aktivitas atau suatu kegiatan. Selain itu tingkat akurasi suatu
prediksi secara tidak langsung akan memengaruhi risiko kegagalan
melakukan suatu aktivitas atau rencana yang hendak
dilaksanakan. Dengan begitu kerugian yang mungkin terjadi akan
dapat dihindari sejak sebelum rencana tersebut dilaksanakan.
Sebaiknya perangkat lunak yang ingin digunakan untuk melakukan
analisis dan melakukan evaluasi terhadap perhitungan prediksi
ditentukan di awal kegiatan untuk menghindari kemungkinan
kegagalan yang disebabkan oleh perangkat lunak yang tidak
sesuai dengan kebutuhan analisis yang dilakukan. Perangkat lunak
yang tersedia gratis seperti Octave dan Rstudio telah berhasil
dimanfaatkan ilmuwan dan akademisi dari berbagai penjuru dunia
untuk melakukan berbagai analisis.
Perangkat Lunak Deep Learning Digunakan
Scientist Untuk Mengidentifikasi Berbagai
Objek
Deep Learning sangat memengaruhi kemajuan perkembangan
perangkat lunak dan berbagai bidang industri yang telah dicapai
oleh Artificial Intelligence. Deep Learning menjadi otak utama yang
dapat menciptakan Artificial Intelligence (Al) sehingga lebih cerdas
dan manusiawi. Metode tersebut tidak hanya pasif menjadi sebuah
disiplin ilmu tetapi terus berkembang dan banyak diterapkan di
berbagai bidang. Manusia secara tidak sadar dekat dengan
teknologi tersebut. Berbagai perusahaan populer seperti Facebook,
Google dan Microsoft telah menerapkan metode tersebut untuk
meningkatkan kualitas produk mereka. Keterbatasan tim ahli daninfrastruktur menghambat kemajuan penerapan _ teknologi-
teknologi Deep Learning untuk mencapai peluang-peluang yang
muncul. Keberadaan tim ahli membantu pelaku bisnis memiliki
wawasan dan pemahaman yang baik terkait peralatan dan
penerapan teknologi Al yang sesuai dengan misi perusahaan. Jenis-
jenis teknik Deep Learning untuk menyelesaikan berbagai
permasalahan antara lain Fully Connected Neural Networks,
Convolutional Neural Networks, Recurrent Neural Network,
Generative Adversarial Networks dan Deep Reinforcement
Learning.
Data Mining mempunyai fungsi untuk membantu mendapatkan
informasi berguna sekaligus = meningkatkan —_ pengetahuan
pengguna. Metode Deep Learning sangat efektif dan lebih mudah
dalam mengidentifikasi pola dari suatu data berbentuk teks,
gambar, suara bahkan video. Deep Learning sering dikenal dengan
istilah Deep Structured Learning atau Hierarchical Learning
merupakan salah satu cabang ilmu Machine Learning yang terdiri
dari algoritma pemodelan abstraksi tingkat tinggi pada suatu data
menggunakan sekumpulan fungsi transformasi non-linear yang
ditata secara berlapis. Dataset adalah basis data tiruan yang
terdapat dalam suatu memori dan dibuat menggunakan data
adapter. Perangkat Lunak untuk mempelajari Deep Learning
memiliki banyak jenis yang dapat diperoleh dengan cara membeli
maupun gratis. Metode Deep Learning memudahkan manusia
mengidentifikasi objek sekaligus membantu proses bisnis sehingga
sangat menarik untuk sekadar dipelajari atau diterapkan.
Perangkat lunak Deep Leaming dapat digunakan untuk
melakukan klasifikasi dan regresi data gambar, time-series dan
teks. Deep Learning adalah bidang penelitian Machine Learning
baru. diperkenalkan dengan tujuan untuk mengubah arah
pembelajaran Machine Learning agar kembali sesuai dengan salah
satu tujuan tujuan awalnya yaitu Artificial Intelligence. Deep
Learning menggunakan jaringan saraf yang dihasilkan komputer
yang menyerupai otak manusia untuk memecahkan masalah danmembuat prediksi. Pada tahun 2006 Geoffrey Hinton
memperkenalkan salah satu varian jaringan saraf tiruan yang
disebut Deep belief nets, paper tersebut merupakan awal
populernya istilah Deep Learning untuk membedakan arsitektur
jaringan saraf tiruan dengan berbagai lapisan. Pada tahun 2009
tim Andrew Y. NG memperkenalkan penggunaan GPU untuk Deep
Learning melalui paper berjudul Large-scale Deep Unsupervised
Learning using Graphics Processors. Peralatan dan fungsi-fungsi
pada perangkat lunak MATLAB dapat digunakan untuk mengelola
dataset berukuran besar sekaligus menyediakan tolboxes khusus
untuk dikombinasikan dengan Machine Learning, neural networks,
computer vision dan automated driving. Banyak Engineer dan
Scientist dari berbagai negara seperti MIT, ASML dan Delphi
Authomotive mengandalkan MATLAB sebagai perangkat lunak
untuk menganalisis dan mendesain suatu proses.
Deeep Learning sering dianggap sebagai evolusi Machine
Learning karena Deep Learning dapat melakukan analisis secara
otomatis sedangkan Machine Learning tidak dapat melakukannya.
Machine Learning cocok digunakan untuk memperhitungkan data
nonlinear seperti bahasa, suara atau gambar karena dapat
memberikan hasil analisis atau kesimpulan yang lebih tepat dari
algoritme linear seperti fungsi lookup. Kata Machine Learning
pertama kali dirintis oleh ahli komputer dari negara Amerika
Serikat bernama Arthur Samuel pada tahun 1959. Machine
Learning menggunakan algoritme untuk mengolah suatu data,
mengambil kesimpulan berdasarkan data analisis, kemudian
menggunakan kesimpulan tersebut untuk menyelesaikan tugas
dengan cara yang paling efektif. Hal yang dibutuhkan agar suatu
program Machine Learning dapat berfungsi efektif adalah referensi
data dalam jumlah besar. Data tersebut digunakan untuk
mempelajari dan mendapatkan perkiraan parameter sehingga
semakin banyak data pada program Machine Learning menjadikan
ia semakin pintar.Jenis data memengaruhi desain peralatan dan cara untuk
menampilkan data tersebut secara visual. Dataset dapat diperoleh
dengan cara mengumpulkan sendiri data tersebut menggunakan
perangkat lunak seperti SPSS dan PSPP atau memperolehnya
dengan mencari dari Internet. Dataset atau data set merupakan
kumpulan data yang mewakili satu tabel basis data, tiap kolom
pada data tersebut mewakili variabel tertentu dan tiap baris
mewakili banyaknya data. Berbagai dataset atau kumpulan data
dapat diperoleh dari Internet, contohnya data.go.id, data.world
atau mencari melalui Google Data Search. Salah satu penghalang
untuk memperoleh akses_ koleksi informasi ilmiah adalah
keterbatasan atau bahkan tidak adanya_ koneksi Internet.
Mengumpulkan sendiri data untuk dijadikan sebuah dataset juga
membutuhkan waktu yang lama sehingga menambah waktu
penyelesaian untuk tujuan penggunaan dataset tersebut.
Perangkat lunak yang akan digunakan untuk melakukan analisis
atau menampilkan data yang dimiliki dapat memengaruhi hasil
akhir penelitian atau pemanfaatan data untuk tujuan tertentu.
Perangkat lunak yang paling umum digunakan untuk melakukan
Deep Learning adalah MATLAB yang dikembangkan oleh The
MathWorks menggunakan bahasa pemrograman C, C++ dan Java.
Beberapa perangkat lunak yang dapat digunakan untuk
mempelajari Deep Learning antara lain Neural Designer, H20.ai,
DeepLearningKit, Microsoft Cognitive Toolkit, Horovod, Torch dan
Gensim. Banyak sekali video tutorial pembelajaran Deep Learning
menggunakan perangkat lunak Matlab, Tourch atau Horovod di
website Youtube. Anda dapat mencarinya dengan cara mengakses
website tersebut melalui www.youtube.com kemudian mengetik
kata ‘Torch’ atau ‘Matlab’ pada kolom pencarian, setelah video
yang diharapkan muncul klik pada video tersebut.
Deep Learning sangat efektif dan memudahkan manusia
mengidentifikasi pola suatu data yang berbentuk teks, gambar,
suara dan video. Aktivitas Deep Learning biasanya dilakukan oleh
Scientist dan Engineer menggunakan alat bantu perangkat lunaksehingga hasil yang diperoleh lebih maksimal. Data yang di analisis
dapat diperoleh dengan cara mengumpulkan data secara manual,
mendapatkan dataset yang telah tersedia di Internet atau
mencarinya dari mesin telusur khusus untuk mencari dataset.
Perangkat lunak yang ada berfungsi untuk membantu pengguna
melakukan analisis dan menampilkan data yang dimiliki untuk
suatu tujuan tertentu. Pengguna perangkat lunak Matlab dapat
mencoba menggunakan perangkat lunak tersebut dengan gratis
selama tiga puluh hari namun setelah itu Anda harus membeli
lisensi perangkat lunak tersebut untuk tetap _ bisa
menggunakannya. Perangkat lunak open source yang populer
digunakan pada Deep Learning adalah Torch yang dikembangkan
oleh Ronan Collobert, Koray Kavukcuoglu dan Clement Farabet.
Basis Data Yang Di Ana Dengan IDA
Menghasilkan Informasi Berguna
Intelligent Data Analysis atau di singkat IDA merupakan salah
satu permasalahan yang banyak dibicarakan di bidang Artificial
Intelligence dan Teknologi Informasi. Intelligent data analysis
mengungkapkan informasi bernilai atau pengetahuan implisit yang
sebelumnya tidak diketahui dari sejumlah data berukuran
besar.Dengan teknologi komputer IDA secara _ otomatis
mengekstraksi informasi berguna, pengetahuan dan model dari
berbagai data Online untuk membantu pengambil keputusan
membuat pilihan yang tepat.IDA bukan merupakan suatu kegiatan
yang menghasilkan karya tulis yang hanya bersifat teori saja. Hasil
penelitian para ilmuwan tersebut telah banyak membantu
menyelesaikan berbagai permasalahan di berbagai bidang. Kerja
keras yang menguras banyak tenaga, pikiran dan biaya tersebut
akan sangat di sayangkan jika hanya menghasilkan suatu karya
tulis untuk bahan bacaan saja. Keberhasilan penelitian dalam
menyelesaikan berbagai permasalahan membuat kegiatan
tersebut semakin bermutu dan populer di kalangan ilmuwan dan
akademisi. Sebagai upaya untuk mempertahankan prestasi yang