0% found this document useful (0 votes)
230 views

Algoritma Data Mining

Algoritma data mining
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF or read online on Scribd
0% found this document useful (0 votes)
230 views

Algoritma Data Mining

Algoritma data mining
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF or read online on Scribd
You are on page 1/ 114
iv 2 ALGORITMA DATA MINING bd ALGORITMA DATA MINING Oleh: Miftahul Huda, M.Kom 1 September 2019 Kata Pengantar Saya sangat bersyukur memiliki kesempatan menyelesaikan penulisan buku berjudul Algoritma Data Mining dengan lancar dan baik. Bersamaan dengan ungkapan syukur tersebut Saya berharap dapat merasa bahagia dalam berbagai situasi. Selesainya penulisan buku Algoritma Data Mining pada bulan September tahun 2019 juga menjadi motivasi tambahan bagi Saya. Buku ini berisi tentang bermacam-macam Algoritma Data Mining yang banyak digunakan oleh para ahli komputer dan ilmuwan. Teori-teori yang ada menjelaskan tentang perangkat lunak, algoritma dan perangkat keras komputer yang digunakan untuk melakukan Data Mining. Setelah selesai membaca buku ini wawasan Anda akan bertambah sehingga pemahaman tentang Data Mining juga menjadi lebih baik. Pada bulan Agustus 2019 saya mulai menulis bagian isi dan selesai pada bulan September 2019. Saya ucapkan banyak terima kasih kepada keluarga, teman dan orang-orang yang telah mendukung penyelesaian buku ini. Setelah berusaha maksimal untuk membuat karya tulis yang baik, tetapi kemungkinan timbul kesalahan tetap ada. Sehingga Saya mohon maaf sebelumnya jika pada saat membaca buku ini menemui_ kesalahan-kesalahan. Terima kasih telah bersedia meluangkan waktu untuk membaca buku Algoritma Data Mining. Penulis Daftar Isi Kata Penganta Daftar Isi Bagian I.. 1 Menentukan Akurat Atau Tidak Suatu Prediksi Dengan Cara Menghitung MSE..........00 Perangkat Lunak Deep Learning Digunakan Scientist Untuk Mengidentifikasi Berbagai Objek... om Basis Data Yang Di Analisis Dengan ‘IDA Menghasilkan. Informasi Berguna. Mikrokontroller Pada Voice Recognition Berguna Untuk Mengenali Biometrik Pengguna... eee Ilmuwan Mengembangkan Cara Pendeteksian Email Berbahaya Dengan Naive Bayes Classifie! Algoritma C4.5 merupakan Pengembangan Dari Algoritma Decision Tree ID3. Algoritme 1R Merupakan Salah Satu Algoritme Klasifikasi Pada Machine Learning Bagian Il. ECLAT Merupakan Metode Percabangan Association Rule Mining Untuk Menghasilkan Informasi.. Manajer Swalayan Menggunakan Hasil ‘Algoritma ‘Apriori_ Untuk Menentukan Tata Letak Produk... Ee Data Mining Memiliki Algoritma Clustering Populer Bernama K-Means Clustering Clustering Data-set Dengan Salah Satu Metode Non- Hierarki Bernama Mixture Modelling..... HTML Di Transformasi Dengan XLST Sehingga Menjadi Sesuai Standar XML. FP-Growth Menghasilkan Frequent Patter Suatu Itemset Dengan Cepat Dan Efisien.... Data Mining Menjadi Lebih Efisien Dengan Menerapkan ALgoritma FP-TREE Bagian Ill Metodologi ANFIS Dapat Dipelajari Dengan Berbagai Macam Perangkat Lunak Komputer... Bayes Estimation Merupakan Metodologi Untuk Melakukan Analisis Berdasarkan Data Komputer. Aplikasi WEKA Dapat Digunakan Untuk Melakukan Klasifikasi Dengan Algoritma J48. Data Dapat Diklasifikasi Dengan Cepa' Algoritma Bernama NB-Tree... rend Dataset Di Klasifikasi Dengan ‘Metode CART Sehingga Menghasilkan Informasi Bernilai. CBR Menyelesaikan Permasalahan Dengan Mempelajari Permasalahan Yang Pernah Terjadi. A Bayesian Linear Regression Merupakan Bagian Analisis Statistik Berbasis Bayesian Inference. Bagian IV.. Analisis Wavelets Berguna Sebagai Alat Bantu Representasi Sinyal Non-Stasioner... Approximate Bayesian Computation ‘Digunakan Ilmuwan Untuk Melakukan Berbagai Analisis Biologi... Self-Organizing Map Populer Digunakan Untuk Clustering Data Berukuran Besar... : Algoritma Particle Swarm Optimization Terinspirasi Dari Sekumpulan Kawanan Burung... ANN Merupakan Metode Soft Computing Yang Mengadopsi Prinsip Kerja Saraf... 101 Menentukan Perkiraan Cuaca Melalui Hasil Analisis Numeric Wheater Prediction... Biografi Bagian | Menentukan Akurat Atau Tidak Suatu Prediksi Dengan Cara Menghitung MSE Analis Runtun Waktu merupakan metode analisis kuantitatif yang mempertimbangkan adanya suatu pengaruh waktu terhadap hasil analisis. Jenis data yang digunakan dalam analisis ini adalah data time series. Data time series merupakan data yang dikumpulkan secara periodik berdasarkan urutan waktu, contohnya dalam jam, hari, minggu, bulan dan tahun. Beberapa analisis runtun waktu yang digunakan untuk melakukan penelitian yaitu Moving Average, Double Moving Average, Exponential Smoothing, Double dan Triple Exponential Smoothing, Arima, Sarima, dan masih banyak lagi. Ada 4 macam jenis pola data dalam metode time series, yaitu Horizontal, Siklis, Trend dan Musiman. Pola data Horizontal adalah data observasi yang berubah-ubah di sekitar tingkatan atau rata-rata yang konstan, Contohnya adalah: penjualan setiap bulan suatu barang yang tidak meningkat atau menurun secara konsisten pada suatu waktu tertentu dapat dipertimbangkan untuk menggunakan pola horizontal. Pola data Siklis adalah pola data yang ditandai dengan adanya fluktuasi bergelombang data yang terjadi di sekitar garis trend. Pola data Trend adalah pola data yang dapat digunakan ketika data pengamatan mengalami kenaikan atau penurunan selama periode jangka panjang. Pola data Musiman diterapkan ketika suatu deret dipengaruhi oleh faktor musiman. Pola data musiman dapat mempunyai pola musim yang berulang dari periode ke periode berikutnya. Misalnya pola data yang berulang pada setiap bulan tertentu, tahun tertentu atau pada minggu tertentu. Mean Squared Error (MSE) adalah metode untuk mengevaluasi metode perhitungan prediksi. Perhitungan tersebut dapat digunakan untuk membandingkan berbagai jenis prediksi. Model- model prediksi yang dilakukan kemudian dievaluasi menggunakan sejumlah parameter. Parameter-parameter lain yang umum digunakan adalah Mean Squared Error (MSE), Root Mean Squared Error (RMSE), Mean Absolute Deviation (MAD) dan Peak Signal-to- Noise Ratio (PSNR). Parameter-parameter tersebut juga sering digunakan untuk membandingkan hasil pengolahan suatu citra dengan citra awal atau citra asli-nya. Dalam kasus tersebut MSE dimanfaatkan untuk menghitung nilai kesalahan kuadran rata-rata antara citra asli dengan citra hasil penyelisikan (steno-image). Di bidang ilmu statistik Mean Squared Error juga disebut dengan Mean Squared Deviation. Mean Squared Error(MSE) merupakan suatu parameter untuk menguji keakuratan hasil prediksi yang telah dilakukan. Mean-Squared Error merupakan salah satu metode statistik yang digunakan untuk menganalisis atau mengukur kesalahan metode perhitungan prediksi yang banyak diterapkan di berbagai bidang. Hasil suatu proses perhitungan prediksi dapat dievaluasi menggunakan metode Mean Squared Error (MSE). Dengan menggunakan MSE, kesalahan nilai yang muncul menunjukkan perbedaan hasil perhitungan dengan hasil yang terjadi. Semakin kecil nilai Mean Squared Error(MSE) pada suatu proses analisis, dapat digunakan untuk membuat kesimpulan bahwa semakin akurat hasil perhitungan yang telah dilakukan. Contoh penggunaan MSE ialah untuk menghitung _nilai kesalahan suatu penelitian dengan metodologi Arima dan Sarima. Dari hasil perhitungan MSE kedua metodologi tersebut menunjukkan bahwa nilai MSE Sarima lebih besar dari Arima. Oleh karena itu dapat disimpulkan bahwa Arima lebih akurat daripada metodologi Sarima. Nilai kesalahan yang ditunjukkan dari hasil perhitungan MSE tersebut menunjukkan perbedaan antara nilai hasil perhitungan dengan nilai sebenarnya yang dikarenakan adanya data acak atau karena tidak mengandung perhitungan yang akurat. Hasil perhitungan prediksi yang mendekati kenyataan merupakan perhitungan yang memiliki nilai tingkat kesalahan minimal. Hasil perhitungan tersebut dapat diperoleh dengan membandingkan metodologi yang memiliki nilai MAD dan MSE terkecil. Root Mean Squared Error (RMSE) merupakan pengakaran nilai dari nilai MSE yang sudah dicari sebelumnya. Semakin kecil nilai yang dihasilkan menunjukkan bahwa semakin bagus hasil perhitungan yang dilakukan. Untuk memastikan hasil pengukuran tingkat kesalahan perhitungan prediksi, beberapa akademisi menggunakan lebih dari satu metode untuk menghitung nilai tingkat kesalahan pada penelitian yang dilakukan. Dengan begitu nilai total yang dihasilkan menjadi lebih akurat. Jika hasil perhitungan MSE tidak relevan maka dapat mengakibatkan kesulitan menentukan kesimpulan sekaligus memberikan penilaian terhadap penelitian yang telah dilakukan. Perangkat lunak yang biasa digunakan untuk menghitung nilai MSE adalah Matlab, Rstudio dan Octave. Matlab sudah digunakan oleh ilmuwan dan akademisi sejak tahun 1970, perangkat lunak tersebut dikembangkan oleh perusahaan swasta asal Amerika bernama MathWorks, Website perusahaan MathWorks yang dapat di akses pengguna Matlab sekaligus mendapatkan berkas instalasi perangkat lunak Matlab memiliki alamat https://www.mathworks.com. Perangkat lunak Rstudio dapat dimanfaatkan oleh pengguna komputer sejak tanggal 28 Februari 2011. Perangkat lunak tersebut dikembangkan oleh perusahaan yang memiliki nama sama dengan nama perangkat lunak tersebut, yaitu perusahaan Rstudio yang berlokasi di negara Amerika Serikat. Website perusahaan tersebut dapat di akses melalui alamat https://www.rstudio.com. Berbeda dengan Octave yang merupakan bagian dari proyek GNU, istilah GNU sendiri merupakan suatu istilah yang diciptakan oleh Richard Stallman pada tanggal 27 September 1983. Website Octave dapat di akses melalui alamat https://www.gnu.org/software/octave. Ketiga perangkat lunak tersebut dapat dimiliki oleh siapa saja. Diantara ketiga perangkat lunak tersebut hanya Matlab yang memberi tuntutan kepada pengguna untuk membayar lisensi menggunakan perangkat lunak. Sedangkan Octave dan Rstudio dapat dimanfaatkan pengguna dengan bebas tanpa tuntutan untuk membayar biaya lisensi menggunakan perangkat lunak tersebut. Agar suatu hasil prediksi dapat memberikan hasil akurat maka data yang digunakan harus relevan dan metode atau metodologi yang digunakan juga harus tepat. Dengan begitu nilai MSE atau parameter kesalahan yang muncul bernilai kecil. Akurasi hasil perhitungan prediksi akan memperlancar proses membuat rencana aktivitas atau suatu kegiatan. Selain itu tingkat akurasi suatu prediksi secara tidak langsung akan memengaruhi risiko kegagalan melakukan suatu aktivitas atau rencana yang hendak dilaksanakan. Dengan begitu kerugian yang mungkin terjadi akan dapat dihindari sejak sebelum rencana tersebut dilaksanakan. Sebaiknya perangkat lunak yang ingin digunakan untuk melakukan analisis dan melakukan evaluasi terhadap perhitungan prediksi ditentukan di awal kegiatan untuk menghindari kemungkinan kegagalan yang disebabkan oleh perangkat lunak yang tidak sesuai dengan kebutuhan analisis yang dilakukan. Perangkat lunak yang tersedia gratis seperti Octave dan Rstudio telah berhasil dimanfaatkan ilmuwan dan akademisi dari berbagai penjuru dunia untuk melakukan berbagai analisis. Perangkat Lunak Deep Learning Digunakan Scientist Untuk Mengidentifikasi Berbagai Objek Deep Learning sangat memengaruhi kemajuan perkembangan perangkat lunak dan berbagai bidang industri yang telah dicapai oleh Artificial Intelligence. Deep Learning menjadi otak utama yang dapat menciptakan Artificial Intelligence (Al) sehingga lebih cerdas dan manusiawi. Metode tersebut tidak hanya pasif menjadi sebuah disiplin ilmu tetapi terus berkembang dan banyak diterapkan di berbagai bidang. Manusia secara tidak sadar dekat dengan teknologi tersebut. Berbagai perusahaan populer seperti Facebook, Google dan Microsoft telah menerapkan metode tersebut untuk meningkatkan kualitas produk mereka. Keterbatasan tim ahli dan infrastruktur menghambat kemajuan penerapan _ teknologi- teknologi Deep Learning untuk mencapai peluang-peluang yang muncul. Keberadaan tim ahli membantu pelaku bisnis memiliki wawasan dan pemahaman yang baik terkait peralatan dan penerapan teknologi Al yang sesuai dengan misi perusahaan. Jenis- jenis teknik Deep Learning untuk menyelesaikan berbagai permasalahan antara lain Fully Connected Neural Networks, Convolutional Neural Networks, Recurrent Neural Network, Generative Adversarial Networks dan Deep Reinforcement Learning. Data Mining mempunyai fungsi untuk membantu mendapatkan informasi berguna sekaligus = meningkatkan —_ pengetahuan pengguna. Metode Deep Learning sangat efektif dan lebih mudah dalam mengidentifikasi pola dari suatu data berbentuk teks, gambar, suara bahkan video. Deep Learning sering dikenal dengan istilah Deep Structured Learning atau Hierarchical Learning merupakan salah satu cabang ilmu Machine Learning yang terdiri dari algoritma pemodelan abstraksi tingkat tinggi pada suatu data menggunakan sekumpulan fungsi transformasi non-linear yang ditata secara berlapis. Dataset adalah basis data tiruan yang terdapat dalam suatu memori dan dibuat menggunakan data adapter. Perangkat Lunak untuk mempelajari Deep Learning memiliki banyak jenis yang dapat diperoleh dengan cara membeli maupun gratis. Metode Deep Learning memudahkan manusia mengidentifikasi objek sekaligus membantu proses bisnis sehingga sangat menarik untuk sekadar dipelajari atau diterapkan. Perangkat lunak Deep Leaming dapat digunakan untuk melakukan klasifikasi dan regresi data gambar, time-series dan teks. Deep Learning adalah bidang penelitian Machine Learning baru. diperkenalkan dengan tujuan untuk mengubah arah pembelajaran Machine Learning agar kembali sesuai dengan salah satu tujuan tujuan awalnya yaitu Artificial Intelligence. Deep Learning menggunakan jaringan saraf yang dihasilkan komputer yang menyerupai otak manusia untuk memecahkan masalah dan membuat prediksi. Pada tahun 2006 Geoffrey Hinton memperkenalkan salah satu varian jaringan saraf tiruan yang disebut Deep belief nets, paper tersebut merupakan awal populernya istilah Deep Learning untuk membedakan arsitektur jaringan saraf tiruan dengan berbagai lapisan. Pada tahun 2009 tim Andrew Y. NG memperkenalkan penggunaan GPU untuk Deep Learning melalui paper berjudul Large-scale Deep Unsupervised Learning using Graphics Processors. Peralatan dan fungsi-fungsi pada perangkat lunak MATLAB dapat digunakan untuk mengelola dataset berukuran besar sekaligus menyediakan tolboxes khusus untuk dikombinasikan dengan Machine Learning, neural networks, computer vision dan automated driving. Banyak Engineer dan Scientist dari berbagai negara seperti MIT, ASML dan Delphi Authomotive mengandalkan MATLAB sebagai perangkat lunak untuk menganalisis dan mendesain suatu proses. Deeep Learning sering dianggap sebagai evolusi Machine Learning karena Deep Learning dapat melakukan analisis secara otomatis sedangkan Machine Learning tidak dapat melakukannya. Machine Learning cocok digunakan untuk memperhitungkan data nonlinear seperti bahasa, suara atau gambar karena dapat memberikan hasil analisis atau kesimpulan yang lebih tepat dari algoritme linear seperti fungsi lookup. Kata Machine Learning pertama kali dirintis oleh ahli komputer dari negara Amerika Serikat bernama Arthur Samuel pada tahun 1959. Machine Learning menggunakan algoritme untuk mengolah suatu data, mengambil kesimpulan berdasarkan data analisis, kemudian menggunakan kesimpulan tersebut untuk menyelesaikan tugas dengan cara yang paling efektif. Hal yang dibutuhkan agar suatu program Machine Learning dapat berfungsi efektif adalah referensi data dalam jumlah besar. Data tersebut digunakan untuk mempelajari dan mendapatkan perkiraan parameter sehingga semakin banyak data pada program Machine Learning menjadikan ia semakin pintar. Jenis data memengaruhi desain peralatan dan cara untuk menampilkan data tersebut secara visual. Dataset dapat diperoleh dengan cara mengumpulkan sendiri data tersebut menggunakan perangkat lunak seperti SPSS dan PSPP atau memperolehnya dengan mencari dari Internet. Dataset atau data set merupakan kumpulan data yang mewakili satu tabel basis data, tiap kolom pada data tersebut mewakili variabel tertentu dan tiap baris mewakili banyaknya data. Berbagai dataset atau kumpulan data dapat diperoleh dari Internet, contohnya data.go.id, data.world atau mencari melalui Google Data Search. Salah satu penghalang untuk memperoleh akses_ koleksi informasi ilmiah adalah keterbatasan atau bahkan tidak adanya_ koneksi Internet. Mengumpulkan sendiri data untuk dijadikan sebuah dataset juga membutuhkan waktu yang lama sehingga menambah waktu penyelesaian untuk tujuan penggunaan dataset tersebut. Perangkat lunak yang akan digunakan untuk melakukan analisis atau menampilkan data yang dimiliki dapat memengaruhi hasil akhir penelitian atau pemanfaatan data untuk tujuan tertentu. Perangkat lunak yang paling umum digunakan untuk melakukan Deep Learning adalah MATLAB yang dikembangkan oleh The MathWorks menggunakan bahasa pemrograman C, C++ dan Java. Beberapa perangkat lunak yang dapat digunakan untuk mempelajari Deep Learning antara lain Neural Designer, H20.ai, DeepLearningKit, Microsoft Cognitive Toolkit, Horovod, Torch dan Gensim. Banyak sekali video tutorial pembelajaran Deep Learning menggunakan perangkat lunak Matlab, Tourch atau Horovod di website Youtube. Anda dapat mencarinya dengan cara mengakses website tersebut melalui www.youtube.com kemudian mengetik kata ‘Torch’ atau ‘Matlab’ pada kolom pencarian, setelah video yang diharapkan muncul klik pada video tersebut. Deep Learning sangat efektif dan memudahkan manusia mengidentifikasi pola suatu data yang berbentuk teks, gambar, suara dan video. Aktivitas Deep Learning biasanya dilakukan oleh Scientist dan Engineer menggunakan alat bantu perangkat lunak sehingga hasil yang diperoleh lebih maksimal. Data yang di analisis dapat diperoleh dengan cara mengumpulkan data secara manual, mendapatkan dataset yang telah tersedia di Internet atau mencarinya dari mesin telusur khusus untuk mencari dataset. Perangkat lunak yang ada berfungsi untuk membantu pengguna melakukan analisis dan menampilkan data yang dimiliki untuk suatu tujuan tertentu. Pengguna perangkat lunak Matlab dapat mencoba menggunakan perangkat lunak tersebut dengan gratis selama tiga puluh hari namun setelah itu Anda harus membeli lisensi perangkat lunak tersebut untuk tetap _ bisa menggunakannya. Perangkat lunak open source yang populer digunakan pada Deep Learning adalah Torch yang dikembangkan oleh Ronan Collobert, Koray Kavukcuoglu dan Clement Farabet. Basis Data Yang Di Ana Dengan IDA Menghasilkan Informasi Berguna Intelligent Data Analysis atau di singkat IDA merupakan salah satu permasalahan yang banyak dibicarakan di bidang Artificial Intelligence dan Teknologi Informasi. Intelligent data analysis mengungkapkan informasi bernilai atau pengetahuan implisit yang sebelumnya tidak diketahui dari sejumlah data berukuran besar.Dengan teknologi komputer IDA secara _ otomatis mengekstraksi informasi berguna, pengetahuan dan model dari berbagai data Online untuk membantu pengambil keputusan membuat pilihan yang tepat.IDA bukan merupakan suatu kegiatan yang menghasilkan karya tulis yang hanya bersifat teori saja. Hasil penelitian para ilmuwan tersebut telah banyak membantu menyelesaikan berbagai permasalahan di berbagai bidang. Kerja keras yang menguras banyak tenaga, pikiran dan biaya tersebut akan sangat di sayangkan jika hanya menghasilkan suatu karya tulis untuk bahan bacaan saja. Keberhasilan penelitian dalam menyelesaikan berbagai permasalahan membuat kegiatan tersebut semakin bermutu dan populer di kalangan ilmuwan dan akademisi. Sebagai upaya untuk mempertahankan prestasi yang

You might also like

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy