Daftar Isi
Sejarah dan Perkembangan Data Mining. 5
Kerbermanfaatan atau Urgensi 5
Dari Sudut Pandang Komersial 5
Dari sudut pandang keilmuan. 6
Contoh-contoh Aplikasi Data Mining Yang Sudah Ada. 6
Penerapan atau Implementasi Data Mining Dalam Bidang Kehidupan. 7
Rancangan Aplikasi Data Mining Yang Menjadi Solusi Bagi Bangsa Indonesia. 8
BAB IV KESIMPULAN DAN SARAN.. 11
BAB I PENDAHULUAN
Latar Belakang
Dalam era globalisasi dan zaman modern di berbagai bidang kehidupan dan profesi, teknologi informasi telah meningkatkan pengumpulan dan penyimpanan datanya. Kumpulan data telah tumbuh dalam ukuran dan kompleksitas yang sangat besar. Untuk mengolah data dengan ukuran dan kompleksitas yang sangat besar, agar menemukan pola-pola berguna yang tersembunyi, dibutuhkan pemrosesan data yang otomatis. Otomotisasi ini, perlu sebuah metode sebagai penerapan pengumpulan dan menganalisis data secarat akurat, metode tersebut dikenal sebagai Data Mining.
Perumusan Masalah
Dari permasalahan yang penulis angkat, dapat dirumuskan masalah sebagai berikut :
- Apa definisi dari Data Mining ?
- Bagaimana sejarah dan perkembangan dari Data Mining?
- Kemukakan contoh-contoh Aplikasi dari Data Mining yang sudah ada ?
- Kemukakan serta paparkan solusi dari rancangan Aplikasi Data Mining bagi bangsa indonesia saat ini ?
Tujuan Penulisan
Tujuan penulisan ilmiah ini untuk memenuhi tugas mata kuliah Wawasan Teknologi Terbaru (WTT) dan untuk meningkatkan pengetahuan penulis dalam memahami Aplikasi Data Mining serta implementasinya
BAB II METODOLOGI
Metode penulisan ilmiah yang digunakan oleh penulis, yaitu adalah sebagai berikut :
- Studi Literatur
Dengan cara mengumpulkan informasi dari berbagai referensi atau sumber di internet, seperti ebook pada jurnal online ataupun website atau situs lainnya yang terkait dengan topik masalah.
- Observasi
Dengan cara melakukan pengamatan secara langsung terhadap proses pembelajaran siswa atau mahasiswa selama di kelas (teori) maupun di laboratorium (praktek)
BAB III PEMBAHASAN
Definisi
Ada beberapa definisi dari data mining yang dikenal di buku-buku teks data mining, diantaranya adalah :
- Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.
- Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks denfgan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya.
Kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Dari definisi-definisi itu, dapat dilihat ada beberapa faktor yang mendefinisikan data mining :
- Data mining adalah proses otomatis terhadap data yang dikumpulkan masa lalu
- Obyek dari data mining adalah data yang berjumlah besar atau kompleks
- Tujuan dari data mining adalah menemukan hubungan-hubungan atau pola-pola yang mungkin memberikan indikasi yang bermanfaat.
Teknik Data Mining
Berikut beberapa jenis teknik data mining yang paling populer dikenal dan digunakan :
- Associating Rule Mining
Associating rule mining adalah teknik mining untuk menemukan aturan assosiatif antara suatu kombinasi item. Algoritma yang paling populer dikenal sebagai Apriori dengan paradigma generate and test, yaitu pembuatan kandidat kombinasi item yang mungkin berdasar aturan tertentu lalu diuji apakah kombinasi item tersebut memenuhi syarat support minimum. Algoritma baru yang lebih efisien bernama FP-Tree.
- Classification
Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu obyek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jika-maka”, berupa decision tree, formula matematis atau neural network. Decesion tree adalah salah satu metode classification yang paling populer karena mudah untuk diinterpretasi oleh manusia. Disini setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohon menyatakan kelas data. Algoritma decision tree yang paling terkenal adalah C4.5, tetapi akhir- akhir ini telah dikembangkan algoritma yang mampu menangani data skala besar yang tidak dapat ditampung di main memory seperti RainForest. Metode-metode classification yang lain adalah Bayesian, neural network, genetic algorithm, fuzzy, case–based reasoning, dan k-nearest neighbour.
- Clustering
Berbeda dengan association rule mining dan classification dimana kelas data telah ditentukan sebelumnya, clustering melakukan pengelompokan data tanpa berdasarkan kelas data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui itu. Karena itu clustering sering digolongkan sebagai metode unsupervised learning. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yang memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi. Banyak algoritma clustering memerlukan fungsi jarak untuk mengukur kemiripan antar data, diperlukan juga metode untuk normalisasi bermacam atribut yang dimiliki data. Algoritma yang terkenal adalah DBSCAN.
Cara Kerja Data Mining
Cara kerjanya yaitu “menggali” hal-hal penting yang belum diketahui sebelumnya atau memprediksi apa yang akan terjadi ? teknik yang digunakan untuk melaksanakan tugas ini disebut pemodelan. Pemodelan disini dimaksudkan sebagai kegiatan untuk membangun sebuah model pada situasi yang telah diketahui “jawabannya” dan kemudian menerapkannya pada situasi lain yang akan dicari jawabannya
Sejarah dan Perkembangan Data Mining
Tahun 1990-an telah melahirkan “gunungan” data di bidang ilmu pengetahuan, bisnis dan pemerintah. Kemampuan teknologi informasi untuk mengumpulkan dan menyimpan berbagai tipe data jauh untuk meninggalkan kemampuan untuk menganalisis, meringkas, dan mengekstraksi “pengetahuan” dari data (Achmad Zulfikar, 2009). Metodologi tradisional untuk menganalisis data yang ada, tidak dapat menangani data dalam jumlah besar. Sementara para pelaku bisnis memiliki kebutuhan-kebutuhan untuk memanfaatkan gudang data yang sudah dimiliki, para peneliti melihat peluang untuk melahirkan sebuah teknologi baru yang menjawab kebutuhan ini, yaitu Data mining. Teknologi ini sekarang sudah ada dan dipublikasikan oleh perusahaan-perusahaan untuk memecahkan berbagai permasalahan bisnis (Achmad Zulfikar, 2009).
Alasan utama mengapa data mining diperlukan adalah karena adanya sejumlah besar data yang dapat digunakan untuk menghasilkan informasi dan knowledge yang berguna. Informasi dan knowlede yang didapat tersebut dapat digunakan pada banyak bidang, mulai dari manajemen bisnis, kontrol produksi, kesehatan, dan lain-lain (Han & Kamber, 2001). Perkembangan data mining yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Sebagai contoh, toko swalayan merekam setiap penjualan barang dengan memakai alat POS (Point Of Sales). Database data penjualan tersebut, bisa mencapai beberapa GB setiap harinya untuk sebuah jaringan toko swalayan berskala nasional. Perkembangan internet juga punya andil cukup besar dalam akumulasi data. Tetapi pertumbuhan yang pesat dari akumulasi data itu telah menciptakan konsidi yang sering disebut sebagai rich of data but poor of information, karena data yang terkumpul itu tidak dapat digunakan untuk aplikasi yang berguna. Tidak jarang kumpulan data itu dibiarkan begitu saja seakan-akan kuburan dara (data tombs). Investasi yang besar di bidang IT untuk mengumpulkan data berskala besar ini perlu dijustifikasi dengan didapatnya nilai tambah dari kumpulan data ini.
Kerbermanfaatan atau Urgensi
Dari Sudut Pandang Komersial
Pemanfaatan data mining dapat digunakan dalam menangani meledaknya volume data. Bagaimana menyimpannya, mengekstraknya serta memanfaatkannya. Berbagai teknik komputasi dapat digunakan menghasilkan informasi yang dibutuhkan. Informasi yang dihasilkan menjadi asset untuk meningkatkan daya saing suatu institusi. Data mining tidak hanya digunakan untuk menangani persoalan menumpuknya data atau informasi dan bagaimana menggudangkannya tanpa kehilangan informasi yang penting (warehousing). Data mining juga diperlukan untuk menyelesaikan permasalahan atau menjawab kebutuhan bisnis itu sendiri, misalnya :
- Bagaimana mengetahui hilangnya pelanggan karena pesaing
- Bagaimana mengetahui item produk atau konsumen yang memiliki kesamaan karakteristik
- Bagaimana mengidentifikasi produk-produk yang terjual bersamaan dengan produk lain
- Bagaimana memprediksi tingkat penjualan
- Bagaimana menilai tingkat resiko dalam menentukan jumlah produksi suatu item
- Bagaimana memprediksi perilaku bisnis di masa yang akan datang.
Dari sudut pandang keilmuan
Data mining dapat digunakan untuk mengcapture, menganalisis serta menyimpan data yang bersifat real-time dan sangat besar, misalnya :
- Remote sensor yang ditempatkan pada suatu satelit
- Teleskop yang digunakan untuk memindai langit
- Simulasi saintifik yang membangkitkan data dalam ukuran
Contoh-contoh Aplikasi Data Mining Yang Sudah Ada
Berikut beberapa contoh aplikasi data mining yang sudah ada dan digunakan, diantaranya adalah :
- Waikato Environment for Knowledge Analysis (WEKA)
WEKA adalah aplikasi populer untuk algoritma-algoritma data mining dan ditulis dalam bahasa Java. WEKA tersedia dibawah GNU General Public License. WEKA dikembangkan di Universitas Waikato di New Zealand. WEKA dikembangkan mulai tahun 1993, dikerjakan dalam versi Java tahun 1997. Pada september 2006, Pentaho, pengembang software business intelligence opensource membeli WEKA. WEKA terdiri dari tool untuk pre-processing, klasifikasi, regresi, clustering, aturan-aturan asosiasi, dan visualisasi. WEKA juga menyediakan fitur GUI yang dapat digunakan untuk menguji berbagai data set dan menerapkan berbagai algortima data mining. Namun yang menarik untuk diutilisasi dari WEKA adalah penggunaan Java API secara langsung sehingga pengembang dapat mengembangkan aplikasi data miningnya sendiri. Diperlukan API data mining standar untuk mendukung ke beragam vendor, tentu untuk mengganti platform ke vendor lain tidaklah mudah, bahkan menyusahkan dan menghabiskan banyak waktu. Atas dasar inilah spesifikasi Java Data Mining (JDM) dikembangkan oleh Java Community Process JSR 73 dan JSR 247. Salah satu tujuan utamanya adalah menyediakan akses mudah sebagaimana halnya JDBC mengakses ke database. JDM sudah didukung oleh industri seperti Oracle, IBM, SPSS, CA, Fair Issac.
Pada JSR 73, JDM mendukung lima tipe algoritma berbeda, yaitu clustering, classification, regression, attribute importance, dan association rules. JDM juga mendukung operasi-operasi data mining umum seperti, membangun, mengevaluasi, menerapkan, dan menyimpan model. JDM ini juga mendefinisikan XML schema untuk merepresentasikan model-model yang dapat diakses melalui web service. JSR 247 selanjutnya diluncurkan dan menspesifikasikan JDM 2.0 yang menyediakan fitur-fitur tambahan seperti statistika multivatiate, analisis time seri, deteksi anomali, transformasi, text mining, model-model multitarget, dan membandingkan model-model.
- Document Classification
Merupakan contoh aplikasi dari data classification, yaitu dapat kita lihat pada pengelompokan buku di perpustakaan. Buku-buku itu dikategorikan secara otomatis.
- Riset Marketing (Market Research)
Merupakan contoh aplikasi dari data cluster, yang diimplementasikan untuk riset marketing. Fungsinya untuk menyimpulkan segmentasi pasar, dan memahami lebih jauh relasi atau hubungan dari kelompok konsumen yang berbeda itu.
Penerapan atau Implementasi Data Mining Dalam Bidang Kehidupan
Bidang Perbankan
Bank memiliki masalah memprediksi kelayakan kredit dari klien baru berdasarkan data historis dari klien masa lalu. Kredit ini juga mempengaruhi tingkat bunga kredit. Sekuel ini menjelaskan bagaimana Data Mining dapat diterapkan untuk masalah ini:
Sebuah bank memiliki data tentang klien kepada siapa itu memberi kredit di masa lalu. Data klien berisi data pribadi, data yang menjelaskan status keuangan dan perilaku keuangan sebelum dan pada saat itu klien diberi kredit. Klien dibagi menjadi empat kelas.
- Kelas pertama berisi semua klien-klien yang dibayar kembali kredit tanpa masalah.
- Kelas kedua mereka yang dibayar kembali dengan masalah kecil di sana-sini.
- Kelas ketiga berisi mereka yang hanya harus mendapatkan kredit setelah pemeriksaan rinci karena masalah besar payback terjadi di masa lalu
- kelas keempat terdiri dari mereka yang tidak membayar sama sekali.
Menggunakan tabel data, model prediksi dibuat untuk memprediksi probabilitas untuk setiap kelas untuk klien baru. Untuk kombinasi atribut yang bertanggung jawab untuk klien yang memiliki probabilitas tinggi tidak membayar kembali akan diidentifikasi oleh model prediksi juga.
Contoh ini menunjukkan bagaimana Data Mining dapat membantu bank untuk lebih baik memprediksi pemberian kredit pada pelanggan. Hal ini juga membantu untuk mengurangi jumlah kredit macet di satu sisi. Di sisi lain juga memungkinkan untuk menawarkan kondisi yang lebih baik kepada pelanggan lain dengan risiko lebih rendah .
Bidang Olahraga
IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA (jumlah shots blocked, assists dan fouls) dalam rangka mencapai keunggulan bersaing (competitive advantage) untuk tim New York Knicks dan Miami Heat.
Bidang Telekomunikasi
Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara manual (dilayani oleh orang). Tujuannya tidak lain adalah untuk menambah layanan otomatis khusus untuk transaksi-transaksi yang masih dilayani secara manual. Dengan demikian jumlah operator penerima transaksi manual tetap bisa ditekan minimal.
Bidang Asuransi
Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi layanan kesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh peserta asuransi. Hasilnya mereka berhasil menghemat satu juta dollar per tahunnya. Tentu saja ini tidak hanya bisa diterapkan untuk asuransi kesehatan, tetapi juga untuk berbagai jenis asuransi lain.
Bidang Perusahaan
- Perencanaan Keuangan dan Evaluasi Aset
Data Mining dapat membantu Anda untuk melakukan analisis dan prediksi cash flow serta melakukan contingent claim analysis untuk mengevaluasi aset. Selain itu Anda juga dapat menggunakannya untuk analisis trend.
- Perencanaan Sumber Daya (Resource Planning)
Dengan melihat informasi ringkas (summary) serta pola pembelanjaan dan pemasukan dari masing-masing resource, Anda dapat memanfaatkannya untuk melakukan resource planning.
- Persaingan (Competition)
- Sekarang ini banyak perusahaan yang berupaya untuk dapat melakukan competitive intelligence. Data Mining dapat membantu Anda untuk memonitor pesaing-pesaing Anda dan melihat market direction
- Anda juga dapat melakukan pengelompokan customer Anda dan memberikan variasi harga atau ayanan atau bonus untuk masing-masing grup.
- Menyusun strategi penetapan harga di pasar yang sangat kompetitif. Hal ini diterapkan oleh perusahaan minyak REPSOL di Spanyol dalam menetapkan harga jual gas di pasaran.
Rancangan Aplikasi Data Mining Yang Menjadi Solusi Bagi Bangsa Indonesia
Proses Data Mining dalam Sistem Pembelajaran Berbantuan Komputer
Latar Belakang Masalah
Ketersediaan data yang berlimpah yang dihasilkan dari penggunaan teknologi informasi dapat kita lihat di hampir semua bidang kehidupan, hal tersebut menimbulkan kebutuhan untuk dapat memanfaatkan informasi yang terkandung di dalam limpahan data tersebut. Kebutuhan ini kemudian melahirkan data mining.
Dunia pendidikan memiliki data yang sangat berlimpah dan berkesinambungan mengenai siswa yang sedang dibina dan alumni yang dihasilkannya. Hal ini tentunya membuka peluang diterapkannya data mining untuk pengelolaan pendidikan yang lebih baik [Jing, 2004] dan pelaksanaan pembelajaran berbantuan komputer yang lebih efektif [Merceron, 2005]
Solusi Yang Dirancang
Salah satu sistem yang bisa digunakan, yaitu sistem pembelajaran berbantuan komputer (computer aided learning sistem) yang dapat diimplementasikan sebagai sistem tutorial berbasis web (web-based tutorial tool) [Merceron, 2004] atau sistem tutorial cerdas (intelligent tutoring system) [Nilakant, 2004]. Di dalam sistem tutorial tersebut, setiap interaksi siswa dengan sistem akan dicatat dalam suatu basis data dalam bentuk apapun, seperti bentuk web log atau model siswa (student model). Setelah sistem tutorial tersebut digunakan dalam proses pembelajaran selama jangka waktu tertentu, maka akan terkumpul sejumlah besar data. Diharapkan kumpulan data tersebut dapat diproses lebih lanjut dengan data mining untuk mendapatkan atau memperoleh pola baru yang dapat digunakan untuk meningkatkan efektifitas dalam proses pembelajaran.
Gambar 1 Aliran informasi dalam data mining
Deksripsi Solusi
Untuk menentukan variabel apa sajakah yang perlu dicatat dari interaksi siswa dengan sistem, perlu dikembangkan suatu model interaksi siswa dengan sistem. Gambar 2 menunjukkan interaksi pada beberapa lapisan yang berbeda [Nilakant, 2004].
Evaluasi sistem tutorial jika terapkan pada lapisan terluar, maka akan dilakukan pre-test (sebelum pelajaran) dan post-test (sesudah pelajaran). Perbedaan yang dihasilkan pada pre-test dan post-test ini akan menunjukkan perubahan kinerja setiap siswa dengan granuaritas pada tingkat pelajarannya. Jika diperlukan analisis yang mendalam atau merinci, eksplorasi hasil belajar harus dilakukan pada lapisan dalam. Misalnya, pembelajaran dalam suatu mata pelajaran tersusun atas beberapa sesi, dimana siswa akan mencoba mengerjakan sejumlah soal. Setiap usaha siswa dalam menjawab soal dibedakan atas melanggar atau memenuhi sejumlah aturan. Interaksi dan informasi mengenai pemenuhan tersebut dapat dicatat, dan akan mengasilkan representasi status kognitif dari siswa, yang dikenal sebagai model siswa
Gambar 2 Model interaksi siswa dengan sistem (lapisan granuaritas)
Perlu ditunjukkan ringkatan data yang dapat disimpan untuk setiap usaha yang dilakukan siswa dalam menjawab soal, dapat dilihat pada tabel 1
Tabel 1. Variabel atau Kamus Data dari usaha siswa
Kegiatan | Variabel atau Kamus Data | Keterangan |
Persiapan | · Banyaknya soal (Pg/Essai)
· Banyaknya usaha · Tingkat kesulitas soal · Konteks soal |
Informasi yang dipakai siswa dalam menjawab soal |
Pelaksanaan | Waktu yang diperlukan | Informasi mengenai usaha siswa dalam menjawab soal |
Evaluasi | · Aturan (dipenuhi/dilanggar)
· Solusi |
Informasi yang berhubungan dengan hasil dari usaha siswa |
Data mentah yang dihasilkan dari pengumpulan data tersimpan dalam bentuk beberapa tabel basis data. Analisis data pada umumnya dilakukan terhadap suatu tabel tunggal, maka perlu untuk digabungkan (join) beberapa tabel yang relevan. Singkatnya dalam Pengolahaan data harus dilakukan seperti proses pada gambar 1.
BAB IV KESIMPULAN DAN SARAN
Kesimpulan
Dari penulisan ilmiah tersebut penulis mencoba menarik beberapa kesimpulan, sebagai berikut :
- Data Mining menawarkan prospek yang menjanjikan ke dalam berbagai bidang kehidupan, seperti organisasi dan profesi. Dimana dengan diterapkannya data mining, pola yang tersembunyi dalam data yang mereka gunakan dapat ditemukan untuk memprediksi perilaku proses, produk, dan pelanggan
- Dengan dibuatkan laporan ilmiah ini diharapkan pembaca dapat memperdalam pengetahuan atau wawasan mengenai Data Mining, khususnya bagi diri penulis sendiri.
Saran
Dari penulisan ilmiah tersebut penulis mengemukakan beberapa saran, sebagai berikut :
- Data Mining perlu diterapkan pada data dengan ukuran dan kompleksitas besar, sebagaimana fakta dari data yang telah penulis paparkan dalam penulisan ilmiah ini.
- Mengingat sangat pentingnya Data Mining, alangkah baiknya Prodi D3 Teknik Informatika memberikan pelajarang tentang Data Mining tersebut kepada mahasiswanya
DAFTAR PUSTAKA
[1] Jiawei, H., Kamber, M. (2001). Data Mining Concepts and Techniques, Morgan Kaufman Publishers.
[2] Marceron, A., Yacef, K. (2005). Educational Data Mining: a Case Study, http://www.it.usyd.edu.au/~kalina/publis/merceron_yacef_aied05.pdf, diakses tanggal 09 Desember 2015.
[3] Nilakant, K. (2004). Application of Data Mining in Contraint Based Intellgent Tutoring System, www.cosc.canterbury.ac.nz/research/reports/HonsReps/2004/hons_0408.pdf, diakses tanggal 09 Desember 2015.
[4] JIng, L. (2004). Data Mining Applications in Higher Education, www.spss.com/events/e_id_1471/Data Mining in Higher Education.pdf, diakses tanggal 09 Desember 2015.
[5] Gorbyrasyid. (2010). Data Mining, http://gorbyrashid.blogspot.com/2010/06/data-mining.html, diakses tanggal 09 Desember 2015.
[6] Mimin, Oppung (2014). Pengertian dan Sejarah Data Mining, http://itdare.blogspot.com/2014/12/pengertian-dan-sejarah-data-mining.html, diakses tanggal 09 Desember 2015.
[7] Adit. Data Mining, http://adit.ilearning.me/data-mining/, diakses tanggal 09 Desember 2015.
[8] Adi, Seno (2014). Data Mining dan Java, https://senoap.wordpress.com/2014/01/28/data-mining-dan-java/, diakses tanggal 09 Desember 2015.
[9] Abdullah, Fakhri (2014). Data Mining, http://anteilku.blogspot.com/2014/12/data-mining.html, diakses tanggal 09 Desember 2015.
[10] Dhiyudhi. (2012). Konsep Data Mining dan Penerapannya, http://dhiyudhi.blogspot.com/2012/03/konsep-data-mining-dan-penerapannya.html, diakses tanggal 09 Desember 2015.
[11] Susila, Oka (2013). Pengenalan Kuliah Data Mining, http://susila-besmart.blogspot.com/2013/02/pengenalan-kuliah-data-mining.html, diakses tanggal 09 Desember 2015.
[12] Ayub, Mewati (2007). Proses Data Mining dalam Sistem Pembelajaran Berbantuan Komputer, http://repository.maranatha.edu/418/1/Proses%20Data%20Mining%20dalam%20Sistem%20Pembelajaran%20Berbantuan%20Komputer.pdf, diakses tanggal 09 Desember 2015.