Archive | 2021

Komparasi Performa Algoritma ID3, C4.5, CHAID Dalam Profiling Tersangka Kasus Narkoba Di Jawa Barat

 
 
 
 

Abstract


Strategi dalam pengendalian kejahatan narkoba tidak bisa didasari melalui intervensi berupa larangan saja, akan tetapi memahami pola kejahatan narkoba akan menjadi lebih baik dalam pengendaliannya, terutama untuk pencegahan dan kewaspadaan. Dengan menggunakan teknik data mining, insigth terhadap kejahatan narkoba dapat didefinisikan dengan baik, salah satunya dengan algoritma klasifikasi decision tree. Ada beberapa algoritma dengan basis decision tree, seperti ID3, C4.5, dan CHAID. Dengan banyaknya pilihan algoritma, maka metode perbandingan algoritma dipilih oleh penulis dalam penelitian ini, tujuannya untuk menentukan algoritma yang paling tepat dalam menganalisis data. Performa akurasi menjadi tolok ukur dalam perbandingannya, dan hasil dari perbandingan yang dilakukan, penulis memilih algoritma CHAID sebagai pemodelannya dengan nilai akurasi sebesar 73.89%, sedangkan yang lainnya masingmasing memiliki nilai akurasi sebesar 70.14% untuk ID3 dan 72.44% untuk C4.5. Kata kunci — C4.5, CHAID, data mining, ID3 I. PENDAHULUAN Segala jenis kejahatan akan memberikan dampak yang buruk, tidak terkecuali kejahatan terkait penyalahgunaan narkoba, selain membahayakan kesehatan, kejahatan terkait narkoba beberapa diantaranya dapat memicu kejahatan lain seperti penipuan, perampokan, pencurian, hingga kekerasan secara fisik untuk mendapatkan uang agar dapat membeli narkoba. Konsekuensi negatif yang timbul akibat penggunaan narkoba, paling jelas terlihat pada individu pelakunya, kesehatan semakin memburuk dan rentan tertular oleh penyakit berbahaya seperti HIV/AIDS, sampai akhirnya berdampak pada kematian. Akibatnya pengaruh dari kejahatan narkoba memberikan dampak buruk yang luas bagi kehidupan sosial [1]. Pada tahun 2018 Badan Narkotika Nasional (BNN) mencatat penyalahgunaan narkoba mencapai 2.29 juta orang dari kalangan pelajar di seluruh Indonesia dan terjadi peningkatan sebesar 24 hingga 28% di tahun 2019 [2]. Melihat kondisi yang seperti ini, penelitian terhadap kejahatan penyalahgunaan narkoba menjadi sangat perlu untuk dilakukan, agar dapat meningkatkan kewaspadaan kita di masa yang akan datang. Data mining dengan metode klasifikasi dapat memprediksi pola dari pelaku, info demografis dapat berperan dalam memprediksi pelaku penyalahgunaan narkoba [3] atau lebih dikenal dengan istilah profiling. Profiling tersangka pelaku kejahatan merupakan pendekatan yang umum dilakukan dalam proses investigasi dengan tujuan agar mendapatkan ciri-ciri dari pelaku yang bersangkutan. Metode klasifikasi pada data mining telah banyak digunakan oleh para peneliti sebagai teknik untuk melakukan profiling. Pemilihan metode dan algoritma yang tepat, menjadi kunci dalam melakukan profiling [4], sehingga algoritma yang digunakan memiliki performa yang baik dari tingkat akurasinya. Ada banyak algoritma yang dapat digunakan pada metode klasifikasi, namun permaslahnnya adalah bagaimana kita dapat menentukan algoritma terbaik untuk profiling tersangka penyalahgunaan narkoba? Karena memang tidak ada standar algoritma yang baku [5] untuk penerapannya, semuanya tergantung data yang akan dijadikan penelitian. Maka dari itu, tujuan dari penelitian ini adalah penerapan metode komparasi terhadap performa algoritma dari ID3, C4.5, dan CHAID untuk menentukan algoritma yang tepat dalam menganalisis profiling pelaku tindak kejahatan penyalahgunaan narkoba. II. TINJAUAN PUSTAKA Analisis mengenai tindak kejahatan menggunakan pendekatan machine learning sudah banyak dilakukan sebelumnya, seperti menggunakan algoritma Naïve Bayes [6] untuk analisis pola kejahatan pada media sosial facebook. Pendekatan dengan algoritma K-Means [7] untuk klasterisasi tingkat kejahatan di daerah Pematangsiantar. Sedangkan penelitian sebelumnya tentang pelaku tindak kejahatan narkoba [8] menyatakan bahwa, dengan menggunakan algoritma C4.5 untuk prediksi tersangka dapat memberikan informasi atau pengetahuan yang mudah dipahami karena aturan yang dihasilkan ditampilkan dalam bentuk pohon kuputusan dan mudah untuk membaca aturan susunannya. Dari hasil penelitiannya, alamat tersangka kasus narkoba menjadi faktor yang paling berpengaruh terhadap tindak pidana narkoba. Bukti empiris menunjukkan bahwa, penelitiannya dilakukan menggunakan metode yang baik sehingga menghasilkan pengetahuan atau informasi rule yang mudah untuk dipahami. Namun, metode yang digunakan masih memiliki kelemahan sebagai berikut: Informasi yang dihasilkan tidak menunjukkan nilai akurasi yang jelas, sehingga dapat menimbulkan persepsi kurang baik terhadap tingkat kepercayaan publik pada penelitiannya. Selain itu, pemilihan Techno Xplore Jurnal Ilmu Komputer dan Teknologi Informasi ISSN: 2503-054X Vol. 6 No: 1, April 2021 2 No. 1-001/Vol. 6/2021/TechnoXplore algoritma juga menjadi faktor penting dalam penelitian ini agar dapat meningkatkan kualitas prediksi terhadap sekumpulan data. Untuk menentukan algoritma apa yang paling tepat, dapat dilakukan perbandingan nilai performa terhadap akurasi prediksi dari berbagai algoritma yang diuji. Dari permasalahan ini, penulis mengusulkan metode komparasi 3 algoritma decision Tree (ID3, C4.5, CHAID) dengan uji validasi menggunakan 10-fold cross validation. A. ID3 dan C4.5 Iterative Dichotomiser 3 (ID3) sebagai algoritma pengklasifikasian secara hirarki memiliki struktur dasar yang berulang, dan subset yang dihasilkan dari data training akan dipilih secara acak untuk membentuk sebuah pohon keputusan [9]. Algoritma ini diusulkan oleh Quinlan dan dipublikasikan pada tahun 1986. Pohon keputusan ID3 sangat dipengaruhi oleh informasi gain yang didapatkan dari data yang diuji. Dalam upaya mendapatkan hasil yang maksimal, banyak peneliti melakukan improvement pada algoritma ini [10]. Dalam memprediksi daftar tersangka tindak kejahatan, ID3 dapat secara efektif dalam mengalanisis data dari TKP dengan data yang sudah ada pada dataset [11]. Tidak sampai di sini, kemudian Quinlan memperkenalkan algortima C4.5 dan dipublikasin pada tahun 1993 [12] sebagai lanjutan dari algoritma ID3. Mulai saat itu, algoritma C4.5 menjadi acuan untuk model standar klasifikasi supervised. Sebagai perbaikan dari ID3, algortima C4.5 menghasilkan pohon keputusan yang lebih luas dan efisien. Keunggulan ini bersifat relatif [13], tergantung dataset yang kita miliki sebagai penelitian. B. CHAID Teknik pohon keputusan Chi-square Automatic Interaction Detection (CHAID) yang merupakan teknik dengan menggunakan pengujian bonferroni untuk menyesuaikan uji signifikansi terhadap atribut data. Gordon V.Kass mengusulkan teknik ini, kemudian pada tahun 1980 telah dipublikasikan [14]. Dalam penerapannya, data akan dipartisi dan dipilih lalu dibandingkan untuk menemukan predictor terbaik dalam menganalisis data. III. METODE PENELITIAN Penelitian ini menggunakan metode perbandingan algoritma, dengan 3 algoritma decision tree yang divalidasi menggunakan 10-fold cross validation sebagai perbandingan untuk mengetahui masing-masing performanya. Algoritma yang diuji performa akurasinya yaitu ID3, C4.5, dan CHAID. Dengan demikian, pemilihan algoritma untuk profiling tersangka kasus narkoba menjadi lebih tepat. Kerangka metode penelitian bisa dilihat pada gambar 1. Gambar 1 Kerangka Metode Penelitian. Sebagai catatan bahwa metode ini bukanlah sebuah model untuk memecahkan permasalahan pada analisis forensik secara keseluruhan, namun digunakan dalam proses analisis profiling pelaku penyalahgunaan narkoba di Jawa Barat. Data yang diuji merupakan data nominal untuk keseluruhan atribut pada dataset, walapun pada tabel 1 terlihat ada atribut numeric, tetapi data tersebut bersifat labeling pada tingkat pendidikan yang tidak bisa diolah dengan operasi bilangan. Oleh karena itu, metode ini tidak bisa diterapkan pada dataset yang memiliki atribut numeric sebagai perhitungan, seperti algoritma ID3 dan CHAID. IV. HASIL DAN PEMBAHASAN A. Data Preparation Tidak semua data yang dikumpulkan sebagai dataset sudah terstruktur dengan baik dan siap untuk dianalisis, kualitas hasil prediksi juga sangat tergantung pada kualitas data yang dimiliki. Maka dari itu proses preparation sangat penting sebelum melakukan pemodelan menggunakan algoritma. Data yang tersedia sebagai data sampling pada penelitian ini, merupakan data private tersangka tindak kejahatan di wilayah Jawa Barat dari tahun 2016 sampai dengan 2019. Kemudian proses cleaning dilakukan pada bagian ini, pemilihan atribut (atributes selection) dan transformasi data adalah cara yang diimplementasikan peneliti guna mempersiapkan data yang bersih dan siap untuk dilakukan pemodelan. Pada tabel 1 adalalah atribut-atribut yang telah dipilih dalam penelitian ini. Tabel 1 Atribut Terpilih Techno Xplore Jurnal Ilmu Komputer dan Teknologi Informasi ISSN: 2503-054X Vol. 6 No: 1, April 2021 3 No. 1-001/Vol. 6/2021/TechnoXplore Atribut Tipe Data TKP Nominal Jenis Kelamin Nominal Usia Nominal Pendidikan Numeric Pekerjaan Nominal Kasus Narkoba Nominal Pada tabel 1 atribut “Pendidikan” memiliki tipe data numeric, karena pemodelan dengan algoritma ID3 dan CHAID tidak bisa menangani atribut numeric, maka proses trasformasi data dilakukan pada tahap ini. Perubahan tipe data dari numeric ke nominal bisa dilihat pada tabel 2. Tabel 2 Transformasi Data Pendidikan Pendidikan 0 TS 1 SD 2 SMP 3 SMA 4 DIPLOMA

Volume 6
Pages 1-8
DOI 10.36805/TECHNOXPLORE.V6I1.1087
Language English
Journal None

Full Text