Seleksi Fitur Enity Resolution Dalam Kasus Prostitusi Online Di Twitter

Permatasari, Reisa (2019) Seleksi Fitur Enity Resolution Dalam Kasus Prostitusi Online Di Twitter. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05211350010018-Master_Thesis.pdf]
Preview
Text
05211350010018-Master_Thesis.pdf - Accepted Version

Download (4MB) | Preview

Abstract

Usaha menemukan solusi atas maraknya prostitusi online melalui Twitter salah satunya dengan menerapkan entity resolution dari identitas akun media sosial yang memiliki fitur spesifik yang menandakan prostitusi online. Entity resolution adalah proses menentukan apakah dua referensi untuk objek dunia nyata mengacu pada objek yang sama atau berbeda. Penelitian ini menerapkan entity resolution berdasarkan fitur dengan pelatihan Regularized Logistic Regression dan penentuan Active Learning pada Dedupe dan berdasarkan graph menggunakan Neo4j dan Node2Vec.
Metode penelitian yang digunakan mencakup tahapan: (1) penyiapan data, (2) ekstraksi fitur, (3) menyusun data latih dan data uji, (4) pencocokan entity resolution, dan (5) ujicoba dan analisis hasil penelitian. Data yang digunakan adalah hasil scrapping Twitter dari tagar tertentu, dengan ekstraksi fitur berbasis pada (a) informasi pengguna pada kolom bio yang terdiri dari lokasi dan teks yang diekstraksi lebih detail menjadi spesifikasi personal dan nomor kontak, dan (b) aliran data berupa konten cuitan yang berupa tagar berdasarkan 5 tagar teratas.
Penelitian ini menemukan bahwa (1) similarity maksimal bernilai 1 ketika jumlah fitur (spesifikasi personal, lokasi dan bio) lengkap, similarity minimal bernilai 0.025662627 ketika semakin banyak jumlah data latih negatif (2) fitur yang paling mempengaruhi similarity adalah nomor hp dengan rentang terendah mulai dari 0.997678459 hingga 0.999993523 (3) parameter - length of walk per source memberikan pengaruh sehingga mencapai akurasi similarity terbaik mencapai 71,4 % (prediksi 14 dan hasil 10 ) saat parameter bernilai -d:16 -q:2 -l:80

=========================================================

The effort to find a solution for online prostitution through Twitter is by applying the entity resolution of the identity of social media accounts that have specific features that indicate online prostitution. Entity resolution is the process of determining whether two references to real-world objects refer to the same or different objects. This study applies entity resolution based on features with the Regularized Logistic Regression training and determination of Active Learning on Dedupe and based on graphs using Neo4j and Node2Vec.
The research method used includes stages: (1) data preparation, (2) feature extraction, (3) compiling training data and test data, (4) matching entity resolution, and (5) testing and analysis of research results. The data used is the result of Twitter scrapping of certain tags, with feature extraction based on (a) user information in the bio column consisting of location and extracted text in more detail into personal specifications and contact numbers, and (b) data flow in the form of cuit content in the form of a hashtag based on the top 5 tags.
This study found that (1) maximum similarity is 1 when the number of features (personal, location and bio specifications) is complete, minimum similarity is 0.025662627 when the number of negative training data (2) the most influencing similarity feature is the cellphone number with the lowest starting range from 0.997678459 to 0.999993523 (3) the parameter - length of walk per source has the effect of achieving the best similarity accuracy reaching 71.4% (prediction 14 and yield 10) when the parameter is : -d 16 -q: 2 -l: 80

Item Type: Thesis (Masters)
Uncontrolled Keywords: entity resolution, prostitusi online, logistic regression, active learning
Subjects: T Technology > T Technology (General) > T57.5 Data Processing
Divisions: Faculty of Information and Communication Technology > Information Systems > 59101-(S2) Master Thesis
Depositing User: Permatasari Reisa
Date Deposited: 09 Nov 2020 02:14
Last Modified: 13 Nov 2020 12:29
URI: http://repository.its.ac.id/id/eprint/68405

Actions (login required)

View Item View Item