Normalisasi Teks Media Sosial Menggunakan Word2vec, Levenshtein Distance, dan Jaro-Winkler Distance

Priansya, Stezar (2017) Normalisasi Teks Media Sosial Menggunakan Word2vec, Levenshtein Distance, dan Jaro-Winkler Distance. Undergraduate thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5213100131-Undergraduate-Theses.pdf]
Preview
Text
5213100131-Undergraduate-Theses.pdf - Published Version

Download (4MB) | Preview

Abstract

Sebagian besar pengguna internet di Indonesia menggunakan media sosial untuk mendapatkan pembaruan informasi secara rutin. Namun, frekuensi penggunaan media sosial yang tinggi, tidak sebanding dengan ejaan kalimat tidak baku (informal) yang digunakan dalam mengisi konten media sosial dengan maksud untuk memudahkan komunikasi. Ejaan bahasa yang digunakan tidak hanya mengganggu pengguna media sosial namun juga mempengaruhi pengolahan terhadap data konten media sosial tersebut yang biasa disebut Natural Language Processing.
Penelitian sebelumnya mencoba mengajukan konsep word2vec yang terbukti mampu menemukan cara untuk melakukan representasi vektor dari sebuah kata dengan waktu yang relative cepat dan dengan dataset yang cukup besar dan juga terdapat solusi berupa pembenaran/normalisasi teks menggunakan algoritma edit distance/levenshtein dan jaro-winkler distance.
Hasil yang dari training model word2vec yang didapatkan adalah model ke-8 dengan hasil akurasi 25%. Selain itu parameter yang sangat menentukan proses training ialah learning algorithm. Untuk pengujian sampel perngoreksian data, akurasi paling baik adalah 79,56% dengan threshold sebesar 70%.
========================================================================
Most internet users in Indonesia use social media to obtain information regularly. However, high frequency of social media usage, is not comparable to non-standard (informal) sentences spelling that used in the social media content to facilitate communication nowadays. Those spelling language not only disrupts social media users but also updating process of social media content data that commonly called Natural Language Processing.
Previous research tried to propose word2vec concept which is proved able to find a way to perform vector representation of a word fairly fast with a large enough data sets. And there is also a solution like justification / normalization of the text using long distance editing algorithm/levenshtein and jaro-winkler distance editing algorithms.
The result of word2vec training model is the 8th model with 25% accuracy. In addition, the parameters that determine the training process is learning algorithm. For testing of data correction samples, the best accuracy is 79.56% with a threshold of 70%.

Item Type: Thesis (Undergraduate)
Uncontrolled Keywords: Word Embedding, Word2Vec, Levenshtein Distance, Media Sosial, Natural Language Processing
Subjects: T Technology > T Technology (General)
Z Bibliography. Library Science. Information Resources > ZA Information resources > ZA4050 Electronic information resources
Divisions: Faculty of Information Technology > Information System > 57201-(S1) Undergraduate Thesis
Depositing User: Priansya Stezar
Date Deposited: 19 Sep 2017 07:18
Last Modified: 05 Mar 2019 04:24
URI: http://repository.its.ac.id/id/eprint/42627

Actions (login required)

View Item View Item