Perbandingan Metode K-Means Dan Fuzzy C-Means Untuk Pengelompokan Tweet Yang Ditujukan Kepada PT. Kereta Api Indonesia (@KAI121) Dengan Menggunakan N-Gram

Rahmaniar, Farizah Rizka (2019) Perbandingan Metode K-Means Dan Fuzzy C-Means Untuk Pengelompokan Tweet Yang Ditujukan Kepada PT. Kereta Api Indonesia (@KAI121) Dengan Menggunakan N-Gram. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 06211540000111-Undergraduate_Theses.pdf]
Preview
Text
06211540000111-Undergraduate_Theses.pdf

Download (1MB) | Preview

Abstract

Banyaknya penumpang yang menggunakan jasa transportasi ke-reta api membuat PT. Kereta Api Indonesia harus dapat membuat kebija-kan agar dapat meningkatkan kualitas pelayanannya. Salah satu cara agar dapat membuat kebijakan yang baik adalah dengan menggunakan teknologi informasi yang cepat seperti Twitter. Untuk memudahkan peru-sahaan agar dapat menyimpulkan suatu informasi yang bergerak dengan cepat dapat menggunakan pengelompokan tweet. Sebelum data yang di-peroleh dari Twitter API tersebut diolah, maka perlu dilakukan text pre-processing seperti cleansing, case folding, stemming, normalisasi kata, stopwords removal, dan tokenizing. Selanjutnya, data akan diboboti de-ngan menggunakan TF-IDF. Pada penelitian ini dilakukan perbandingan metode clustering K-means dan Fuzzy C-means dengan menggunakan N-gram atau tanpa menggunakan N-gram. Clustering menggunanakan K-means dengan trigram merupakan metode terbaik untuk mengelompok-kan tweet yang ditujukan kepada PT. Kereta Api Indonesia (@KAI121) karena menghasilkan nilai Calinski-Harabasz Index (CHI) yang tinggi dibandingkan metode lainnya. Hasil clustering memperoleh tiga kategori tweet yaitu tiket go-show, tiket lokal, dan tiket prameks.
=======================================================================The large number of passengers used train public transportation services makes PT. Kereta Api Indonesia must be able to create policy for improve the services quality. Now there are social media like Twitter that present various information as the basic information to create policy. In order to conclude information that moves quickly, crawling and grouping tweets will make it easier for companies. Before processed the data that obtained from Twitter API, it is necessary to do text preprocessing such as cleansing, case folding, stemming, word normalization, stopwords removal, and tokenizing. Furthermore, the data will be weighted using TF-IDF. In this reasearch clustering method using K-means and Fuzzy C-means was compared using N-gram or without using N-gram. Clustering using K-means method with trigram is the best method for grouping tweets mentioned to PT. Kereta Api Indonesia (@KAI121) because has a high value of the Calinski-Harabasz Index (CHI) compared to other methods. The clustering results obtained three categories of tweets. First category is go-show tickets, then local tickets, and prameks tickets.

Item Type: Thesis (Other)
Uncontrolled Keywords: CHI, Clustering, Fuzzy C-means, K-means, N-gram, PT. Kereta Api Indonesia, Twitter
Subjects: H Social Sciences > HA Statistics
H Social Sciences > HA Statistics > HA29 Theory and method of social science statistics
H Social Sciences > HE Transportation and Communications > HE1976 Tickets
H Social Sciences > HE Transportation and Communications > HE311.I4 Urban transportation
Divisions: Faculty of Mathematics, Computation, and Data Science > Statistics > 49201-(S1) Undergraduate Thesis
Depositing User: Farizah Rizka Rahmaniar
Date Deposited: 21 Mar 2023 07:55
Last Modified: 21 Mar 2023 07:55
URI: http://repository.its.ac.id/id/eprint/63740

Actions (login required)

View Item View Item