Deteksi Situs Phishing Berdasarkan Kemiripan Struktur dan Konten Halaman Web

Putra, I Kadek Agus Ariesta (2023) Deteksi Situs Phishing Berdasarkan Kemiripan Struktur dan Konten Halaman Web. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05111940000105-Undergraduate_Thesis.pdf] Text
05111940000105-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2025.

Download (5MB) | Request a copy

Abstract

Phishing merupakan kejahatan yang menggabungkan teknik rekayasa sosial dan teknologi komputer untuk mencuri data identitas pribadi konsumen hingga data finansial. Skema rekayasa sosial dilakukan dengan tujuan untuk menipu korban sehingga korban meyakini bahwa korban sedang berurusan dengan pihak yang sah dan terpercaya. Hal tersebut dirancang penjahat internet untuk mengarahkan korban ke situs web palsu yang disebut dengan situs phishing. Penjahat internet mendesain halaman situs phishing untuk terlihat secara visual menyerupai dengan halaman web aslinya, sehingga relatif susah untuk orang yang masih awam berinternet menyadari situs yang dikunjunginya adalah situs palsu. Meskipun merupakan pendekatan kuno untuk meretas akun pengguna, serangan phishing masih terus bertambah jumlahnya yang menyebabkan jutaan data teretas dan kerugian finansial. Hal tersebut dapat menurunkan kepercayaan pengguna internet dalam melakukan transaksi secara daring yang sedang berkembang pesat saat ini.
Dalam Tugas Akhir ini, dilakukan perencanaan model deteksi situs phishing berdasarkan kemiripan struktur dan konten halaman web. Pengukuran kemiripan dibagi menjadi tiga bagian, yaitu berdasarkan teks, struktur HTML, dan aturan CSS. Pada fitur teks digunakan metode cosine similarity dan n-gram, sedangkan pada fitur struktur HTML menggunakan metode Longest Common Subsequence (LCS), dan pada fitur aturan CSS digunakan metode Dice coefficient. Proses pendeteksian dilakukan dengan membandingkan fitur-fitur tersebut dengan daftar situs sah dari domain yang telah diizinkan dan sampel yang telah diperoleh. Hasil pengukuran skor untuk setiap fitur kemudian dilakukan dengan pembobotan sebagai berikut: fitur teks sebesar 0,28466; fitur struktur HTML sebesar 0,35272; dan fitur aturan CSS sebesar 0,36261. Dari hasil eksperimen, fitur aturan CSS memiliki pengaruh yang paling signifikan dalam proses deteksi situs phishing, dengan rata-rata skor F1 tertinggi di antara ketiga fitur, yaitu sebesar 99,13%. Ambang batas terbaik untuk fitur aturan CSS adalah 0,9; dengan skor F1 sebesar 99,88%. Namun, hasil yang lebih baik dapat dicapai dengan mengombinasikan semua fitur, yang menghasilkan rata-rata skor F1 tertinggi sebesar 99,71%. Model deteksi yang dirancang kemudian diimplementasikan sebagai ekstensi peramban Google Chrome dengan nama Fish Detector.
=====================================================================================================================================
Phishing is a crime that combines social engineering techniques and computer technology to steal personal identity and financial data from consumers. The social engineering scheme is designed to deceive the victim into believing that the victim is dealing with a legitimate and trustworthy party. This is designed by internet criminals to redirect victims to fake websites known as phishing sites. Internet criminals design phishing site pages to visually resemble the original web pages, making it relatively difficult for inexperienced internet users to recognize that they are visiting a fake site. Despite being an old-fashioned approach to hack user accounts, phishing attacks are still increasing in number, resulting in millions of compromised data and financial losses. This can reduce the trust of internet users in conducting online transactions, which are currently growing rapidly.
This research project focuses on planning a phishing site detection model based on the similarity of web page structure and content. The measurement of similarity is divided into three parts: text-based, HTML structure-based, and CSS rule-based. The text-based feature uses cosine similarity and n-gram methods, while the HTML structure-based feature utilizes the Longest Common Subsequence (LCS) method. The CSS rule-based feature employs the Dice coefficient method. The detection process involves comparing these features with a list of legitimate sites from authorized domains and obtained samples. The measurement scores for each feature are weighted as follows: text features at 0.28466, HTML structure features at 0.35272, and CSS rule features at 0.36261. From the experimental results, the CSS rules feature has the most significant influence in the phishing website detection process, with the highest average F1 score among the three features, at 99.13%. The optimal threshold for the CSS rules feature is 0.9, with an F1 score of 99.88%. However, combining all features yields better results, with the highest average F1 score of 99.71%. The designed detection model is then implemented as a Google Chrome browser extension named Fish Detector.

Item Type: Thesis (Other)
Uncontrolled Keywords: cosine similarity, deteksi phishing, longest common subsequence, n-gram cosine similarity, longest common subsequence, n-gram, phishing detection
Subjects: T Technology > T Technology (General) > T57.5 Data Processing
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: I Kadek Agus Ariesta Putra
Date Deposited: 25 Jul 2023 13:29
Last Modified: 25 Jul 2023 13:29
URI: http://repository.its.ac.id/id/eprint/99116

Actions (login required)

View Item View Item