Detection of phishing web pages by combining semantical and visual information


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Hacettepe Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2024

Tezin Dili: İngilizce

Öğrenci: AHMAD HANI ABDALLA ALMAKHAMREH

Danışman: Ahmet Selman Bozkır

Özet:

Siber suçların artan sıklığı ve karmaşıklığı bireyler ve kurumlar için güvenlik zaafiyetleri ile birlikte ciddi maddi kayıplarla sonuçlanmakta ve bunun sonucunda gürbüz ve sürdürülebilir çözümlere olan talebi artırmıştır. Alanda sayısız kimlik avı önleme çözümü olmasına rağmen, saldırganlar bu sistemleri istismar etmekte ve sıfırıncı gün saldırılarıyla bunları atlatmaktadır. Bu tez çalışmasında, kimlik avcısı ve meşru web sayfaları arasında makine öğrenimine dayalı sınıflandırma yapmak için anlamsal ve görsel özellikleri kullanan CrossPhire isimli yeni bir uçtan uca derin öğrenme modeli önerilmiştir. CrossPhire, web sayfalarından elde edilen URL, kaynak kod ve ekran görüntüleri olmak üzere üç farklı ortamdan ayırt edici özellikler çıkarmakta ve bütünleşik bir öğrenme yöntemiyle eğitilmektedir. Bu çalışmada maddeler halinde şu katkılar sunulmuştur: (1) Sayfanın URL ve temel metinsel içeriği ile web sayfası şipşakından anlamsal ve görsel özellikleri yakalayan uçtan uca derin öğrenme modeli, (2) üçüncü taraf hizmetlerden izole olarak, güncel "cümle dönüştürücüler" ve evrişimsel sinir ağları yardımıyla dilden bağımsız bir analiz yöntemi, (3) Phish360 adı verilmiş olan meşru ve oltalayıcı sayfaların yer aldığı gerçek dünya örneklerinin derlendiği, çeşitliliği yüksek yeni bir çok ortamlı veri kümesi, (4) Phish360 ve literatürde yer alan diğer veri kümelerinin veri analizine dayalı istatistiksel raporları, veri analiz raporları ve (5) önerilen modelin genelleme başarımını ölçmek adına beş farklı veri kümesiyle iç-veri ve çapraz-veri doğrulamasına dayalı kapsamlı deneyler.


En iyi modelin bulunması adına farklı (a) HTML ayrıştırıcılar (BeautifulSoup ve Trafilatura), (b) cümle dönüştürücüleri (Sentence-BERT ve çok dilli XLM-R) ve (c) imge sınıflayıcı evrişşimsel modeller (ResNet50 ve DenseNet121) arasındaki kombinasyonlar kapsamlı deneylerle ölçümlenmiştir. Yapılan deneylerde \textit{CrossPhire}, Phish360 veri kümesinde 99,21\% doğruluk sunarken ve diğer dört kıyaslama veri kümesinde ortalama 99,26% doğruluk başarımı elde edilmiştir. Ek olarak, iki gizli katmanlı MLP'yi entegre ederek mevcut kıyaslama veri kümelerini kullanarak CLIP modelinde ince ayar yaptık. Yaklaşımımız, CLIP'e kıyasla üstün sonuçlar ortaya koydu ve kullanılan tüm veri kümelerinde sürekli olarak CLIP'ten daha iyi performans göstermiştir. Sonuç olarak CrossPhire'ın, kullanılan tüm veri kümelerinde farklı ölçeklerin tamamında en yüksek sonuçları yakaladığı saptanmıştır.