Enstitüler / Institutes
Permanent URI for this communityhttps://hdl.handle.net/11727/1390
Browse
1 results
Search Results
Item Türkçe magazin haberlerinde adlandırılmış varlık tanıma(Başkent Üniversitesi Fen Bilimleri Enstitüsü, 2025) Adak, MerveBu tez çalışması, Türkçe magazin haberlerinde adlandırılmış varlık tanıma üzerine odaklanmaktadır. Amaç, Türkçenin eklemeli yapısı ve magazin dilinin bağlama dayalı özellikleri karşısında derin öğrenme tabanlı modellerin performansını değerlendirmektir. Bu kapsamda, kişi, tarih, organizasyon, konum ve ilişki gibi on bir varlık türünü içeren, manuel olarak etiketlenmiş alana özgü bir veri kümesi oluşturulmuştur. Etiketleme BIO ve non-BIO formatlarında yapılmış, veriler eğitim ve test kümelerine ayrılmıştır. Üçü Türkçeye özgü, ikisi çok dilli olmak üzere beş farklı dönüştürücü tabanlı model eğitilmiş ve doğruluk, kesinlik, duyarlılık, F1 skoru gibi metriklerin yanı sıra karışıklık matrisi ve t-SNE görselleştirmeleri ile analiz edilmiştir. Karşılaştırmalar, her iki etiketleme sisteminde de en yüksek başarının mBERT modeli ile elde edildiğini ortaya koymuştur. Çok kelimeli varlıkların tespitinde, kullanılan etiketleme formatı ile modelin yapısal özelliklerinin uyumu belirleyici olmuştur. Ayrıca modellerin karar süreçlerini yorumlayabilmek için LIME tabanlı açıklanabilirlik analizi de gerçekleştirilmiştir. Sonuçlar, derin öğrenme yöntemlerinin Türkçe magazin haberlerinde etkili bir şekilde uygulanabileceğini ve doğru model ile etiketleme formatı uyumu sağlandığında yüksek doğruluk elde edilebileceğini göstermektedir. This thesis focuses on named entity recognition in Turkish celebrity news. The aim is to evaluate the performance of deep learning-based models against the agglutinative structure of Turkish and the context-dependent nature of magazine language. For this purpose, a domain-specific dataset containing eleven entity types, including person, date, organization, location, and relationship, was manually annotated. Labeling was performed in both BIO and non-BIO formats, and the data was divided into training and test sets. Five transformer-based models, three designed specifically for Turkish and two multilinguals, were trained and analyzed using metrics such as accuracy, precision, recall, and F1 score, as well as confusion matrices and t-SNE visualizations. Comparisons revealed that the highest performance in both labeling systems was achieved by the mBERT model. In the identification of multi-word entities, the compatibility between the chosen labeling format and the structural features of the model proved to be a determining factor. In addition, LIME based explainability analysis was conducted to interpret the decision-making processes of the models. The results demonstrate that deep learning methods can be effectively applied to Turkish celebrity news and that high accuracy can be achieved when the appropriate model and labeling format alignment are ensured.