Metin sınıflandırılmasında özetleme ve yeniden ifade etme tekniklerinin değerlendirilmesi
No Thumbnail Available
Files
Date
2025
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Başkent Üniversitesi Fen Bilimleri Enstitüsü
Abstract
Bu tez çalışmasında, haber metinleri üzerinde gerçekleştirilen özetleme, yeniden ifade etme (parafrazlama) ve semantik benzerlik ölçme yöntemlerinin performansları kapsamlı biçimde incelenmiştir. Çalışma kapsamında öncelikle metinler, ön işleme adımlarından geçirilmiş ve Bag of Words (BoW) ile temsil edilmiştir. Ardından, farklı makine öğrenmesi modelleri (Lojistik Regresyon, Destek Vektör Makineleri, Rastgele Orman ve Tek Katmanlı Yapay Sinir Ağı üzerinde katmanlı k-kat çapraz doğrulama yöntemiyle sınıflandırma deneyleri yapılmış; en yüksek başarımı gösteren model sonraki aşamalarda kullanılmıştır. Özetleme aşamasında yalnızca çıkarımsal(extractive) yöntemler tercih edilmiş; TextRank, LexRank, TF-IDF tabanlı özetleme ve kural tabanlı (rule-based) yöntemler uygulanmıştır. Yeniden ifade etme aşamasında ise iki farklı yöntem—WordNet tabanlı ve Back-Translation—kullanılmıştır. Üretilen özetler ve yeniden ifade edilen metinler hem kosinüs benzerliği hem de BERTScore ölçütleriyle değerlendirilmiştir. Analizler, ham metinler ile özetlenmiş metinlerin; ham metinler ile özetlenip yeniden ifade edilmiş metinlerin ve ham metinler ile doğrudan yeniden ifade edilmiş metinlerin karşılaştırılması esas alınarak yürütülmüştür. Bulgular, bazı yöntemlerde özetlenip yeniden ifade edilmiş metinlerin semantik benzerlik skorlarının yalnızca özetlenmiş metinlerden yüksek olabildiğini, ancak genel olarak doğrudan yeniden ifade edilen metinlerin en yüksek benzerlik değerlerine ulaştığını ortaya koymuştur. Bu çalışma, özetleme ve yeniden ifade etme yöntemlerinin birlikte kullanıldığında semantik benzerlik üzerindeki etkilerini ortaya koymakta ve metin işleme uygulamalarında yöntem seçiminde yol gösterici bulgular sunmaktadır.In this thesis, the performances of summarization, paraphrasing, and semantic similarity measurement methods applied to news articles are comprehensively examined. Initially, the texts were preprocessed and represented using the Bag of Words (BoW) model. Subsequently, classification experiments were conducted on different machine learning models (Logistic Regression, Support Vector Machines, Random Forest, and Perceptron) using the stratified k-fold cross-validation method; the model with the highest performance was employed in the subsequent stages. In the summarization stage, only extractive methods were preferred, and TextRank, LexRank, TF-IDF-based summarization, and rule-based methods were applied. In the paraphrasing stage, two different methods—WordNet-based and Back-Translation—were used. The generated summaries and paraphrased texts were evaluated using both the Cosine Similarity and BERTScore metrics. The analyses were carried out by comparing raw texts with summarized texts; raw texts with summarised and paraphrased texts; and raw texts with directly paraphrased texts. The findings revealed that, in some cases, the semantic similarity scores of summarised-and-paraphrased texts could be higher than those of solely summarized texts; however, in general, directly paraphrased texts achieved the highest similarity scores. This study demonstrates the effects of using summarization and paraphrasing methods together on semantic similarity and provides guiding insights for method selection in text processing applications.
Description
Keywords
Metin özetleme, Yeniden ifade etme, Semantik benzerlik, Makine öğrenmesi, Doğal dil işleme