Makine öğrenimi kullanarak tweet popülerite tespiti için karşılaştırmalı bir çalışma
No Thumbnail Available
Files
Date
2023
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Başkent Üniversitesi Fen Bilimler Enstitüsü
Abstract
İnternet medyası günümüzde oldukça popüler durumdadır. Yazılı basın, her ne kadar
popülerliğini tam olarak yitirmemiş olsa da, alternatif yollardan haber alabilmek ve pek çok
farklı mecra üzerinden haber takip etmek internet kullanıcıları tarafından yapılabilmekte, bu
durum da internet medyasının popülerliğini arttırmaktadır. İnternet medyasının önemli bir
bacağını sosyal medya paylaşımları oluşturmaktadır. Bu sayede haberciler, büyük çoğunlukta
okuyucuya erişim sağlayabilmektedir. Okuyucular ise sosyal medya üzerinden teyitli, medya
kullanıcıları yardımıyla doğru habere erişim sağlayabilmektedirler. Tüm bu değişimler
esnasında, internet medyası yöneticileri ve yazarları tarafından haberlerin ya da makalelerin
kullanıcılara erişiminin sağlanması ve gördükleri ilgi oldukça önem arz etmektedir.
Bu tez çalışmasında, teyitli haber organlarının Twitter üzerinden gerçekleştirdiği paylaşımların
popülerliklerinin çeşitli makine öğrenme teknikleri yardımıyla tahmin çalışması yapılmış ve
kullanılan yöntemlerden elde edilen sonuçlar karşılaştırılmıştır. Destek Vektör Makineleri,
Lojistik Regresyon, Naive Bayes Sınıflandırıcı, K En Yakın Komşu Algoritması, Rastgele
Orman ve Derin Pekiştirmeli Öğrenme (İkili Derin Q-Öğrenme) yöntemleri kullanılarak
deneyler gerçekleştirilmiştir.
Tez çalışmasında kullanılan yöntemlerden en iyi sonuçlar K En Yakın Komşu, Rastgele Orman
ve derin pekiştirmeli öğrenme algoritması ile elde edilmiştir. Bu yöntemle elde edilmiş olan
F1-skor 0.87 şeklindedir. En kötü F1-skor sonucuna ise Naive Bayes sınıflandırıcı ile
ulaşılmıştır. Naive Bayes sınıflandırıcı 0.63 sonuç vermiştir. Radial Basis çekirdek fonksiyonu
ile SVC için 0.88, Lineer SVC için 0.84, lojistik regresyon içinse 0.83 F1-skor sonucu elde
edilmiştir.
Internet media is very popular nowadays. Although printed media has not completely lost its
popularity, it is possible for internet users to get news from alternative ways and to follow news
through many different channels, which increases the popularity of internet media. An
important issue of internet media is social media sharing. In this way, journalists can access
most readers. Readers, on the other hand, can access the right news with the help of confirmed
media users via social media. During all these changes, it is very important to ensure that news
or articles are accessible to users and the interest they receive by internet media managers and
writers.
In this thesis, a comparison of the popularity of the shares made by the confirmed news organs
on Twitter was made with the help of various machine learning techniques. Experiments were
carried out using Support Vector Machines, Logistic Regression, Naive Bayes classifier, K
Nearest Neighbor Algorithm, Random Forest and Deep Reinforcement Learning (Double Deep
Q-Learning) methods.
The best results from the methods used in the thesis study were obtained with K Nearest
Neighbor, Random Forest and Deep Reinforcement Learning algorithms. The F1-score
obtained with this method is 0.87. The worst F1-score result was obtained with the Naive Bayes
classifier. Naive Bayes classifier gave 0.63 results. An F1-score of 0.84 for linear SVC, 0.88
for radial basis kernel function SVC and 0.83 for logistic regression was obtained.
Internet media is very popular nowadays. Although printed media has not completely lost its
popularity, it is possible for internet users to get news from alternative ways and to follow news
through many different channels, which increases the popularity of internet media. An
important issue of internet media is social media sharing. In this way, journalists can access
most readers. Readers, on the other hand, can access the right news with the help of confirmed
media users via social media. During all these changes, it is very important to ensure that news
or articles are accessible to users and the interest they receive by internet media managers and
writers.
In this thesis, a comparison of the popularity of the shares made by the confirmed news organs
on Twitter was made with the help of various machine learning techniques. Experiments were
carried out using Support Vector Machines, Logistic Regression, Naive Bayes classifier, K
Nearest Neighbor Algorithm, Random Forest and Deep Reinforcement Learning (Double Deep
Q-Learning) methods.
The best results from the methods used in the thesis study were obtained with K Nearest
Neighbor, Random Forest and Deep Reinforcement Learning algorithms. The F1-score
obtained with this method is 0.87. The worst F1-score result was obtained with the Naive Bayes
classifier. Naive Bayes classifier gave 0.63 results. An F1-score of 0.84 for linear SVC, 0.88
for radial basis kernel function SVC and 0.83 for logistic regression was obtained.
Description
Keywords
Popülerlik tahmini, destek vektör makineleri, lojistik regresyon, Naive Bayes Sınıflandırıcı, K En Yakın Komşu Algoritması, Rastgele Orman, Derin Pekiştirmeli Öğrenme