Enstitüler / Institutes
Permanent URI for this communityhttps://hdl.handle.net/11727/1390
Browse
3 results
Search Results
Item Türkçe E-Ticaret ürün yorumlarının sınıflandırılması(Başkent Üniversitesi Fen Bilimler Enstitüsü, 2023) Toprak, Burcu Melis; Güney, SeldaGünümüzde e-ticaret ürün incelemeleri, çevrim içi alışverişte oldukça önemli bir rol oynamaktadır. Teknolojinin hayatımızdaki önemi ve çevrim içi alışverişe olan yoğun ilgi nedeniyle ürün yorumları ürünü satın alma aşamasında oldukça önemlidir. Ürüne verilen puanlar ve yazılan yorumlar arasında zaman zaman uyumsuzluk yaşanmaktadır. Bu nedenle yazılan yorumların metin sınıflandırma kullanılarak gruplandırılması ile ürün hakkında daha objektif değerlendirilme sağlanacağı düşünülmektedir. Metin sınıflandırmada oldukça kullanışlı ve etkili olan denetimli ve denetimsiz makine öğrenimi algoritmalarının yanı sıra derin öğrenme algoritmaları da oldukça popülerdir ve başarı oranları yüksektir. Bu tez çalışmasının amacı, Türkçe metin sınıflandırması için farklı makine öğrenmesi yöntemlerinin başarılarını incelemektir. Kullanılan veri setinde, çevrim içi alışveriş sitelerinde bir ürün altına yapılan yorumlar toplanmış ve yorumların olumlu, olumsuz ya da nötr olmasına göre sınıf etiketleri verilerek veri seti oluşturulmuştur. Toplam 15170 yorumun yer aldığı veri setinde 6799 olumlu, 6978 olumsuz ve 1393 tarafsız yorum bulunmaktadır. Sınıflandırma aşamasında, bu tez çalışmasında sınıflandırıcı olarak Evrişimsel Sinir Ağı (ESA) önerilmiştir. Ayrıca önerilen yöntem, Karar Ağaçları, Lineer Diskriminant Analiz, Uzun Kısa Süreli Bellek, İkinci Dereceden Diskriminant Analiz, Çift Yönlü Uzun Kısa Süreli Bellek, Verimli Lineer Destek Vektör Makineleri, Geçitli Tekrarlayan Birim, Verimli Logistik Regresyon, Naif Bayes, K-En Yakın Komşu, Birleşik Modeller, Yapay Sinir Ağları, Kernel ve Destek Vektör Makineleri ile karşılaştırılmıştır. En yüksek başarı Evrişimsel Sinir Ağları kullanıldığında %90,77 doğruluk ile elde edilmiştir.Nowadays, e-commerce product reviews play a very important role in online shopping. With the importance of technology in our lives and the intense interest in online shopping, the classification of these comments with text classification quite important. In addition to supervised and unsupervised machine learning algorithms, which are very useful and effective in text classification, deep learning algorithms are also very popular and have high success rates. The aim of the study is to provide a brief overview of machine learning methods for text classification. In the data set used, the comments under a product on online shopping sites were collected and a dataset was created by giving class labels according to whether the comments were positive, negative or neutral. There are 6799 positive, 6978 negative and 1393 neutral comments in the data set, which includes a total of 15170 comments. In the classification phase, Convolutional Neural Network (CNN) is proposed as a classifier. Also the proposed method is compared with Decision Trees, Linear Discriminant Analysis, Long Short Term Memory, Quadric Discriminant Analysis, Bidirectional Long Short Term Memory, Efficient Linear Support Vector Machines, Gated Recurrent Unit, Efficient Logistic Regression, Naive Bayes, K-Nearest Neighbor , Ensemble Models, Artificial Neural Networks, Kernel and Support Vector Machines. The highest success was obtained with 90.77% accuracy when using Convolutional Neural Networks.Item Alerjen proteinlerin otomatik sınıflandırılması(Başkent Üniversitesi Fen Bilimleri Enstitüsü, 2008) Eren, Öykü; Oğul, HasanAlerjen proteinlerin tanınması ve sınıflandırılması, özellikle son yıllarda sıkça kullanılan genetik değisikliğe uğramıs gıdaların denetlenmesi ve biyo-ilaçların tasarımı açısından büyük önem kazanmıstır. Dünya Sağlık Örgütü ve Gıda ve Tarım Örgütü kurumları bu amaçla alerjen proteinlerin tespiti için bazı rehberler hazırlamıstır. Ancak, bu rehberlerde önerilen yöntemler çoğunlukla yarı-otomatik gerçeklestirilen ve tahmin yeterliliği düsük olan yöntemlerdir. Son birkaç yılda bazı otomatik yöntemler önerilse de bunlar ya istenilen yeterlilik seviyesine ulasamamıs ya da islem zamanı ve bellek gereksinimi açısından avantajsız olmuslardır. Bu çalısmada, alerjen proteinlerin sadece dizilim verisi kullanılarak, farklı makine öğrenme yöntemleri bilinen bazı dizilim gösterim yaklasımları ile denenmistir. Farklı dizilim gösterim yöntemleri için K-En Yakın Komsu, Bulanık K-En Yakın Komsu ve Destek Vektör Makineleri (DVM) kullanılmıs ve sonuçlar karsılastırmalı olarak verilmistir. The prediction and classification of the allergen proteins have received great importance on the inspection of genetically modified food, which are used especially in the recent years, and the design of bio-pharmaceuticals. World Health Organization (WHO) and Food and Agriculture Organization (FAO) prepared guidelines for the prediction of allergen proteins. However, the methods proposed in these guidelines are mostly semi-automatic and have low prediction accuracy. Although some automated methods have been proposed in the last few years, either they could not reach the required sufficiency level or they were insufficient as for the processing time and memory usage. In this study, various machine learning methods were tried with some known sequence representation approaches by using only the sequence data of the allergen proteins. For various sequence representation approaches, K-Nearest Neighbour, Fuzzy K-Nearest Neighbour and Support Vector Machines (SVM) were used and the results were given with comparison.Item Protein homoloji tespitinde bir üst sınıflandırma yaklaşımı(Başkent Üniversitesi Fen Bilimleri Enstitüsü, 2007) Polatkan, Aydın Can; Sever, HayriHesaplamalı biyoloji alanında sınıflandırma problemleri için makine öğrenme teknikleri sıkça ve geniş şekilde kullanılmaktadır. Bu teknikler, girdi olarak sabit uzunluklu nitelik vektörleri istemektedir. Bilindiği üzere proteinler farklı uzunluklara sahip olduklarından dolayı, tüm protein dizilimlerini sabit sayıda nitelik ile göstermek gerekir. Bu amaçla geliştirilen etkili yöntemlerden biri protein dizilimlerinin n-peptit birleşimleridir. Yöntem n uzunluktaki her alt dizginin dizilim içerisindeki görülme yüzdesini ifade eder. Alan karmaşıklığını azaltmak amacıyla, n’nin artan değerleri için, kullanılan aminoasit alfabesi, sonuç vektörün günümüz bellek kaynaklarıyla uyumlu olmasını sağlayacak şekilde düzenli olarak küçültülmüştür. Kullanılan bu çözümde birleşime ait bütün özellik girdileri sadece bir sınıflandırıcıya toplu olarak verilmekteydi. Bu tezde, bu özellik girdileri n-peptit birleşimlere ve küçültülen amino asit alfabelerine göre farklı gruplara ayrılıp, farklı sınıflandırıcılara verilmiştir böylece soyutlanarak daraltılan arama uzayında, gezinen birden fazla tekniğe, bir üst sınıflandırma yaklaşımı denenmiştir. Amaç doğru şekilde yakınsanan ve bizi birbirinden farklı çözüm bölgelerine ulaştıran tekniklere üstsel sınıflandırma yaklaşımı ile daha iyi sonuçlar alabilmektir. Bu yaklaşımda farklı sınıflandırıcıların çıktı değerlerini değerlendirmek üzere ortalama alma, ağırlıklı ortalama alma ve öğrenme kümesinde en başarılı olanı seçme gibi değişik durumlar karşılaştırılmıştır. Her bir yöntem hesaplamalı biyolojinin önemli ve güncel problemlerinden biri olan uzak homoloji tespiti üzerinde test edilmiş ve sonuçlar karşılaştırmalı olarak sunulmuştur. Sonuçlara bakıldığında eğitim kümesinde en başarılı olan sınıflandırıcının sonucunun doğru kabul edildiği durumun diğerlerine göre daha etkili olduğu gözlenmiştir. Sonuçlar arasındaki istatistiksel anlamlılığı dikkatlice incelemek için tüm yöntemler arasında öğrenci T-testleri yapılmış ve testlerin sonuçları yorumlanmıştır. Denenen bütün üst sınıflandırma yaklaşımları yalnız bir sınıflandırıcı kullanılan duruma göre daha etkili bellek kullanımına sahiptir. Destek vektör makineleriyle test edilen bu üst sınıflandırma yaklaşımının sadece uzak homoloji tespitinde değil diğer sınıflandırma problemlerinde de başarılı olacağı düşünülmektedir.