Enstitüler / Institutes

Permanent URI for this communityhttps://hdl.handle.net/11727/1390

Browse

Search Results

Now showing 1 - 2 of 2
  • Thumbnail Image
    Item
    Alerjen proteinlerin otomatik sınıflandırılması
    (Başkent Üniversitesi Fen Bilimleri Enstitüsü, 2008) Eren, Öykü; Oğul, Hasan
    Alerjen proteinlerin tanınması ve sınıflandırılması, özellikle son yıllarda sıkça kullanılan genetik değisikliğe uğramıs gıdaların denetlenmesi ve biyo-ilaçların tasarımı açısından büyük önem kazanmıstır. Dünya Sağlık Örgütü ve Gıda ve Tarım Örgütü kurumları bu amaçla alerjen proteinlerin tespiti için bazı rehberler hazırlamıstır. Ancak, bu rehberlerde önerilen yöntemler çoğunlukla yarı-otomatik gerçeklestirilen ve tahmin yeterliliği düsük olan yöntemlerdir. Son birkaç yılda bazı otomatik yöntemler önerilse de bunlar ya istenilen yeterlilik seviyesine ulasamamıs ya da islem zamanı ve bellek gereksinimi açısından avantajsız olmuslardır. Bu çalısmada, alerjen proteinlerin sadece dizilim verisi kullanılarak, farklı makine öğrenme yöntemleri bilinen bazı dizilim gösterim yaklasımları ile denenmistir. Farklı dizilim gösterim yöntemleri için K-En Yakın Komsu, Bulanık K-En Yakın Komsu ve Destek Vektör Makineleri (DVM) kullanılmıs ve sonuçlar karsılastırmalı olarak verilmistir. The prediction and classification of the allergen proteins have received great importance on the inspection of genetically modified food, which are used especially in the recent years, and the design of bio-pharmaceuticals. World Health Organization (WHO) and Food and Agriculture Organization (FAO) prepared guidelines for the prediction of allergen proteins. However, the methods proposed in these guidelines are mostly semi-automatic and have low prediction accuracy. Although some automated methods have been proposed in the last few years, either they could not reach the required sufficiency level or they were insufficient as for the processing time and memory usage. In this study, various machine learning methods were tried with some known sequence representation approaches by using only the sequence data of the allergen proteins. For various sequence representation approaches, K-Nearest Neighbour, Fuzzy K-Nearest Neighbour and Support Vector Machines (SVM) were used and the results were given with comparison.
  • Thumbnail Image
    Item
    Protein homoloji tespitinde bir üst sınıflandırma yaklaşımı
    (Başkent Üniversitesi Fen Bilimleri Enstitüsü, 2007) Polatkan, Aydın Can; Sever, Hayri
    Hesaplamalı biyoloji alanında sınıflandırma problemleri için makine öğrenme teknikleri sıkça ve geniş şekilde kullanılmaktadır. Bu teknikler, girdi olarak sabit uzunluklu nitelik vektörleri istemektedir. Bilindiği üzere proteinler farklı uzunluklara sahip olduklarından dolayı, tüm protein dizilimlerini sabit sayıda nitelik ile göstermek gerekir. Bu amaçla geliştirilen etkili yöntemlerden biri protein dizilimlerinin n-peptit birleşimleridir. Yöntem n uzunluktaki her alt dizginin dizilim içerisindeki görülme yüzdesini ifade eder. Alan karmaşıklığını azaltmak amacıyla, n’nin artan değerleri için, kullanılan aminoasit alfabesi, sonuç vektörün günümüz bellek kaynaklarıyla uyumlu olmasını sağlayacak şekilde düzenli olarak küçültülmüştür. Kullanılan bu çözümde birleşime ait bütün özellik girdileri sadece bir sınıflandırıcıya toplu olarak verilmekteydi. Bu tezde, bu özellik girdileri n-peptit birleşimlere ve küçültülen amino asit alfabelerine göre farklı gruplara ayrılıp, farklı sınıflandırıcılara verilmiştir böylece soyutlanarak daraltılan arama uzayında, gezinen birden fazla tekniğe, bir üst sınıflandırma yaklaşımı denenmiştir. Amaç doğru şekilde yakınsanan ve bizi birbirinden farklı çözüm bölgelerine ulaştıran tekniklere üstsel sınıflandırma yaklaşımı ile daha iyi sonuçlar alabilmektir. Bu yaklaşımda farklı sınıflandırıcıların çıktı değerlerini değerlendirmek üzere ortalama alma, ağırlıklı ortalama alma ve öğrenme kümesinde en başarılı olanı seçme gibi değişik durumlar karşılaştırılmıştır. Her bir yöntem hesaplamalı biyolojinin önemli ve güncel problemlerinden biri olan uzak homoloji tespiti üzerinde test edilmiş ve sonuçlar karşılaştırmalı olarak sunulmuştur. Sonuçlara bakıldığında eğitim kümesinde en başarılı olan sınıflandırıcının sonucunun doğru kabul edildiği durumun diğerlerine göre daha etkili olduğu gözlenmiştir. Sonuçlar arasındaki istatistiksel anlamlılığı dikkatlice incelemek için tüm yöntemler arasında öğrenci T-testleri yapılmış ve testlerin sonuçları yorumlanmıştır. Denenen bütün üst sınıflandırma yaklaşımları yalnız bir sınıflandırıcı kullanılan duruma göre daha etkili bellek kullanımına sahiptir. Destek vektör makineleriyle test edilen bu üst sınıflandırma yaklaşımının sadece uzak homoloji tespitinde değil diğer sınıflandırma problemlerinde de başarılı olacağı düşünülmektedir.