Enstitüler / Institutes
Permanent URI for this communityhttps://hdl.handle.net/11727/1390
1 results
Search Results
Item Gen ifade verileri ile işlemsel kanser sınıflandırılması(Başkent Üniversitesi Fen Bilimleri Entitüsü, 2009) İdil, Namık Barış; Gasılov, NizamiSon yıllardaki bilgisayar teknolojilerinde elde edilen gelismeler, özellikle islemci gücünün artması, önceleri gerçeklestirilebilen sade, dogrusal modeller yerine fiziksel ve gerçek olayları daha iyi yansıtan; ama daha fazla bellek ve zaman gerektiren dogrusal olmayan modellerin kullanılmasına imkan yaratmıstır. Bu çalısma, A. Statnikov’un, mikrodizi gen ifade verileri kullanarak çok kategorili kanser sınıflandırması ile ilgili çalısması ve bu çalısmadan elde edilmis sonuçlar üzerine önerilmis olan optimizasyon çalısmalarını kapsamaktadır [1]. Mikrodizi analizi ile elde edilmis gen ifade verilerinin üzerinde, destek vektör makinesi ile analiz edilmeden önce, dogrusal ve dogrusal olmayan indirgeme yöntemleri kullanılarak, verilerin egitilme ve test sürecinin hızlandırılması amaçlanmıstır. Uygulanması amaçlanan indirgeme yöntemleri, bir dizi algoritmanın yanı sıra, bu algoritmaların probleme yönelik yeni yorumlamalarıyla yapılmıs, daha sonra bu yöntemler karmasıklık, kaynak kullanımı ve indirgeme performansı göz önünde bulundurularak test edilmistir. Böylece, egitim ve test islemlerinin performans ve basarı oranlarını kabul edilebilir düzeyin üstünde tutmak kosuluyla, veri kümelerindeki nitelik sayısını küçülterek, islem hızının arttırılması amaçlanmıstır. Yapılan testlerin sonucunda, gen ifade verilerinin bulundugu veri kümesi üzerinden yapılan Bagımsız Bilesen Analizi (BBA), Çekirdek Temel Bilesen Analizi (ÇTBA), z Düsümü Takip Analizi ( DTA) indirgeme algoritmaları üzerine olusturulmus programların, veri kümesindeki nitelik sayısının asırı yüksek olmasından dolayı kilitlendigi ya da hafıza yetersizliginden dolayı olagandısı sonlandırıldıgı tespit edilmistir. Diger algoritmalar olan Temel Bilesen Analizi (TBA), Dogrusal Olmayan Temel Bilesen Analizi (DOTBA), Kendi Düzenlenen Haritalar (KOH), Dogrusal Diskriminant Analizi (DDA) ve Korelasyon Analizi (KA) ile yapılan nitelik indirgemeleri sonucu, karar destek vektör makinesinin egitim sürelerinin degisken olarak azaldıgı görülmüstür. Buna dayanarak, çalısmada kullanılan veri kümesinin içerdigi niteliklerin büyük bir kısmının, veri kümesinin destek vektör makinesindeki egitim ve test performansına çok az etkisi oldugu, ayırt edici özellikler tasımadıgı veya bazı niteliklerin bir araya gelerek, tüm kümeyi temsil edebilen bir alt grup olusturabildigini, bu yüzden etkisiz niteliklerin ya da nitelik alt gruplarının indirgeme algoritmaları kullanılarak orijinal veri kümesinden çıkarılmasının, maliyet ve süre açısından yararlı olacagı anlasılmıstır. Recent improvements in computer technologies, especially significant increase in processing power of central processing units, leads to usage of non – linear models which represents physical and abstract problems better but require more memory and time, instead of simple, linear models. This study focuses on A. Statnikov’s article about multicategory cancer classification using of microarray gene expression data and optimization suggestions [1]. Before the training of support vector machines with the gene expression data which is gathered by microarray analysis, it is intented to accelerate the training and test speed process with both linear and non – linear reduction methods. Reduction methods which are intented to be used are both implemented by using some algorithms and new interpretation of these algorithms. After that, these methods are tested according to their complexity, resource allocation and reduction performance. Therefore, by keeping the performance and success ratios of training and testing process above an acceptable treshold, it is intented to reduce the feature size in data sets as it will also increase the overall speed of the process. The results of the test show that, Independent Component Analysis (ICA), Kernel Principle Component Analysis (KPCA), Projection Pursuit Analysis (PPA) reduction algorithms used on data set failed to give any results due to excessive amount of features in data set by either locking down or terminating itself. With the usage of other algorithms which are Principle Component Analysis (PCA), Non – Linear Principle Component Analysis (NLPCA), Self Organizing Maps (SOM), Linear Discriminant Analysis (LDA) and Correlation Analysis (CA), it is observed that the training and testing process times of the support vector machine is reduced variably. Taking this into consideration, most of the the features of the data set which is used in this study do not have any differentiative property and therefore have low - level of effect on the training and testing of the support vector machine. On the other hand, some features may become high – level effective when combined together and form a sub group feature sets. So, by eliminating low – level effective features and revealing high – effective sub group features by feature selection and feature reduction, a significant improvement in both cost and time consume can be established.