Fen Bilimleri Enstitüsü / Science Institute
Permanent URI for this collectionhttps://hdl.handle.net/11727/1392
Browse
4 results
Search Results
Item The Turkish lip reading using deep learning method(Başkent Üniversitesi Fen Bilimleri Enstitüsü, 2023) Berkol, AliAutomated lip reading is a research problem that has developed considerably in recent years. Lip reading is evaluated both visually and audibly in some cases. Detecting an unwanted word from a security camera is an example of a visual lip-reading problem. Audio-visual datasets are not applicable where such image-only data is involved. Therefore, we may not have audio input in all cases. In certain cases, it is not feasible to obtain the audio input of the spoken word. In this study, we have gathered a novel Turkish dataset consisting solely of images. The dataset was generated using YouTube videos, which constitute an uncontrolled environment. Consequently, the images present challenging parameters with respect to environmental factors such as lighting conditions, angles, colors, and individual facial characteristics. Despite the variations in facial attributes like mustaches, beards, and makeup, the visual speech recognition problem was addressed using Convolutional Neural Networks (CNN) without making any modifications to the data. The problem was formulated with 10 classes, comprising single words and two-word phrases. While developing the study, comparisons were made with LSTM, BGRU, and Dilated CNN. The proposed study using only-visual data obtained a model which is automated visual speech recognition with a deep learning approach. In addition, since this study uses only-visual data, the computational cost and resource usage is less than in multi-modal studies. Also, we introduce introduced a novel approach called Concatenated Frame Images, which involved combining image frames into a single large frame. It is also the first known study to address the lip reading problem with a deep learning algorithm using a new dataset belonging to the Ural-Altaic languages. Otomatik dudak okuma, son yıllarda önemli ölçüde gelişen bir araştırma problemidir. Dudak okuma bazen görsel olarak, bazen de işitsel olarak değerlendirilmektedir. Güvenlik kamerasından istenmeyen bir kelimenin tespiti, görsel dudak okuma problemine bir örnektir. İlgili birimler sadece görüntü verilerinin olduğu durumlarda işitme-görsel veri setlerinden yararlanamazlar. Bu nedenle, tüm durumlarda ses girdisine sahip olmak mümkün değildir. Telaffuz edilen kelimenin ses girişini her zaman elde etmek mümkün değildir. Bu çalışmada yalnızca görüntü kullanılarak yeni bir Türkçe veri seti toplandı. Yeni veri seti, kontrolsüz bir ortam olan Youtube videoları kullanılarak oluşturulmuştur. Bu nedenle, görüntüler ışık, açı, renk ve yüzün kişisel özellikleri gibi çevresel faktörler açısından zor parametrelere sahiptir. Bıyık, sakal ve makyaj gibi farklı yüz özelliklerine rağmen, görsel konuşma tanıma problemi, veri üzerinde herhangi bir müdahale olmadan Konvolüsyonel Sinir Ağları (CNN) kullanılarak tek kelime ve iki kelime öbeklerini içeren 100 sınıfta geliştirilmiştir. Öte yandan çalışma geliştirilirken LSTM, BGRU ve Dilated CNN ile karşılaştırmalar yapılmıştır. Yalnızca görsel veri kullanılarak yapılan önerilen çalışma, derin öğrenme yaklaşımıyla otomatik görsel konuşma tanıma modeli elde etmiştir. Ayrıca, bu çalışma yalnızca görsel veri kullandığından çoklu modalite çalışmalarına göre hesaplama maliyeti ve kaynak kullanımı daha azdır. Ayrıca, Birleşik İmajlar Yönetimiyle, görüntü çerçevelerini tek bir büyük çerçeveye birleştirme işlemine dayandırarak klasik kesik yöntemle karşılaştırma yaptık. Ayrıca, bu çalışma, Ural-Altay dillerine ait yeni bir veri seti kullanarak derin öğrenme algoritmasıyla dudak okuma problemine yönelik yapılan ilk bilinen çalışmadır.Item Hand structure detection and suitable nail type recommendation system(Başkent Üniversitesi Fen Bilimleri Enstitüsü, 2024) Yağmur, Yarımbıyık; Hamit, ErdemHands play a crucial role in human interaction and functionality, essential in activities ranging from basic tasks to complex operations. They are essential to fields like biometrics, ergonomics, healthcare, robotics, and the cosmetics industry, particularly in nail care and aesthetics. Understanding hand types can significantly enhance product development and personalization. This article proposes a novel approach for classifying hands based on their dimensions using deep learning methods to recommend nail types. Traditional methods rely on manual measurements or complex feature engineering, which are labor-intensive and prone to errors. In this study, deep learning techniques have been leveraged to automatically classify hands into distinct categories based on palm length, palm width, and middle finger length, and suggest nail types for each hand shape accordingly. A dataset of 2050 images was collected and annotated for classification. Various Convolutional Neural Network (CNN) architectures, including VGG16, LeNet-5, AlexNet, GoogLeNet, Residual Network (ResNet), Dense Convolutional Network (DenseNet), and MobileNet, were tested and compared for accuracy. VGG16 emerged as the most successful model, achieving high accuracy in classifying hands into predefined categories. Based on these classifications, the suggested model recommends two nail types for each hand type, from a total of seven different nail types. The outcome of the applied model was assessed using standard metrics, advancing hand classification techniques to offer a robust, automated solution for personalized nail recommendations. Eller, insan etkileşimi ve işlevselliğinde kritik bir rol oynar; temel görevlerden karmaşık operasyonlara kadar geniş bir yelpazede kullanılır. Biyometrik, ergonomi, sağlık, robotik ve kozmetik endüstrisi gibi alanlarda önemlidir, özellikle tırnak bakımı ve estetiği alanında. El tiplerinin anlaşılması ürün geliştirme ve kişiselleştirme açısından önemlidir. Bu makale, el boyutlarına dayalı olarak ellerin sınıflandırılmasını ve her el şekli için tırnak tipleri önerilmesini sağlayan derin öğrenme yöntemlerini önermektedir. Geleneksel yöntemler manuel ölçümlere veya karmaşık özellik mühendisliğine dayanır, bu da işgücü yoğunluğuna ve hata riskine neden olabilir. Bu çalışmada, avuç içi uzunluğu, avuç içi genişliği ve orta parmak uzunluğuna dayalı olarak ellerin otomatik olarak farklı kategorilere sınıflandırılması ve her el şekli için tırnak tipleri önerilmesi için derin öğrenme teknikleri kullanılmıştır. Sınıflandırma için 2050 görüntüden oluşan bir veri seti toplanmış ve etiketlenmiştir. VGG16, LeNet-5, AlexNet, GoogLeNet, Residual Network (ResNet), Dense Convolutional Network (DenseNet) ve MobileNet gibi çeşitli Evrişimli Sinir Ağı (CNN) mimarileri doğruluk açısından test edilmiş ve karşılaştırılmıştır. VGG16, önceden tanımlanmış kategorilere eli başarıyla sınıflandırma konusunda yüksek doğruluk elde ederek en başarılı model olarak ortaya çıkmıştır. Bu sınıflandırmalar temelinde önerilen model, her el tipi için yedi farklı tırnak tipinden ikisini önermektedir. Uygulanan modelin sonucu standart metrikler kullanılarak değerlendirilmiş ve kişiselleştirilmiş tırnak önerileri için sağlam, otomatik bir çözüm sunulmuştur.Item Automated Audio Captioning with Acoustic and Semantic Feature Representation(Başkent Üniversitesi Fen Bilimleri Enstitüsü, 2023) Ozkaya Eren, AysegulToday, audio data is increasing rapidly with the developing technology and the increasing amount of data. Therefore, there is a need for understanding and interpretation of the content of audio data by human-like systems. Generally, audio processing studies have focused on speech recognition, audio event/scene, and tagging to process audio data. Speech recognition aims to translate a spoken language into text. Audio event/scene and tagging studies make single or few-word explanations of an audio recording. Unlike the previous studies, automatic audio captioning aims to explain an environmental audio record with a natural language sentence. This thesis explores the importance of using semantic information to improve audio captioning performance after a detailed literature study on audio processing, image/video, and audio captioning. In this context, computational models have been developed using linguistic knowledge (subject-verbs), topic model, knowledge graphs, and acoustic events for audio captioning. As a methodology, the contributions of different features, word embedding methods, deep learning architectures and datasets, and the contribution of semantic information to audio captioning were examined. Within the scope of the studies, two publicly open audio captioning datasets were used. The success of the models proposed in the thesis was compared with the studies using the same datasets. The results show that the proposed methods improve AAC performance and give results comparable to the literature. Günümüzde gelişen teknoloji ve artan veri miktarı ile birlikte ses verileri de hızla artmaktadır. Bu nedenle, ses verilerinin içeriğinin insan benzeri sistemler tarafından anlaşılmasına ve yorumlanmasına ihtiyaç duyulmaktadır. Genel olarak ses işleme çalışmaları konuşma tanıma, ses olay/sahne tanıma ve ses etiketlemeye odaklanmıştır. Konuşma tanıma, konuşulan bir dili metne çevirmeyi amaçlar. Ses olay/sahne tanıma ve etiketleme sistemleri, bir ses kaydına tek veya birkaç kelimelik açıklamalar yapar. Otomatik ses başlıklandırma ise önceki çalışmalardan farklı olarak çevresel bir ses kaydını doğal bir dil cümlesi ile açıklamayı amaçlar. Bu tez, ses işleme, görüntü/video ve ses başlıklandırma üzerine ayrıntılı bir literatür çalışmasının ardından ses başlıklandırma performansını iyileştirmek için anlamsal bilgileri kullanmanın önemini araştırmaktadır. Bu bağlamda, otomatik ses başlıklandırma için dilbilimsel (özne-fiiller), konu modeli, bilgi çizgesi ve akustik olaylar kullanılarak sayısal modeller geliştirilmiştir. Metodoloji olarak, farklı özniteliklerin, kelime gömme yöntemlerinin, derin öğrenme mimarilerinin ve veri kümelerinin katkıları ve semantik bilginin ses başlıklandırmaya katkısı incelenmiştir. Çalışmalar kapsamında iki adet ses başlıklandırma veri seti kullanılmıştır. Tezde önerilen modellerin başarısı, aynı veri setlerini kullanan çalışmalarla karşılaştırılmıştır. Sonuçlar, önerilen yöntemlerin otomatik ses başlıklandırma performansını iyileştirdiğini ve literatürle karşılaştırılabilir sonuçlar verdiğini göstermektedir.Item Deep learning for biological sequences(Başkent Üniversitesi Fen Bilimleri Enstitüsü, 2019) Paker, Ahmet; Bostancı, Gazi ErkanNowadays, with the increase in biological knowledge, the use of deep learning in bioinformatics and computational biology has increased. Newly, deep learning is widely used to classify and analyze biological sequences. In recent years, deep neural network architectures such as Convolutional and Recurrent Neural Networks have been developed in order to achieve more successful results when compared to classical machine learning algorithms. In this thesis, the discussed problem is a bioinformatics problem. Therefore, it is discussed whether the given microRNA molecule binds to the mRNA molecule. MicroRNAs (miRNAs) are non-coding and small RNA molecules of ~23 base length that play an important role in gene expression cycle. After transcription, they bind to target mRNAs and cause mRNA cleavage or translation inhibition. Rapid and efficient determination of the binding sites of miRNAs is a major problem in molecular biology. In this thesis study, Long Short Term Memory (LSTM) network which is based on deep learning, has been developed with the help of an existing duplex sequence model. The study provides a comparative approach based on different data sets and configurations. In addition, a web tool has been developed to effectively and quickly identify human microRNA target sites and provide a visual interface to the end-user. Compared to the six classical machine learning methods, the proposed LSTM model gives better results in terms of some evaluation criteria. Günümüzde, biyolojik bilgideki artışla birlikte, biyoenformatik ve hesaplamalı biyolojide derin öğrenme kullanımı artmıştır. Derin öğrenme biyolojik dizileri sınıflandırmak ve analiz etmek için yaygın olarak kullanılmaktadır. Son yıllarda klasik makine öğrenme algoritmalarına kıyasla daha başarılı sonuçlar elde etmek için Konvolüsyonel ve Tekrarlayan Sinir Ağları gibi derin sinir ağ mimarileri geliştirilmiştir. Bu tezde tartışılan problem bir biyoenformatik problemidir. Bu sebeple, verilen mikro RNA molekülünün mRNA molekülüne bağlanıp bağlanmadığı tartışılmaktadır. MikroRNA'lar (miRNA'lar) gen ekspresyonunda önemli bir rol oynayan ~ 21-23 baz uzunluğundaki kodlayıcı olmayan RNA molekülleridir. Transkripsiyondan sonra, mRNA'ları hedef alırlar ve mRNA yıkımına veya translasyon inhibisyonuna neden olurlar. miRNA'ların bağlanma bölgelerinin hızlı ve etkili bir şekilde belirlenmesi moleküler biyolojide büyük bir sorundur. Bu tezde, mevcut bir dubleks sekans modeli yardımıyla Uzun Kısa Süreli Belleğe (LSTM) dayanan derin bir öğrenme yaklaşımı geliştirilmiştir. Çalışma, farklı veri kümeleri ve yapılandırmalarına dayanan karşılaştırmalı bir yaklaşım sunmaktadır. Ek olarak, insan miRNA hedef bölgelerini etkili ve hızlı bir şekilde tanımlamak ve son kullanıcıya görsel bir arayüz sağlamak için bir web arayüzü geliştirilmiştir. Altı klasik makine öğrenme yöntemiyle karşılaştırıldığında, önerilen LSTM modeli bazı değerlendirme kriterleri açısından daha iyi sonuçlar verir.