Basit öğe kaydını göster

dc.contributor.advisorErçelebi Ayyıldız, Tülin
dc.contributor.authorKaya, Yağmur
dc.date.accessioned2024-10-02T12:25:33Z
dc.date.available2024-10-02T12:25:33Z
dc.date.issued2023
dc.identifier.urihttp://hdl.handle.net/11727/12288
dc.description.abstractBir görüntüye ait içeriğin insan benzeri doğal bir dil kullanılarak otomatik olarak tasvir edilmesi görüntü alt yazılama olarak adlandırılmaktadır. Bilgisayarlı görü ve doğal dil işleme tekniklerinin bir arada kullanıldığı görüntü alt yazılama alanında İngilizce için tasarlanan birçok model bulunmaktadır. Ancak Türkçenin sondan eklemeli yapısından dolayı bu modellerin doğrudan Türkçeye uyarlanması mümkün değildir. Bu tez çalışmasında dilin yapısını daha iyi anlayabilmek için hecelerden faydalanılmış ve heceler üzerinde çalışan bir görüntü alt yazılama modeli önerilmiştir. Önerilen model encoder-decoder mimarisine sahip olup CNN ve LSTM birlikte kullanılmıştır. Mevcutta Türkçe dili için önerilen sözcük, alt kelime/kök tabanlı modeller ile önerdiğimiz hecelere dayalı modelin başarımını kıyaslamak için üç ayrı veri kümesi kullanılmıştır. Bunlardan ilk ikisi araştırmacıların açık erişimine sunulan Flickr8k ve Flickr30k bir diğeri ise kendi oluşturduğumuz veri kümesidir. Önerilen yaklaşımın performansı BLEU ölçüm metriği kullanılarak değerlendirilmiş her üç veri kümesinde de hecelere dayalı modelin diğer iki modele göre daha başarılı olduğu sonucuna ulaşılmıştır. Bilindiği kadarıyla, hecelere dayalı görüntü alt yazılama alanında yapılan herhangi bir çalışma bulunmamaktadır, bu sebeple sunulan çalışma bu konuda yapılan ilk çalışma olması sebebiyle önemlidir. Image captioning also known as automatic image description, refers to the process of automatically describing the content of an image by using natural language. In the field of image captioning, there are many models designed for English where computer vision and natural language processing techniques are combined. Direct adaptation of these models to Turkish is not possible due to the agglutinative structure of the Turkish language. In our study, we propose a syllable-based image captioning model to better understand the structure of the language. The proposed model follows an encoder-decoder architecture, utilizing both CNN and LSTM. Three seperate datasets were used to compare the performance of the proposed syllable-based model with word-level and baseword/subword-level models. The first and second datasets are the Flickr8k and Flickr30k dataset, which is publicly accessible for researchers, while the other one is a dataset that we created. The performance of the proposed approach was evaluated by using the BLEU metric, and we found that the syllable-based model outperformed the other two models in all datasets. To the best of our knowledge, there is no existing work on syllable-based image captioning, making our study significant as the first work.en_US
dc.language.isoturen_US
dc.publisherBaşkent Üniversitesi Fen Bilimler Enstitüsü
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectGörüntü alt yazılamaen_US
dc.subjectörüntü tanımaen_US
dc.subjectgörüntü işlemeen_US
dc.subjectdoğal dil işlemeen_US
dc.subjectkodlayıcı-kod çözücü mimarien_US
dc.subjectderin sinir ağlarıen_US
dc.titleGörüntü arşivleri için derin sinir ağları kullanılarak hecelere dayalı görüntü alt yazılama modelien_US
dc.typemasterThesisen_US


Bu öğenin dosyaları:

Thumbnail

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster