Görüntü arşivleri için derin sinir ağları kullanılarak hecelere dayalı görüntü alt yazılama modeli

Kaya, Yağmur

dc.contributor.advisor	Erçelebi Ayyıldız, Tülin
dc.contributor.author	Kaya, Yağmur
dc.date.accessioned	2024-10-02T12:25:33Z
dc.date.available	2024-10-02T12:25:33Z
dc.date.issued	2023
dc.identifier.uri	http://hdl.handle.net/11727/12288
dc.description.abstract	Bir görüntüye ait içeriğin insan benzeri doğal bir dil kullanılarak otomatik olarak tasvir edilmesi görüntü alt yazılama olarak adlandırılmaktadır. Bilgisayarlı görü ve doğal dil işleme tekniklerinin bir arada kullanıldığı görüntü alt yazılama alanında İngilizce için tasarlanan birçok model bulunmaktadır. Ancak Türkçenin sondan eklemeli yapısından dolayı bu modellerin doğrudan Türkçeye uyarlanması mümkün değildir. Bu tez çalışmasında dilin yapısını daha iyi anlayabilmek için hecelerden faydalanılmış ve heceler üzerinde çalışan bir görüntü alt yazılama modeli önerilmiştir. Önerilen model encoder-decoder mimarisine sahip olup CNN ve LSTM birlikte kullanılmıştır. Mevcutta Türkçe dili için önerilen sözcük, alt kelime/kök tabanlı modeller ile önerdiğimiz hecelere dayalı modelin başarımını kıyaslamak için üç ayrı veri kümesi kullanılmıştır. Bunlardan ilk ikisi araştırmacıların açık erişimine sunulan Flickr8k ve Flickr30k bir diğeri ise kendi oluşturduğumuz veri kümesidir. Önerilen yaklaşımın performansı BLEU ölçüm metriği kullanılarak değerlendirilmiş her üç veri kümesinde de hecelere dayalı modelin diğer iki modele göre daha başarılı olduğu sonucuna ulaşılmıştır. Bilindiği kadarıyla, hecelere dayalı görüntü alt yazılama alanında yapılan herhangi bir çalışma bulunmamaktadır, bu sebeple sunulan çalışma bu konuda yapılan ilk çalışma olması sebebiyle önemlidir. Image captioning also known as automatic image description, refers to the process of automatically describing the content of an image by using natural language. In the field of image captioning, there are many models designed for English where computer vision and natural language processing techniques are combined. Direct adaptation of these models to Turkish is not possible due to the agglutinative structure of the Turkish language. In our study, we propose a syllable-based image captioning model to better understand the structure of the language. The proposed model follows an encoder-decoder architecture, utilizing both CNN and LSTM. Three seperate datasets were used to compare the performance of the proposed syllable-based model with word-level and baseword/subword-level models. The first and second datasets are the Flickr8k and Flickr30k dataset, which is publicly accessible for researchers, while the other one is a dataset that we created. The performance of the proposed approach was evaluated by using the BLEU metric, and we found that the syllable-based model outperformed the other two models in all datasets. To the best of our knowledge, there is no existing work on syllable-based image captioning, making our study significant as the first work.	en_US
dc.language.iso	tur	en_US
dc.publisher	Başkent Üniversitesi Fen Bilimler Enstitüsü
dc.rights	info:eu-repo/semantics/openAccess	en_US
dc.subject	Görüntü alt yazılama	en_US
dc.subject	örüntü tanıma	en_US
dc.subject	görüntü işleme	en_US
dc.subject	doğal dil işleme	en_US
dc.subject	kodlayıcı-kod çözücü mimari	en_US
dc.subject	derin sinir ağları	en_US
dc.title	Görüntü arşivleri için derin sinir ağları kullanılarak hecelere dayalı görüntü alt yazılama modeli	en_US
dc.type	masterThesis	en_US

Bu öğenin dosyaları:

Ad:: 10569017.pdf
Boyut:: 2.009Mb
Biçim:: PDF

Göster/Aç

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Fen Bilimleri Enstitüsü / Science Institute [450]

Basit öğe kaydını göster