Görüntü arşivleri için derin sinir ağları kullanılarak hecelere dayalı görüntü alt yazılama modeli
Özet
Bir görüntüye ait içeriğin insan benzeri doğal bir dil kullanılarak otomatik olarak tasvir edilmesi görüntü alt yazılama olarak adlandırılmaktadır. Bilgisayarlı görü ve doğal dil işleme tekniklerinin bir arada kullanıldığı görüntü alt yazılama alanında İngilizce için tasarlanan birçok model bulunmaktadır. Ancak Türkçenin sondan eklemeli yapısından dolayı bu modellerin doğrudan Türkçeye uyarlanması mümkün değildir. Bu tez çalışmasında dilin yapısını daha iyi anlayabilmek için hecelerden faydalanılmış ve heceler üzerinde çalışan bir görüntü alt yazılama modeli önerilmiştir. Önerilen model encoder-decoder mimarisine sahip olup CNN ve LSTM birlikte kullanılmıştır. Mevcutta Türkçe dili için önerilen sözcük, alt kelime/kök tabanlı modeller ile önerdiğimiz hecelere dayalı modelin başarımını kıyaslamak için üç ayrı veri kümesi kullanılmıştır. Bunlardan ilk ikisi araştırmacıların açık erişimine sunulan Flickr8k ve Flickr30k bir diğeri ise kendi oluşturduğumuz veri kümesidir. Önerilen yaklaşımın performansı BLEU ölçüm metriği kullanılarak değerlendirilmiş her üç veri kümesinde de hecelere dayalı modelin diğer iki modele göre daha başarılı olduğu sonucuna ulaşılmıştır. Bilindiği kadarıyla, hecelere dayalı görüntü alt yazılama alanında yapılan herhangi bir çalışma bulunmamaktadır, bu sebeple sunulan çalışma bu konuda yapılan ilk çalışma olması sebebiyle önemlidir.
Image captioning also known as automatic image description, refers to the process of automatically describing the content of an image by using natural language. In the field of image captioning, there are many models designed for English where computer vision and natural language processing techniques are combined. Direct adaptation of these models to Turkish is not possible due to the agglutinative structure of the Turkish language. In our study, we propose a syllable-based image captioning model to better understand the structure of the language. The proposed model follows an encoder-decoder architecture, utilizing both CNN and LSTM. Three seperate datasets were used to compare the performance of the proposed syllable-based model with word-level and baseword/subword-level models. The first and second datasets are the Flickr8k and Flickr30k dataset, which is publicly accessible for researchers, while the other one is a dataset that we created. The performance of the proposed approach was evaluated by using the BLEU metric, and we found that the syllable-based model outperformed the other two models in all datasets. To the best of our knowledge, there is no existing work on syllable-based image captioning, making our study significant as the first work.