Çok kipli video kavram sınıflandırılması
Files
Date
2018
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Başkent Üniversitesi Fen Bilimleri Enstitüsü
Abstract
Çokluortam verileri, İnternet kullanımının artmasıyla, sürekli üretilmekte ve
paylaşılmaktadır. Bunun bir sonucu olarak, çokluortam verilerinin büyüklüğü hızla
artmakta ve bu verilerin içeriklerini analiz eden otomatik yöntemlere ihtiyaç
duyulmaktadır. Video verisi, çokluortam verilerinin önemli bir bileşenidir. Video
içerik analizi, video verisi içeriğindeki zamansal veya konumsal olayların ve
kavramların otomatik yöntemlerle belirlenmesi olarak tanımlanabilen önemli bir
araştırma konusudur. Video içerik analizi, video içeriğinin karmaşık yapısı
nedeniyle zor bir görevdir ve içerdiği bilgilerin otomatik olarak elde edilebilmesi için
etkin yöntemlere ihtiyaç duyulmaktadır. Video verisinin artan büyüklüğü bu görevi
zorlaştırmaktadır. Bu tez çalışmasında, video verilerinin çok kipli analizi için, görsel
ve işitsel kiplerin füzyonuna dayalı bir yöntem önerilmektedir ve büyük veri
platformunda uygulaması gerçekleştirilmektedir. Önerilen yöntem, Evrişimsel Sinir
Ağı (ESA) öznitelikleri ile Mel-frekansı Kepstrum Katsayıları (MFCC) özniteliğinin
temsillerinin füzyonuna dayanmaktadır. Büyük veri platformlarından Apache Spark
kullanılarak önerilen yöntem gerçeklenmektedir. Önerilen yöntemin başarısı
TRECVID 2012 SIN veri kümesi üzerinde değerlendirilmektedir. Sonuçlar
göstermektedir ki, çok kipli yaklaşım tek kipli yaklaşımın başarısını geliştirmekte ve
büyük veri platformu, çok kipli video içerik analizi yönteminin işlem zamanını
önemli oranda düşürmektedir.
The multimedia data has been continuously produced and shared out at a high
rate as a result of the internet usage escalation. Thus, the size of multimedia data
has rapidly increased, and hence, automated methods are needed to analyze the
contents of the data produced. Video data is an important component of
multimedia data. Video content analysis is an important research topic for several
applications, such as audio-video based surveillance, content-based search and
retrieval and can be defined as the automatic determination of temporal or spatial
events/concepts in content of video data. Video content analysis is a difficult task
due to the complex nature of the video content and requires efficient algorithms for
extraction of high-level information included in the content. The increasing size of
video data makes this task more difficult. In this thesis, a method based on the
fusion of audio-visual modalities for multimodal content analysis of video data is
proposed and implemented on a big data platform. The proposed method is based
on the fusion of representations of Mel-frequency Cepstral Coefficient (MFCC)
features with Convolutional Neural Network (CNN) features. The proposed method
is implemented on Apache Spark big data platform. The success of the proposed
method is evaluated on the TRECVID 2012 SIN data set. Our results show that the
multi-modal method improves the accuracy of the single-model approach and also
the big data platform significantly reduces the computation time of the multi-modal
video content analysis method.
Description
Keywords
Çok kipli video kavram sınıflandırması, Evrişimsel sinir ağları (ESA), Mel-frekansı kepstrum katsayıları (MFCC), Destek vektör makineleri (DVM), Apache spark, Büyük veri, Derin öğrenme