Derin sinir ağlarını kullanarak uzun ve kısa videolarda zamansal eylem tanıma

No Thumbnail Available

Date

2023

Journal Title

Journal ISSN

Volume Title

Publisher

Başkent Üniversitesi Fen Bilimler Enstitüsü

Abstract

Günümüzde videoların büyük bir veri kaynağı oluşturması, anlamsal bilgi çıkarımı ve eylem tanıma gibi konularda derin öğrenmenin önemini artırmıştır. Videoların karmaşık ve dinamik yapısı nedeniyle gelişmiş modelleme teknikleri ve algoritmaların kullanılması gerekliliği ortaya çıkmıştır. Bu çalışmada, sayısal teknolojilerle artan video içeriklerinden anlamsal bilgi çıkarımı amacıyla, videolarda eylem tanıma problemi araştırılmıştır. Mevcut çalışmaların birçoğu, kısa videoların sınıflandırılmasına odaklanmaktadır. Tez kapsamında, kısa videoların yanısıra, uzun videoların sınıflandırması için üç boyutlu evrişimsel sinir ağları ve dikkat mekanizmasına dayalı özgün bir model önerilmektedir. Bu entegrasyon hem kısa hem de uzun videolardaki öğrenme sürecini iyileştirmekte ve aktivitelerin doğru tanımlanabilmesine olanak sunmaktadır. Önerilen model, uzun videoların sınıflandırması için öncelikle bölge öneri ağı adı verilen bir sinir ağı ile uzun videoların olası olay sınırlarını tespit etmekte, daha sonra önerilen video sınırları için sınıflandırma yapmaktadır. HMDB, UCF ve ActivityNet gibi veri kümeleri üzerinde gerçekleştirilen deneysel çalışmalarda, dikkat mekanizmalarının model performansını önemli ölçüde artırdığı görülmüştür. Önerilen model, 3D evrişimsel sinir ağları ve dikkat mekanizmalarının entegrasyonuyla, videolardan öznitelik çıkarımı ve aktivite tespiti yeteneklerini geliştirmiştir. Kısa video klipleri için HMDB ve UCF veri kümeleri, uzun videolar içinse ActivityNet veri kümesi kullanılarak modelin farklı aktivite tipleri ve video yapılarındaki tanıma yeteneği ölçülmüştür. Özellikle UCF ve HMDB veri kümelerinde, Öz Dikkat mekanizması kullanılan model yüksek doğruluk oranlarına ulaşırken, ActivityNet’te Çok Başlıklı Dikkat mekanizması uzun videolardaki karmaşık etkileşimleri daha etkili bir şekilde tanıma yeteneği sergilemiştir. Bu bulgular, dikkat mekanizmalarının videolardan anlamsal bilgi çıkarımında önemli bir rol oynadığını ve derin öğrenme yöntemlerinin bu alandaki potansiyelini ortaya koymaktadır. Elde edilen sonuçlar, önerilen derin öğrenme modelinin farklı video yapılarına uyum sağlama yeteneğini ve etkili bilgi çıkarımı gerçekleştirme kapasitesini açıkça ortaya koymaktadır. In today’s world, the vast amount of video data has increased the importance of deep learning in areas such as semantic information extraction and action recognition. Due to the complex and dynamic nature of videos, there is a need for advanced modeling techniques and algorithms. This study investigates the problem of action recognition in videos with the aim of extracting semantic information from the increasing video contents with digital technologies. Many of the existing studies focus on the classification of short videos. Within the scope of the thesis, an original model based on three-dimensional convolutional neural networks and attention mechanism is proposed for the classification of not only short videos but also long videos. This integration enhances the learning process in both short and long videos, enabling accurate action detection. The proposed model focuses on classifying long videos by first identifying potential event boundaries within these videos using a neural network known as region proposal network, and subsequently performing classification on the proposed video segments. Experimental studies carried out on datasets like HMDB, UCF, and ActivityNet have shown that attention mechanisms significantly improve model performance. The proposed model, integrating 3D convolutional neural networks and attention mechanisms, has improved feature extraction and activity detection capabilities from videos. The model’s ability to recognize various activity types and video structures was evaluated using the HMDB and UCF datasets for short video clips and the ActivityNet dataset for longer videos. Specifically, in the UCF and HMDB datasets, the model using the Self Attention mechanism achieved high accuracy rates, while in ActivityNet, the Multi-Head Attention mechanism displayed better ability to recognize complex interactions in longer videos. These findings highlight the crucial role of attention mechanisms in extracting semantic information from videos and reveal the potential of deep learning methods in this area. The obtained results clearly indicate the proposed deep learning model’s adaptability to different video structures and its capacity for effective information extraction.

Description

Keywords

Derin Öğrenme, Öznitelik çıkarımı, Eylem tanıma, 3B Evrişimsel Sinir Ağı, Dikkat mekanizması, Video Eylem Tanıma, Video Sınıflandırma

Citation

Endorsement

Review

Supplemented By

Referenced By