Sign language recognition with zero-shot learning
No Thumbnail Available
Files
Date
2024
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Başkent Üniversitesi Fen Bilimleri Enstitüsü
Abstract
Sign language holds great importance for a specific segment of society. Automating Sign
Language Recognition (SLR) using machine learning is crucial for facilitating communication
between different segments of society. However, creating the necessary labeled data
for this task is very challenging. Furthermore, the evolution and changing meanings of sign
language words over time make this field even more difficult. This work presents a novel
approach to Zero-Shot Sign Language Recognition (ZSSLR). Using hand and landmark data
extracted from the signer’s body data, the signer’s hand and body have been modeled. To
determine which of the extracted and modeled features are more important for this purpose, a
data grading method was applied. In Zero-Shot Learning (ZSL), datasets containing descriptions
of the movements in sign language videos were used. The results were tested on two
benchmarkable ZSL datasets and demonstrated in ZSL and Generalized Zero-Shot Learning
(GZSL) settings. ˙I
¸saret dili, toplumun belirli bir kesimi için büyük önem ta¸sımaktadır. ˙I¸saret Dili Tanımanın
(SLR) makine ö˘grenmesi kullanılarak otomatikle¸stirilmesi, toplum kesimlerinin ileti¸simini
kolayla¸stırmak için çok önemlidir. Ancak, bu görev için gerekli olan etiketlenmi¸s verilerin
olu¸sturulması oldukça zordur. Dahası, zaman içinde i¸saret dili kelimelerinin evrim
geçirip anlamlarının de˘gi¸smesi bu alanı daha da zor hale getirmektedir. Bu çalı¸sma, Sıfır-
Shot˙I ¸saret Dili Tanıma (ZSSLR) için yenilikçi bir yakla¸sım sunmaktadır. ˙I¸saretçinin vücut
verilerinden çıkarılan el ve landmark verileri kullanılarak, i¸saretçinin el ve vücudu modellenmi
¸stir. Çıkarılan ve modellenen özniteliklerin bu amaç için hangisinin daha önemli oldu˘gunu
belirlemek amacıyla bir veri derecelendirme yöntemi uygulanmı¸stır. Sıfır-Shot Ö˘grenmede
(ZSL), i¸saret dili videolarında yapılan hareketlerin tanımlarını içeren veri kümeleri kullanılmı
¸stır. Sonuçlar, iki kar¸sıla¸stırılabilir ZSL veri kümesinde test edilmi¸s ve ZSL ve Genel
Sıfır-Shot Ö˘grenme (GZSL) ayarlarında gösterilmi¸stir.
Description
Keywords
Sign Language Recognition, Zero-Shot Sign Language Recognition, Zero- Shot Learning