Robust keyword spotting in noisy environments based on deep learning
No Thumbnail Available
Files
Date
2025
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Başkent Üniversitesi Fen Bilimleri Enstitüsü
Abstract
The present thesis introduces a novel keyword spotting (KWS) system aimed at enhancing
performance under adverse noisy conditions by integrating supplementary acoustic
information through a transformer-based meta-classifier framework. To accomplish this,
KWT-1—a variant of the Keyword Transformer family introduced by Berg et al.—is
reimplemented as the base KWS component. This model is applied without the use of
knowledge distillation and is trained on the Google Speech Commands v2 dataset for a 12-
label classification task. Extensive data augmentation strategies are employed in alignment
with the original study to ensure robust model performance. To extract complementary
acoustic features, two additional modules are integrated: a noise type classifier and a signalto-
noise ratio (SNR) prediction model. The noise classifier is implemented as a onedimensional
convolutional neural network informed by the methodology of Abdoli et al. and
trained on the UrbanSound8K dataset to recognize ten distinct environmental noise classes.
The SNR prediction model adopts a novel hourglass-style convolutional architecture to
perform continuous SNR regression. During its training, clean speech samples from the
Google Speech Commands v2 dataset are mixed with noise from UrbanSound8K at random
SNR levels ranging from 0 to 20 dB, simulating realistic acoustic environments. The outputs
from the three branches—keyword prediction, noise type, and estimated SNR—are fused at
the decision level using a transformer-based meta-classifier. In this configuration, each
model output is treated as a discrete token, projected into a shared embedding space, and
processed by a transformer encoder block. This design is intended to capture the complex
interdependencies between semantic, environmental, and acoustic factors. Although the
proposed fusion model did not surpass the performance of the standalone KWT-1 baseline
in terms of keyword classification accuracy, the work contributes to the academic literature by introducing an hourglass-style CNN for SNR level estimation that outperforms existing
neural network-based approaches. Evaluation is conducted using classification accuracy for
keyword and noise type detection tasks and mean absolute error (MAE) for the SNR
regression task.Bu tez çalışmasında, olumsuz gürültü koşullarında anahtar kelime algılama (KWS)
performansını artırmak amacıyla, tamamlayıcı akustik bilgilerin dönüştürücü tabanlı bir
meta-sınıflandırıcı çerçevesi aracılığıyla bütünleştirildiği özgün bir sistem önerilmektedir.
Bu doğrultuda, Berg ve diğerleri tarafından geliştirilen Keyword Transformer ailesinin bir
türevi olan KWT-1 modeli bilgi damıtımı (knowledge distillation) uygulanmaksızın yeniden
tasarlanmış ve Google Speech Commands v2 veri kümesi üzerinde 12 sınıflı bir
sınıflandırma görevi için eğitilmiştir. Modelin dayanıklılığını artırmak amacıyla, ilgili
literatürde önerilen kapsamlı veri artırma stratejileri uygulanmıştır. Sisteme tamamlayıcı
akustik özellikler kazandırmak amacıyla iki ek modül geliştirilmiştir: bir gürültü türü
sınıflandırıcısı ve bir sinyal-gürültü oranı (SNR) tahmin modeli. Gürültü türü sınıflandırıcısı,
Abdoli ve diğerlerinin yöntemi temel alınarak tasarlanmış tek boyutlu bir evrişimli sinir ağı
mimarisi kullanılarak geliştirilmiş ve UrbanSound8K veri kümesi üzerinde on farklı çevresel
gürültü sınıfını tanıyacak şekilde eğitilmiştir. SNR tahmin modeli ise, kum saati (hourglass)
tarzında özgün bir evrişimsel sinir ağı mimarisi benimseyerek sürekli SNR tahmini
gerçekleştirmektedir. Bu modelin eğitimi sırasında, Google Speech Commands v2 veri
kümesinden elde edilen temiz konuşma örnekleri, UrbanSound8K veri kümesinden seçilen
gürültü sinyalleriyle 0 ila 20 dB arasında rastgele belirlenen SNR seviyelerinde karıştırılarak
gerçekçi akustik ortamlar simüle edilmiştir. Anahtar kelime tahmini, gürültü türü
sınıflandırması ve SNR tahmini olmak üzere üç farklı modülden elde edilen çıktılar, karar
düzeyinde dönüştürücü tabanlı bir meta-sınıflandırıcı kullanılarak bütünleştirilmiştir. Bu
yapı içerisinde her bir model çıktısı ayrı bir token olarak ele alınmış, ortak bir gömme
(embedding) uzayına projekte edilmiş ve bir dönüştürücü kodlayıcı (transformer encoder)
bloğu aracılığıyla işlenmiştir. Bu tasarım, anlamsal, çevresel ve akustik faktörler arasındaki karmaşık ilişkileri etkin bir şekilde modellemeyi amaçlamaktadır. Önerilen birleştirme
modeli, anahtar kelime sınıflandırma doğruluğu bakımından temel KWT-1 modelinin
performansını aşamamakla birlikte, kum saati tarzında tasarlanan SNR tahmin ağı sayesinde
mevcut sinir ağı tabanlı yaklaşımlara kıyasla daha başarılı sonuçlar elde edilmiştir. Modelin
performansı, anahtar kelime ve gürültü türü tespiti için sınıflandırma doğruluğu; SNR
tahmini için ise ortalama mutlak hata (MAE) metriği kullanılarak değerlendirilmiştir.
Description
Keywords
Keyword Detection, Converter Based Keyword Detection Model, Converter Based Meta-Classifier, Noise Type Classification, Signal-to-Noise Ratio Estimation