Robust keyword spotting in noisy environments based on deep learning

No Thumbnail Available

Date

2025

Journal Title

Journal ISSN

Volume Title

Publisher

Başkent Üniversitesi Fen Bilimleri Enstitüsü

Abstract

The present thesis introduces a novel keyword spotting (KWS) system aimed at enhancing performance under adverse noisy conditions by integrating supplementary acoustic information through a transformer-based meta-classifier framework. To accomplish this, KWT-1—a variant of the Keyword Transformer family introduced by Berg et al.—is reimplemented as the base KWS component. This model is applied without the use of knowledge distillation and is trained on the Google Speech Commands v2 dataset for a 12- label classification task. Extensive data augmentation strategies are employed in alignment with the original study to ensure robust model performance. To extract complementary acoustic features, two additional modules are integrated: a noise type classifier and a signalto- noise ratio (SNR) prediction model. The noise classifier is implemented as a onedimensional convolutional neural network informed by the methodology of Abdoli et al. and trained on the UrbanSound8K dataset to recognize ten distinct environmental noise classes. The SNR prediction model adopts a novel hourglass-style convolutional architecture to perform continuous SNR regression. During its training, clean speech samples from the Google Speech Commands v2 dataset are mixed with noise from UrbanSound8K at random SNR levels ranging from 0 to 20 dB, simulating realistic acoustic environments. The outputs from the three branches—keyword prediction, noise type, and estimated SNR—are fused at the decision level using a transformer-based meta-classifier. In this configuration, each model output is treated as a discrete token, projected into a shared embedding space, and processed by a transformer encoder block. This design is intended to capture the complex interdependencies between semantic, environmental, and acoustic factors. Although the proposed fusion model did not surpass the performance of the standalone KWT-1 baseline in terms of keyword classification accuracy, the work contributes to the academic literature by introducing an hourglass-style CNN for SNR level estimation that outperforms existing neural network-based approaches. Evaluation is conducted using classification accuracy for keyword and noise type detection tasks and mean absolute error (MAE) for the SNR regression task.Bu tez çalışmasında, olumsuz gürültü koşullarında anahtar kelime algılama (KWS) performansını artırmak amacıyla, tamamlayıcı akustik bilgilerin dönüştürücü tabanlı bir meta-sınıflandırıcı çerçevesi aracılığıyla bütünleştirildiği özgün bir sistem önerilmektedir. Bu doğrultuda, Berg ve diğerleri tarafından geliştirilen Keyword Transformer ailesinin bir türevi olan KWT-1 modeli bilgi damıtımı (knowledge distillation) uygulanmaksızın yeniden tasarlanmış ve Google Speech Commands v2 veri kümesi üzerinde 12 sınıflı bir sınıflandırma görevi için eğitilmiştir. Modelin dayanıklılığını artırmak amacıyla, ilgili literatürde önerilen kapsamlı veri artırma stratejileri uygulanmıştır. Sisteme tamamlayıcı akustik özellikler kazandırmak amacıyla iki ek modül geliştirilmiştir: bir gürültü türü sınıflandırıcısı ve bir sinyal-gürültü oranı (SNR) tahmin modeli. Gürültü türü sınıflandırıcısı, Abdoli ve diğerlerinin yöntemi temel alınarak tasarlanmış tek boyutlu bir evrişimli sinir ağı mimarisi kullanılarak geliştirilmiş ve UrbanSound8K veri kümesi üzerinde on farklı çevresel gürültü sınıfını tanıyacak şekilde eğitilmiştir. SNR tahmin modeli ise, kum saati (hourglass) tarzında özgün bir evrişimsel sinir ağı mimarisi benimseyerek sürekli SNR tahmini gerçekleştirmektedir. Bu modelin eğitimi sırasında, Google Speech Commands v2 veri kümesinden elde edilen temiz konuşma örnekleri, UrbanSound8K veri kümesinden seçilen gürültü sinyalleriyle 0 ila 20 dB arasında rastgele belirlenen SNR seviyelerinde karıştırılarak gerçekçi akustik ortamlar simüle edilmiştir. Anahtar kelime tahmini, gürültü türü sınıflandırması ve SNR tahmini olmak üzere üç farklı modülden elde edilen çıktılar, karar düzeyinde dönüştürücü tabanlı bir meta-sınıflandırıcı kullanılarak bütünleştirilmiştir. Bu yapı içerisinde her bir model çıktısı ayrı bir token olarak ele alınmış, ortak bir gömme (embedding) uzayına projekte edilmiş ve bir dönüştürücü kodlayıcı (transformer encoder) bloğu aracılığıyla işlenmiştir. Bu tasarım, anlamsal, çevresel ve akustik faktörler arasındaki karmaşık ilişkileri etkin bir şekilde modellemeyi amaçlamaktadır. Önerilen birleştirme modeli, anahtar kelime sınıflandırma doğruluğu bakımından temel KWT-1 modelinin performansını aşamamakla birlikte, kum saati tarzında tasarlanan SNR tahmin ağı sayesinde mevcut sinir ağı tabanlı yaklaşımlara kıyasla daha başarılı sonuçlar elde edilmiştir. Modelin performansı, anahtar kelime ve gürültü türü tespiti için sınıflandırma doğruluğu; SNR tahmini için ise ortalama mutlak hata (MAE) metriği kullanılarak değerlendirilmiştir.

Description

Keywords

Keyword Detection, Converter Based Keyword Detection Model, Converter Based Meta-Classifier, Noise Type Classification, Signal-to-Noise Ratio Estimation

Citation

Endorsement

Review

Supplemented By

Referenced By