DSpace Repository

Deep neural network (DNN) based multilingual speaker age estimation

Show simple item record

dc.contributor.advisor Büyük, Osman
dc.contributor.author Osman, Mohammed Muntaz
dc.date.accessioned 2022-04-07T07:44:16Z
dc.date.available 2022-04-07T07:44:16Z
dc.date.issued 2021
dc.identifier.other 702964
dc.identifier.uri http://dspace.kocaeli.edu.tr:8080/xmlui/handle/11493/17944
dc.description.abstract With the dramatic growth of online activities for finance, retail and other sectors remote profiling of internet users has become a crucial necessity. Speaker age estimation can greatly help in effectively addressing this need especially for remote users. Speaker age estimation can be defined as predicting either age classes or actual age values exploiting speech. Most importantly, speaker age prediction systems can be applied in safeguarding children as they usually access graphic and violent contents on the internet unnoticed. In this study, several feature extraction techniques are adapted and employed on selected classification and regression models. Most of these features have never been used for speaker age estimation. These features are used as input to selected machine learning and deep neural network (DNN) models over age labeled multilingual databases. i-Vector and x-vector embedding are applied for fixed dimensional representation. Parabolic filter mel-frequency cepstral coefficient (PFMFCC) is proposed as a new feature extraction method by modifying the shape of the filter banks in mel-frequency cepstral coefficients (MFCC). PFMFCC offered the best performances with probabilistic linear discriminant analysis (PLDA) classifier for female and male databases compared to all adapted feature sets. It also showed comparable results with other classifiers. Multilingual settings are established to introduce diversity in language and are observed making differences especially when there is language mismatch. Experimental results indicate that multilingual training setup does not affect the performance of speaker age estimation in single language approaches much, but it improves the performance compared to cross-language evaluations significantly.
dc.description.abstract Finans, perakende ve diğer sektörler için çevrimiçi faaliyetlerin çarpıcı bir şekilde büyümesiyle birlikte, internet kullanıcılarının uzaktan profillenmesi çok önemli bir gereklilik haline geldi. Konuşmacı yaşı tahmini, özellikle uzak kullanıcılar için bu ihtiyacın etkin bir şekilde ele alınmasına büyük ölçüde yardımcı olabilir. Konuşmacı yaş tahmini, konuşmayı kullanarak yaş sınıflarını ve ya gerçek yaş değerlerini tahmin etmek olarak tanımlanabilir. En önemlisi, çocuklar internetteki grafik ve şiddet barındıran içeriklere genellikle fark edilmeden eriştikleri için, çocukların korunmasında konuşmacı yaşı tahmin sistemleri kullanılabilir. Bu çalışmada, farklı sınıflandırma ve öznitelik çıkarma teknikleri konuşmadan yaş sınıflandırma ve regresyon problemleri için kullanılmıştır. Bu özniteliklerin çoğu, konuşmacı yaşı tahmini için daha önce kullanılmamıştır. Parabolik filtre mel frekansı kepstral katsayısı (PFMFKK), mel frekansı kepstral katsayılarında (MFKK) filtre bankalarının (bant geçiren filtre dizisinin) şeklini değiştirerek yeni bir öznitelik çıkarma yöntemi olarak önerilmiştir. PFMFKK, uyarlanmış tüm öznitelik setlerine kıyasla kadın ve erkek veritabanları için olasılıksal doğrusal ayrım analizi (ODAA, PLDA) sınıflandırıcısı ile en iyi performansı sunmuştur. Ayrıca diğer sınıflandırıcılarla da karşılaştırılabilir sonuçlar vermiştir. Konuşmacı tanıma için önerilen i-vektör ve x-vektör vektör gösterimleri de yaş tanıma problemine uygulanmıştır. Bu tezde ayrıca veri tabanları arasındaki dil ve ortam farklılığının yaş tanıma performansı üzerindeki etkisi incelenmiştir. Bu amaçla Türkçe, Almanca ve İngilizce üç farklı veri tabanı kullanılmıştır. Bu veri tabanlarının hedef dilleri ile birlikte toplandıkları ortamlar/geri plan gürültü oranları da birbirinden oldukça farklıdır. Deneysel sonuçlar, çok dilli eğitim senaryosunun, tek dilli senaryoya göre yaş tahmini performansını çok fazla etkilemediğini, ancak diller arası eğitim/test senaryosuna kıyasla performansı önemli ölçüde iyileştirdiğini göstermiştir.
dc.language.iso en
dc.publisher Kocaeli Üniversitesi, Fen Bilimleri Enstitüsü
dc.rights openAccess
dc.subject Multilingual training
dc.subject Deep learning
dc.subject Speaker age estimation
dc.subject Feature fusion
dc.subject Parabolic filter bank.
dc.subject Çok dilli eğitim
dc.subject Derin öğrenme
dc.subject Konuşmacı yaş tahmini öznitelik füzyonu
dc.subject Parabolik filtre bankası.
dc.title Deep neural network (DNN) based multilingual speaker age estimation
dc.title.alternative Derin sinir ağı (Dsa) tabanlı çok dilli konuşmacı yaş tahmini
dc.type doctoralThesis
dc.contributor.department Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
dc.identifier.endpage 153


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account