With the dramatic growth of online activities for finance, retail and other sectors remote profiling of internet users has become a crucial necessity. Speaker age estimation can greatly help in effectively addressing this need especially for remote users. Speaker age estimation can be defined as predicting either age classes or actual age values exploiting speech. Most importantly, speaker age prediction systems can be applied in safeguarding children as they usually access graphic and violent contents on the internet unnoticed. In this study, several feature extraction techniques are adapted and employed on selected classification and regression models. Most of these features have never been used for speaker age estimation. These features are used as input to selected machine learning and deep neural network (DNN) models over age labeled multilingual databases. i-Vector and x-vector embedding are applied for fixed dimensional representation. Parabolic filter mel-frequency cepstral coefficient (PFMFCC) is proposed as a new feature extraction method by modifying the shape of the filter banks in mel-frequency cepstral coefficients (MFCC). PFMFCC offered the best performances with probabilistic linear discriminant analysis (PLDA) classifier for female and male databases compared to all adapted feature sets. It also showed comparable results with other classifiers. Multilingual settings are established to introduce diversity in language and are observed making differences especially when there is language mismatch. Experimental results indicate that multilingual training setup does not affect the performance of speaker age estimation in single language approaches much, but it improves the performance compared to cross-language evaluations significantly.
Finans, perakende ve diğer sektörler için çevrimiçi faaliyetlerin çarpıcı bir şekilde büyümesiyle birlikte, internet kullanıcılarının uzaktan profillenmesi çok önemli bir gereklilik haline geldi. Konuşmacı yaşı tahmini, özellikle uzak kullanıcılar için bu ihtiyacın etkin bir şekilde ele alınmasına büyük ölçüde yardımcı olabilir. Konuşmacı yaş tahmini, konuşmayı kullanarak yaş sınıflarını ve ya gerçek yaş değerlerini tahmin etmek olarak tanımlanabilir. En önemlisi, çocuklar internetteki grafik ve şiddet barındıran içeriklere genellikle fark edilmeden eriştikleri için, çocukların korunmasında konuşmacı yaşı tahmin sistemleri kullanılabilir. Bu çalışmada, farklı sınıflandırma ve öznitelik çıkarma teknikleri konuşmadan yaş sınıflandırma ve regresyon problemleri için kullanılmıştır. Bu özniteliklerin çoğu, konuşmacı yaşı tahmini için daha önce kullanılmamıştır. Parabolik filtre mel frekansı kepstral katsayısı (PFMFKK), mel frekansı kepstral katsayılarında (MFKK) filtre bankalarının (bant geçiren filtre dizisinin) şeklini değiştirerek yeni bir öznitelik çıkarma yöntemi olarak önerilmiştir. PFMFKK, uyarlanmış tüm öznitelik setlerine kıyasla kadın ve erkek veritabanları için olasılıksal doğrusal ayrım analizi (ODAA, PLDA) sınıflandırıcısı ile en iyi performansı sunmuştur. Ayrıca diğer sınıflandırıcılarla da karşılaştırılabilir sonuçlar vermiştir. Konuşmacı tanıma için önerilen i-vektör ve x-vektör vektör gösterimleri de yaş tanıma problemine uygulanmıştır. Bu tezde ayrıca veri tabanları arasındaki dil ve ortam farklılığının yaş tanıma performansı üzerindeki etkisi incelenmiştir. Bu amaçla Türkçe, Almanca ve İngilizce üç farklı veri tabanı kullanılmıştır. Bu veri tabanlarının hedef dilleri ile birlikte toplandıkları ortamlar/geri plan gürültü oranları da birbirinden oldukça farklıdır. Deneysel sonuçlar, çok dilli eğitim senaryosunun, tek dilli senaryoya göre yaş tahmini performansını çok fazla etkilemediğini, ancak diller arası eğitim/test senaryosuna kıyasla performansı önemli ölçüde iyileştirdiğini göstermiştir.