Voice-quality Features for Deep Neural Network Based Speaker Verification Systems

Tutkimustuotos: Artikkeli kirjassa/konferenssijulkaisussaConference contributionScientificvertaisarvioitu

Abstrakti

Jitter and shimmer are voice-quality features which have been successfully used to detect voice pathologies and classify different speaking styles. In this paper, we investigate the usefulness of such voice-quality features in neural-network based speaker verification systems. To combine these two sets of features, the cosine distance scores estimated from the two sets are linearly weighted to obtain a single, fused score. The fused score is used to accept/reject a given speaker. The experimental results carried out on Voxceleb-1 dataset demonstrate that the fusion of the cosine distance scores extracted from the mel-spectrogram and voice quality features provide a 15% relative improvement in Equal Error Rate (EER) compared to the baseline system which is based only on mel-spectrogram features.
AlkuperäiskieliEnglanti
Otsikko29th European Signal Processing Conference, EUSIPCO 2021 - Proceedings
KustantajaIEEE
Sivut176-180
Sivumäärä5
ISBN (elektroninen)978-9-0827-9706-0
DOI - pysyväislinkit
TilaJulkaistu - 27 elokuuta 2021
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisuussa
TapahtumaEuropean Signal Processing Conference - Dublin, Irlanti
Kesto: 23 elokuuta 202127 elokuuta 2021
Konferenssinumero: 29

Julkaisusarja

NimiEuropean Signal Processing Conference
ISSN (painettu)2219-5491
ISSN (elektroninen)2076-1465

Conference

ConferenceEuropean Signal Processing Conference
LyhennettäEUSIPCO
Maa/AlueIrlanti
KaupunkiDublin
Ajanjakso23/08/202127/08/2021

Sormenjälki

Sukella tutkimusaiheisiin 'Voice-quality Features for Deep Neural Network Based Speaker Verification Systems'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

Siteeraa tätä