L
Título: Segmentation into audio document speakers: A new approach based on the one- class support vector methods
Segmentation en locuteurs de documents audio: Une nouvelle approche basée sur les méthodes a vecteurs support mono classe
Autores: Fergani, Belkacem; LCPTS - USTHB, B.P. 32,El Alia, Bab Ezzouar, Alger, Algeria
Davy, Manuel; LAGIS/CNRS, Cité Scientifique, BP 48, 59651 Villeneuve d'As cq Cedex, France
Houacine, Amrane; LCPTS - USTHB, B.P. 32,El Alia, Bab Ezzouar, Alger, Algeria
Fecha: 2007-12-01
Publicador: Canadian Acoustical Association / Association canadienne d'acoustique
Fuente: Ver documento
Tipo: info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion


Tema: Speech processing
Acoustic signal processing; Audio recordings; Data mining; Database systems; Information retrieval; Support vector machines; Digital sound files; Speaker diarization; Text files
Descripción: With recent and continued increases in the number of available sound archives (radio, TV, Web,...), effective methods must be established to facilitate the process of searching for information within massive databases. Of less complexity than the original sound file but nevertheless containing a summary of important information pertaining to the signal, text files (index files) are linked to the digital sound files. An example of relevant information found in the text file is as follows: 45 minutes of speech, 1 minute of music, 10 speakers (6 men and 4 women). These index files, stored with the original signal, will contribute considerably to the information retrieval process, allowing an immediate and direct access to the information sought. If one would like to know who speaks and when in a sound file, the index key is hence the speaker. A preliminary stage of a speaker indexing system is speaker diarization. State-of-the-art speaker diarization techniques require two main steps: speaker turn detection which consists of detecting speaker turn times, that is boundaries of audio file segments where only one speaker is present, followed by a clustering step which consists of labelling the previous segments in terms of speakers. These two stages require a metric to be defined in order to compare and groups speech segments. This paper presents a novel approach for the speaker diarization of audio recordings. The proposed approach uses a metric based on one-class Support Vector Machines (SVM-I), introduced recently by one of the authors, for the speaker change detection and clustering tasks. Through many experiments using two databases of broadcast recordings, we demonstrate the relevance and superiority of this approach compared to the traditional method based on the generalized likelihood ratio using bayesian information criterion (RVG-BIC).
Avec l’augmentation récente et continue du volume d’archiv es sonores (radio, TV, Web, ...), il devient désormais indispensable de trouver des méthodes efficaces qui permettent de faciliter la recherche d’informations dans les grandes bases de données. Ainsi, on associe aux fichiers audio numérisés des fichiers textuels (fichiers index), de moindre complexité que le fichier signal original, mais contenant néanmoins un résumé des informations recherchées dans ce signal. 45 minutes de parole, 1 minute de musique, 10 locuteurs (6 hommes et 4 femmes) sont un exemple d’informations pertinentes. Ces fichiers d’index stockés en même temps que le signal original, seront d’un apport considérable lors de l’étape de recherche d’informations, permettant alors u n accès direct et immédiat à l’information recherchée. Dans le cas où l’on voudrait savoir qui parle et q uand dans un document sonore, la clé d’indexation est alors le locuteur. Un système d’indexatio n par locuteurs peut servi! r également comme étape préliminaire à des tâches de transcription ou de suivi de locuteurs et représente souvent un facteur important pour l’amélioration des perfo rmances des systèmes de reconnaissance automatique de la parole. Une étape préalable indispensable d’un système d’indexation par locuteurs est la segmentation en locuteurs. Celle-ci consiste à réaliser deux tâches séquentielles: la première étape permet de découper le signal paramétré en intervalles ou segments correspondants à des tours de parole de locuteurs, c’est à dire obtenir des segments les plus longs possibles homogènes en termes de locuteur, puis la deuxième étape consiste à regrouper les segments appartenant à un même locuteur.
Idioma: Francés
Artículos similares:
A comparison of imaging modalities to monitor thermal and mechanical ultrasound tissue therapies por Worthington, Arthur; Department of Physics, Ryerson University, Toronto, Canada,Narasimhan, Sankar; Department of Physics, Ryerson University, Toronto, Canada,Tavakkoli, Jahan; Department of Physics, Ryerson University, Toronto, Canada,Kolios, Michael C.; Department of Physics, Ryerson University, Toronto, Canada
A comparison of spatial listening in a soundbooth versus an immersive virtual environment por Maracle, Jacob; Dept of Psychology, University of Toronto, 3359 Mississauga Rd N, Mississauga, ON L5L 1C6, Canada,Lau, Sin Tung; Dept of Psychology, University of Toronto, 3359 Mississauga Rd N, Mississauga, ON L5L 1C6, Canada,Coletta, Dario; Dept of Psychology, University of Toronto, 3359 Mississauga Rd N, Mississauga, ON L5L 1C6, Canada,Singh, Gurjit; Dept of Psychology, University of Toronto, 3359 Mississauga Rd N, Mississauga, ON L5L 1C6, Canada,Kathleen Pichora-Fuller, M.; Dept of Psychology, University of Toronto, 3359 Mississauga Rd N, Mississauga, ON L5L 1C6, Canada,Campos, Jennifer; Toronto Rehabilitation Institute, 550 University Ave., Toronto, ON M5G 2A2, Canada
The reliability of personal noise dosimeters under steady-state and variable noise exposure por Hetu, R.; Groupe d'Acoust., Montreal Univ., Que., Canada,Rheault, M.; Groupe d'Acoust., Montreal Univ., Que., Canada
Isoparametric finite element using cubic hermite polynomials for acoustics in duct components with flow por Stredulinsky, D.C.; Defence Res. Establ. Atlantic, Dartmouth, NS, Canada,Craggs, A.
Temporal cues support syntactic identification por Wiley, Michelle D.; Univ of British Columbia, Vancouver, Canada,Pichora-Fuller, M.Kathleen; Univ of British Columbia, Vancouver, Canada
Canadian Standards Association activity in acoustics por Kelsall, T.; Hatch, Mississauga, Ont., Canada
Vibration d'un train lorsque le sol est gelé por Chamberland, Claude; SNC-LAVALIN INC, Division Environnement, Canada,Duchassin, Franck; SNC-LAVALIN INC, Division Environnement, Canada
10 
Speaker identification by computer and human evaluated on the SPIDRE corpus por Ezzaidi, Hassan; ERMETIS, DSA, Univ. du Que. a Chicoutimi, Chicoutimi, Qué. G7H 2B1, Canada,Rouat, Jean; ERMETIS, DSA, Univ. du Que. a Chicoutimi, Chicoutimi, Qué. G7H 2B1, Canada