LIUM - Laboratoire d'Informatique de l'Université du Mans , LST - Equipe Language and Speech Technology
LIA - Laboratoire Informatique d'Avignon
INRIA
Contact: {marie.tahon}@univ-lemans.fr
doi:
Lors de l’édition 2023 du workshop JSALT, nous nous sommes attaqués au sujet de l’explicabilité dans le cas de systèmes de diarization. C’est une tâche clé pour la plupart des technologies vocales telles que la transcription automatique, l’identification du locuteur, et la prédiction de dialogue. Celles-ci sont régulièrement utilisées dans des scénarios multi-locuteurs, incluant la TV/radio, les réunions ou des conversations médicales. Dans la plupart de ces domaines, la tendance actuelle pour l’IA explicable est un processus fondamental pour améliorer la transparence des décisions prises par des modèles apprentis automatiquement : l’utilisateur final, qu’il soit médecin, juge, ou data scientist, doit justifier les choix qu’il prend à partir des sorties du systèmes.
Dans ce contexte, nous avons proposé plusieurs approches pour expliquer le comportement de différents modèles de segmentation, de diarization, d’identification du locuteur ou de prédiction d’état émotionnel grâce à différentes techniques utilisées pour l’analyse d’image (integrated gradient (Suraj & Fleuret, 2019), prototypes (Li et al. 2018)), ou d’informations textuelles (projection de l’espace d’embeddings (Boluukbasi et al. 2016)). Cependant expliquer le fonctionnement d’un modèle, ou la structuration de son espace de représentation, ne permet pas de fournir des attributs interprétables à un utilisateur non expert car cet espace n’est pas interprétable per se. La projection dans un espace binaire a été montré efficace en terme d’explicabilité (Ben-Amor & Bonastre, 2022 ; Bonastre & Ben-Amor, 2022, Bonastre et al. 2011). Il faut donc aller plus loin et développer un alignement entre l’espace de représentation des modèles et un espace informatif constitué de variables explicites directement extraites de notre espace perceptif.
Dans ce résumé, nous présentons les travaux réalisés autour de la question de l’interprétabilité dans le cas particulier de l’identification des locuteurs. L’espace de représentation, ici des embeddings de locuteurs (x-vecteurs (Snyder et al., 2018)), sont projetés dans un espace positif, parcimonieux et de grande dimension, où chaque dimension est supposée interpréter la présence d’un attribut (Subramanian et al., 2018 ; Prouteau et al. 2022). Chacune de ces dimensions est rendue binaire sans que cela n’affecte de façon drastique les performances en vérification du locuteur, reconnaissance du genre, des émotions et diarization. Pour aller plus loin vers l’interprétabilité, nous avons défini un espace informatif, constitué de descripteurs prosodiques et acoustiques maitrisés par les experts (Eyben et al., 2016). Plusieurs méthodes statistiques ont été mises en place pour lier chacune des dimensions binaires avec ces descripteurs.
Nous avons montré que les dimensions les plus importantes pour le genre, respectivement les émotions, pouvaient être associées à des familles de descripteurs liées aux formants et la fréquence fondamentale, respectivement à la prosodie. Ainsi l’approche proposée pose un premier jalon vers l’interprétabilité pour le traitement automatique de la parole en proposant une méthodologie pour lier un espace de représentation à un espace informatif.