Recherche

Projet FNS : Caractérisation prosodique et linguistique de phonogenres: Approche semi-automatique et applications

Direction du Projet : Antoine Auchlin

Chercheurs associés : Jean-Philippe Goldman, Tea Pršir

Juillet 2011 - Août 2014

Résumé du plan de recherche

Après les travaux fondateurs de Fónagy (1983), Léon (1993), Lucci (1983), Joos (1968), Johns-Lewis (1986), Llisterri (1992), de nombreuses études récentes se sont intéressées à la variation prosodique et aux différences significatives dans les conduites prosodiques des locuteurs, selon les styles, genres, ou modes, de parole (Degand & Simon 2009a, 2009b; Simon & al. 2010; Goldman & al. 2007a; Goldman & al. 2008). Bien qu'abondamment attestées, ces différences sont encore insuffisamment connues.

Certaines façons de parler sont représentatives d'un genre homogène, compact (sermon; journal parlé; lecture à voix haute; reportage sportif). D'autres (typiquement la parole synthétique) neutralisent leur inscription dans un genre ou dans une situation concrète. La connaissance détaillée des paramètres prosodiques qui caractérisent les phonogenres, c’est-à-dire la représentation admise d’un genre oral -pour certains au-delà des frontières linguistiquesfait partie de la connaissance contemporaine du langage. Tout extrait de parole est le produit d’un mélange entre les variables prosodiques dues au phonogenre, influencées par le contexte d’énonciation, et les habitudes phonoarticulatoires plus ou moins ancrées du locuteur (son idiostyle).

Outre une meilleure compréhension des phonogenres, des idiostyles et de leurs relations, l'approfondissement de ces connaissances doit permettre en pratique de les intégrer de façon systématique à la synthèse de la parole. L’objectif est de remplacer la stratégie par défaut, qui consiste à choisir des valeurs standard pour les paramètres prosodiques synthétisés (ou, dans les systèmes de synthèse actuels, à copier les segments les plus longs que possible depuis une base de données de parole qui ne peut être que «neutre» sous peine de dégrader la qualité de la voix de synthèse et qui permet très peu de modifications prosodiques). Ces valeurs standard produisent une parole dénuée d'informations indexicales reflétant la situation de parole, ou l'état psychologique du locuteur - notamment parce que la parole constituant les bases de données n’est pas typifiée. La synthèse de parole «phonostylisée» est à la fois un objectif de recherche prometteur si l’on considère la nouvelle génération de synthétiseurs de parole permettant un réglage prosodique fin, et un outil permettant à moyen terme de valider ou falsifier efficacement les hypothèses fondées sur les observations et les mesures faites.

La recherche projetée se fonde sur la description d'un corpus de parole en français. Une partie du corpus est déjà constitué (Avanzi & al. 2010: C-Prom), et une partie reste à constituer (C-Prom2). Le corpus est traité en plusieurs étapes confiées à différents outils semi-automatiques, qui assurent: la transcription phonétique; l'alignement texte-son (aux niveaux du phonème, de la syllabe et du mot); l'extraction des paramètres prosodiques sur ces bases, etc. Une partie des outils est disponible, mais mérite amélioration; une partie est à développer, en particulier l'implémentation en synthèse par «ré-injection» des paramètres prosodiques. Dans une approche à la fois inductive et formée d'hypothèses-prédiction-vérification, cette recherche prolonge nos études récentes sur les proéminences, sur le repérage de macro-unités de parole, et permet le développement d'outils de description prosodique automatisée par leur mise en oeuvre sur des données en quantité croissante.

Résumé des objectifs principaux :

  1. Description et modélisation prosodique de plusieurs phonogenres, plusieurs idiostyles; sur ces bases, comparaison inter-styles et intra-styles.
  2. Extension significative d'un corpus de référence en français annoté (C-Prom).
  3. Perfectionnement d'outils automatiques de traitement et de description de la parole (pour distribution libre).
  4. Recherche sur les unités de discours par combinaison d'informations syntaxiques et prosodiques.
  5. Manipulation et intégration dans un système de synthèse en vue de rendre la parole de synthèse adaptable à différentes circonstances types.