Reconnaissance et synthèse de la parole
Logiciels
Introduction
J'ai regroupé dans cette page les sites Internet qui présentent des logiciels existants. Ils nous permettent de constater à la fois les applications du domaine, les progrès réalisés et les limites de la technologie actuelle.
Les quatre premiers logiciels sont commerciaux et existent en plusieurs langues (7 ou 8). Le premier fait à la fois la reconnaissance et la synthèse de la parole, alors que les trois suivants font l'un ou l'autre. Les logiciels d'IBM et de
L&H (Learnout & Hauspie) sont particulièrement intéressants et performants. Les trois derniers logiciels (les 5e, 6e et 7e) font uniquement de la synthèse de la parole en une seule langue et ont été développés
par des institutions universitaires dans le cadre de projets de recherche. Le dernier site est particulièrement intéressant pour en apprendre plus sur la synthèse de la parole car il offre des pages de renseignements supplémentaires sur les aspects théoriques du domaine.
Six des sept sites offrent des démos de leurs logiciels.
Sites Internet
Logiciels commentés
- ViaVoice - IBM Voice Systems : reconnaissance et synthèse de la parole en 8 langues
http://www-4.ibm.com/software/speech/
IBM offre plusieurs versions de son logiciel ViaVoice pour répondre à des besoins personnels et d'entreprises. C'est un logiciel de synthèse et de reconnaissance de la parole. Il fonctionne sur plusieurs plateformes : Windows, Mac et Linux. Certaines versions sont offertes dans
d'autres langues que l'anglais américain (anglais d'Angleterre, français, allemand, italien, espagnol, japonnais, chinois et brésilien). Selon les versions, ce logiciel offre des fonctions telles que
dicter directement dans la plupart des applications Windows, commander vocalement le PC et naviguer sur le Web, se faire lire à haute voix les pages Web, courriers électroniques et documents, gérer le courrier électronique en dictant, etc. Ce site contient
une démo de la version "Millennium Edition Pro". En plus du logiciel ViaVoice, plusieurs autres logiciels sont offerts aux entreprises, pour la téléphonie et le WEB, ainsi que pour les mobiles.
- L&H RealSpeak : synthèse de la parole en 8 langues
http://www.lhsl.com/realspeak/features.asp
Ce logiciel est commercialisé par Learnout & Hauspie et fait partie de leurs produits destinés aux entreprises (Business) de télécommunications (Telecom). Il s'agit d'un logiciel de synthèse de la parole, ou TTS (Text to Speech) qui lit et convertit
un texte numérisé en une voix assez naturelle et intelligible. La technologie est basée sur un algorithme de concaténation, où les segments de la voix humaine sont stockés et utilisés pour convertir le texte en paroles. Mais ce qu'il y a de particulier c'est que les unités de traitement de base ne sont pas limitées aux diphones car ce logiciel utilise un gamme complète de segments de la
parole incluant les diphones, les syllables et des séquences plus longues de phonèmes. Ce mélange de types de segments de voix, jumelé aux connaissances approfondies en linguistiques, procurent une prononciation se rapprochant du langage naturel. Pour apprécier ce logiciel, on peut le tester à l'aide de démos interactifs, en 8 langues
(anglais américain, anglais d'Angleterre, français, allemand, italien, espagnol, suédois, néerlandais de Belgique). Cette compagnie commercialise plusieurs autres logiciels, pour des besoins personnels ou d'entreprises.
- L&H Voice Xpress : reconnaissance de la parole en 7 langues
http://www.lhsl.com/voicexpress/
Ce logiciel est commercialisé par Learnout & Hauspie. Il s'agit d'un logiciel de reconnaissance de la parole dont la technologie brevetée permet non seulement de faire la dictée dans presque tous les logiciels fonctionnant sous Windows, mais aussi de contrôler les applications de "Microsoft Office" par la parole, avec ses propres mots. Ce logiciel existe en
7 langues: anglais américain, anglais d'Angleterre, français, espagnol d'Amérique latine, néerlandais, chinois cantonnais et chinois mandarin. Il existe plusieurs versions de ce logiciel, pour répondre aux besoins variés des entreprises, des professionnels ou des particuliers.
- Digalo : synthèse de la parole en 8 langues
http://www.digalo.com/French/index.htm
Il s'agit d'un moteur de synthèse de la parole, ou TTS (Text To Speach), qui lit à voix haute n’importe quel texte, en langage naturel. Il se décline en 8 langues : français, allemand, espagnol, brésilien, anglais, américain, russe et italien.
Il supporte toutes les applications utilisant la technologie SAPI ou l’interface Microsoft Agent : lecture d'e-mail, de messages ICQ, de pages Web, "chat" parlant, etc...
On doit cliquer sur "liste des programmes shareware et freeware" pour connaître ceux que Digalo supporte. Pour connaître les caractéristiques techniques du logiciel, on doit cliquer
sur "Digalo" dans le menu du haut de la page. Pour entendre une démo, on doit cliquer sur "Français" dans le menu de droite, en-dessous de "Extraits MP3". Cela nous permet d'écouter des voix de Digalo (d'hommes et de femmes) dans les 8 langues.
- KALI : synthèse vocale en français
http://elsap1.unicaen.fr/index.htmlURL
Il s'agit d'un logiciel de synthèse de la parole qui permet de faire parler un ordinateur. Il est le résultat de la collaboration entre une association d'aveugles (Club Micro Son), une PME
bas-normande (ELECTREL) et deux laboratoires Université de Caen - CNRS : Laboratoire de Linguistique CRISCO (Centre de Recherches Inter-langues sur la Signification en COntexte) et GREYC (Groupe de Recherche en Informatique, Image
et Instrumentation de Caen). Dans la page d'accueil du CRISCO, il faut cliquer sur "Exemples" (dans la case "Synthèse vocale KALI") pour avoir accès non seulement aux caractéristiques du logiciel mais aussi à une vingtaine de fichiers "son" qui lisent les phrases du texte de cette page. Par ailleurs, en cliquant sur "Démonstration interactive" (dans la même case "Synthèse vocale KALI" de la page d'accueil du CRISCO) on peut expérimenter
le logiciel en écrivant soi-même une phrase quelconque dans la fenêtre prévue à cette fin.
- FIPSVox : synthèse vocale en français
http://www.latl.unige.ch/
FIPSVox est un système expérimental de synthèse vocale du français à partir d'un texte (TTS : Text To Speach). Il a été développé par le LATL (Laboratoire d'Analyse et de Technologie du Langage) rattaché au Département de linguistique de l'Université de Genève, en collaboration
avec le LAIP (Laboratoire d'Analyse Informatique de la Parole) de l'Université de Lausanne, dans le cadre d'un projet prioritaire informatique du Fonds national suisse de la recherche scientifique. Pour accéder à des démos, il faut cliquer sur "Synthèse de la parole" dans le
menu de gauche, en-dessous de "Outils et démos". On peut alors expérimenter le logiciel, soit en tapant un texte dans la fenêtre prévue à cet effet pour ensuite l'entendre, ou alors écouter quelques exemples de textes déjà enregistrés. À noter : seuls les exemples en version WAV ont fonctionné lorsque je les ai essayés le 13 décembre 2000, pas ceux en Real Audio. Pour connaître les caractéristiques du logiciel, il faut cliquer sur "Quelques explications" dans le haut de la page
contenant les démos.
- LAIPTTS - MoulinAParole : synthèse de la parole en français
http://www.unil.ch/imm/docs/LAIP/LAIPTTS_fr.htm
LAIPTTS est un logiciel complet de synthèse de la parole et de synthèse vocale pour le français, fonctionnant sous Windows 95/98/NT, et sur demande contractuelle, sous Macintosh et UNIX. Il a été développé par le LAIP (Laboratoire d'Analyse Informatique de la Parole) de l'Université de Lausanne.
On peut télécharger ce système gratuitement, en cliquant sur "Chargement gratuit de la synthèse de la parole MoulinAParole-LAIPTTS". Après quelques informations générales sur le logiciel et ses applications, on peut accéder à des informations supplémentaires très intéressantes
en cliquant sur les pages du menu en-dessous : on y présente plusieurs thèmes comme les aspects prosodiques pertinents pour la synthèse, les différentes utilisations d'une synthèse de bonne qualité, la problématique de la synthèse des variantes de langues standards, ainsi que les défis et les limites actuels de la synthèse de la parole. Plus bas dans la page, une démo du logiciel est offerte, sous forme de plusieurs fichiers "son" où on peut
entendre la lecture des phrases du texte de la page. À noter de particuièrement intéressant : les exemples sonores de la section "Manipulation prosodique" qui permettent de constater la différence entre une synthèse avec ou sans intégration des paramètres prosodiques (durée et mélodie). Les détails techniques du logiciel se trouvent à la fin de la page.
©2000 par Marie-Josée Leboeuf.
Cette page a été réalisée à l'EBSI, Université de Montréal, dans le cadre du cours BLT 6134 - Analyse de textes et ordinateur - donné durant l'automne 2000 par Suzanne Bertrand-Gastaldy.