Systèmes en 1995
Accueil Remonter Production Signal acoustique Analyse du signal Perception Reconnaissance Systèmes en 1995 Bibliographie

Production
Signal acoustique
Analyse du signal
Perception
Reconnaissance
Systèmes en 1995
Bibliographie

  Les systèmes disponibles en 1995

Plusieurs systèmes de reconnaissance de la parole sont soit disponibles sur le marché, soit à l’état de projet. Ces systèmes se présentent généralement sous forme d'un ensemble de logiciels et de cartes d'acquisition et traitement de la parole. Ces produits sont mis en oeuvre sur des micro-ordinateurs compatibles PC, sur des stations de travail ou bien ils sont totalement autonomes.

Les différences entre ces produits dans les méthodes utilisées et les performances (tant en qualité de la reconnaissance qu'en puissance et rapidité de calcul), les destinent à des applications différentes et expliquent leurs différences de prix.

Certains d'entre eux sont adaptés à la commande de logiciel ou d'équipement:

bulletLe système INTROVOICE VI est un système de reconnaissance et synthèse de la parole fonctionnant sur micro-ordinateur type PC. Il est composé d'une carte, d'un logiciel et des accessoires nécessaires à l'enregistrement et à l'écoute. Il utilise un vocabulaire de 1250 mots maximum et fonctionne par analyse spectrale des mots sur 16 canaux.
bulletDATAVOX, proposé par la société VECSYS est un des plus performants actuellement disponible. Le système est implanté sur deux cartes PC. Il permet la reconnaissance de 1000 mots isolés avec un temps de réponse inférieur à 300 ms et un taux de réussite de 95% en mode monolocuteur.
bulletSCHEDULER, distribué avec les cartes SoundBlaster sur micro-ordinateur type PC. Il permet de simuler des séquences de touches et de piloter les menus des applications Windows.

Certains systèmes sont destinés à travailler avec de bonnes performances en reconnaissance des mots dans des situations plus difficiles, éventuellement d’une manière indépendante du locuteur [PER 94]:

bulletUn système de clavier vocal pour cabines téléphoniques, développé par ATT, obtient un taux de reconnaissance exacte de 98,6% pour des chiffres prononcés en continu, à travers le réseau téléphonique. Le CNET, avec PUBLIVOX, a atteint 2,5% d’erreur en laboratoire, mais ce chiffre est monté à près de 20% en service. Le CNET a également conçu un serveur vocal téléphonique, MAIRIEVOX, installé à Lannion, qui diffuse des renseignements sur les loisirs et les services régionaux [GAG 90].
bulletSPHINX, de Carnegie Mellon University, fonctionne avec 95,5% de taux de reconnaissance, indépendamment du locuteur.
bulletBYBLOS, de BNN, obtient moins de 2% d’erreur sur la reconnaissance de mots en monolocuteur.

Il existe également des machines à dicter, comme TANGORA 20000, Dragon Dictate ou Dictée Personnelle d’IBM. Ces systèmes ont un vocabulaire de plusieurs milliers ou dizaines de milliers de mots. Ils fonctionnent soit en monolocuteur, soit d’une manière indépendante du locuteur, mais avec une adaptation. Dans ce cas, les taux de reconnaissance sont médiocres au début (de l’ordre de 50%) et s’améliorent au fur et à mesure de l’utilisation (pour atteindre environ 95%), l’utilisateur signalant ses erreurs au système. Ils réclament néanmoins un apprentissage.

D’autres projets dépassent le cadre de la reconnaissance de phrases pour s’approcher d’un véritable système de dialogue. C’est le cas de DIAPASON [GAL 90] qui est un système de dialogue homme-machine multilocuteur, utilisé par des opérateurs de consoles sonar.

Le projet Esprit SUNDIAL [BIL 92] va encore plus loin dans le sens du dialogue. Le but recherché n’est pas la reconnaissance des mots, mais la compréhension d’une conversation. SUNDIAL est un système multilocuteur, ayant un vocabulaire étendu et il fonctionne à partir d’une ligne téléphonique, sans contraintes de langage. Le taux de reconnaissance brute est d'environ 40%. Mais l’introduction de connaissances syntaxiques et sémantiques, ainsi que d’un modèle de dialogue permet au système de faire des prédictions relatives au contexte. Le taux de compréhension des énoncés dépasse alors 90%, sans que tous les mots aient forcément été reconnus.

Retour au début du document