






|
|
|
|
Les systèmes disponibles
en 1995 |
|
|
Plusieurs systèmes de reconnaissance de la parole sont soit disponibles sur le
marché, soit à létat de projet. Ces systèmes se présentent généralement sous
forme d'un ensemble de logiciels et de cartes d'acquisition et traitement de la parole.
Ces produits sont mis en oeuvre sur des micro-ordinateurs compatibles PC, sur des stations
de travail ou bien ils sont totalement autonomes.
Les différences entre ces produits dans les méthodes utilisées et les performances
(tant en qualité de la reconnaissance qu'en puissance et rapidité de calcul), les
destinent à des applications différentes et expliquent leurs différences de prix.
Certains d'entre eux sont adaptés à la commande de logiciel ou d'équipement:
 | Le système INTROVOICE VI est un système de reconnaissance et synthèse de
la parole fonctionnant sur micro-ordinateur type PC. Il est composé d'une carte, d'un
logiciel et des accessoires nécessaires à l'enregistrement et à l'écoute. Il utilise
un vocabulaire de 1250 mots maximum et fonctionne par analyse spectrale des mots sur 16
canaux. |
 | DATAVOX, proposé par la société VECSYS est un des plus performants
actuellement disponible. Le système est implanté sur deux cartes PC. Il permet la
reconnaissance de 1000 mots isolés avec un temps de réponse inférieur à 300 ms et un
taux de réussite de 95% en mode monolocuteur. |
 | SCHEDULER, distribué avec les cartes SoundBlaster sur micro-ordinateur type PC.
Il permet de simuler des séquences de touches et de piloter les menus des applications
Windows. |
Certains systèmes sont destinés à travailler avec de bonnes performances en
reconnaissance des mots dans des situations plus difficiles, éventuellement dune
manière indépendante du locuteur [PER 94]:
 | Un système de clavier vocal pour cabines téléphoniques, développé par ATT, obtient
un taux de reconnaissance exacte de 98,6% pour des chiffres prononcés en continu, à
travers le réseau téléphonique. Le CNET, avec PUBLIVOX, a atteint 2,5%
derreur en laboratoire, mais ce chiffre est monté à près de 20% en service. Le
CNET a également conçu un serveur vocal téléphonique, MAIRIEVOX, installé à
Lannion, qui diffuse des renseignements sur les loisirs et les services régionaux [GAG 90]. |
 | SPHINX, de Carnegie Mellon University, fonctionne avec 95,5% de taux de
reconnaissance, indépendamment du locuteur. |
 | BYBLOS, de BNN, obtient moins de 2% derreur sur la reconnaissance de mots
en monolocuteur. |
Il existe également des machines à dicter, comme TANGORA 20000, Dragon Dictate
ou Dictée Personnelle dIBM. Ces systèmes ont un vocabulaire de plusieurs
milliers ou dizaines de milliers de mots. Ils fonctionnent soit en monolocuteur, soit
dune manière indépendante du locuteur, mais avec une adaptation. Dans ce cas, les
taux de reconnaissance sont médiocres au début (de lordre de 50%) et
saméliorent au fur et à mesure de lutilisation (pour atteindre environ 95%),
lutilisateur signalant ses erreurs au système. Ils réclament néanmoins un
apprentissage.
Dautres projets dépassent le cadre de la reconnaissance de phrases pour
sapprocher dun véritable système de dialogue. Cest le cas de DIAPASON
[GAL 90] qui est un système de dialogue
homme-machine multilocuteur, utilisé par des opérateurs de consoles sonar.
Le projet Esprit SUNDIAL [BIL 92]
va encore plus loin dans le sens du dialogue. Le but recherché nest pas la
reconnaissance des mots, mais la compréhension dune conversation. SUNDIAL
est un système multilocuteur, ayant un vocabulaire étendu et il fonctionne à partir
dune ligne téléphonique, sans contraintes de langage. Le taux de reconnaissance
brute est d'environ 40%. Mais lintroduction de connaissances syntaxiques et
sémantiques, ainsi que dun modèle de dialogue permet au système de faire des
prédictions relatives au contexte. Le taux de compréhension des énoncés dépasse alors
90%, sans que tous les mots aient forcément été reconnus.
Retour au début du
document
|
|
|