1. Description.
La parole est un signal réel, continu, d'énergie finie et non stationnaire. Sa
structure est complexe et variable avec le temps. Sa composition, figure 2, est la suivante :
 | Pseudo-périodique (D) : sons voisés; |
 | Aléatoire (A) : sons fricatifs; |
 | Impulsionel (C) : phase explosive des sons occlusifs. (B est du bruit) |

Figure 2: Représentation temporelle du
signal acoustique de la parole.
Une manière aisée de décrire le signal acoustique est d'utiliser une représentation
sous forme de spectrogramme (les termes couramment employés de Sonagraph et Sonagram
sont des marques déposées), comme dans la figure 3.
Le spectrogramme est une représentation tridimensionnelle, où le temps est
représenté sur l'axe X, la fréquence sur l'axe Y et le niveau de chaque fréquence, sur
l'axe Z, est symbolisé par le niveau de noir. Cette analyse temps-fréquence, d'abord
réalisée de manière analogique à l'aide de bancs de filtres, est maintenant réalisée
de manière numérique par TFR. Elle sera détaillée dans le chapitre consacré aux
outils danalyse et de traitement du signal.

Figure 3. Spectrogramme de
"Samedi".
Retour au début du
document
2.
Structure des voyelles en français.
Un des traits caractéristiques des voyelles, lorsqu'on les observe dans le domaine
spectral, est la présence de formants, c'est à dire de bandes de fréquence dont
l'énergie est particulièrement élevée. Dans le spectrogramme, les formants
apparaissent sous la forme de bandes sensiblement parallèles à labscisse.
Chez un locuteur masculin, tous les formants sont inférieurs à 5000 Hz. Si les
formants F1 et F2, voire F3, sont bien marqués, les formants F4 et F5 sont plus
difficiles à retrouver dans le spectre. Ils peuvent dailleurs être regroupés en
un pic unique et intense pour la voix chantée.
Il apparaît parfois, surtout pour les voyelles de faible intensité, un formant vers
200 Hz (le formant glottal) dont on ne tient pas compte.
Les voyelles sont souvent représentées positionnées sur un plan, dont les axes sont
les formants F1 et F2. Elles tracent alors un triangle dont les extrémités sont
occupées par les voyelles "extrêmes", c'est-à-dire [a], [u], [i].
Ce triangle représente également, de manière assez grossière, les positions de la
langue dans la bouche selon deux axes :
 | Antérieur à postérieur; |
 | Fermé à ouvert. |
Les différents traits acoustiques, aussi bien pour les voyelles
que pour les consonnes, peuvent servir de paramètres
pour une reconnaissance [GAL 90] et [JUN 90].
Retour au début du
document
3. Les
consonnes en français.
Les consonnes peuvent être rangées en trois
catégories:
3.1. Les occlusives.
Les occlusives sont caractérisées par un silence provenant de la fermeture complète
du conduit vocal (occlusion) en un point précis. Ce point docclusion peut
être :
 | les lèvres (labiale) pour [b] et [p]; |
 | les dents (dentale ou post-dentale) pour [t] ou [d], elles sont dites
alvéolaires; |
 | le palais (palato-vélaire ou vélaire) pour [k] ou [g]; |
La durée du silence, influencée par lentourage phonétique et par le débit de
parole, est comprise entre 50 et 120 ms.. Mais ce silence peut ne pas être total (dans le
cas des occlusives sonores) car il peut se former une " barre de
voisement ", est produite par une vibration des cordes vocales. Cette barre, de
faible énergie, est concentrée dans les basses fréquences (100 à 300 Hz).
La fin de locclusion provoque une perturbation acoustique, sous la forme
dune onde de pression due au relâchement de lair qui était comprimé par
locclusion. Cette perturbation est de courte durée (5 à 35 ms) mais peut être
intense (sauf dans le cas des occlusives sonores).
Il peut exister une zone avec du bruit de friction. La durée de cette zone est liée
au lieu où se produit locclusion. Elle sera brève pour les labiales, en raison de
la vélocité des lèvres, et plus longue pour les vélaires car la partie postérieure de
la langue est moins agile.
Le passage dune consonne à une voyelle, ainsi que létape inverse, produit
des transitions formantiques, cest à dire des variations dans la position des
formants.
3.2. Les fricatives.
Les fricatives (ou constrictives), sont des bruits produits par lécoulement
turbulent de lair. Lorsque cet écoulement rencontre un rétrécissement, un lieu de
constriction, il se produit un bruit de friction.
Sur un spectrogramme, le bruit de friction apparaît
comme une zone diffuse. Elle est localisée :
 | Entre 4 et 8 kHz pour les consonnes [s] ou [z]; |
 | Entre 1,6 et 7 kHz pour les consonnes [ò] ou [z ], avec deux concentrations vers 2 et
4,5 kHz. |
 | Sous forme de formants de bruits vers 3, 5 et 8 kHz pour [f] et [v]. |
3.3. Les sonnantes.
Les consonnes sonnantes (cest à dire les liquides, les nasales et les
semi-consonnes) présentent la particularité de posséder des formants et peu ou pas de
bruit.
Retour au début du
document
|