TP Spé SPC – Synthèse musicale – Reconnaissance vocale

TP Spé SPC – Synthèse musicale – Reconnaissance vocale

I/Les synthétiseurs :

a)Qu'est-ce qu'un synthétiseur ?

Un synthétiseur est un instrument de musique qui produit des sons électroniquement. Il peut copier les sons d'instruments traditionnels, mais aussi créer des sons artificiels. Le son, crée par des circuits appelés oscillateurs, est mis en forme par d'autres circuits appelés filtres. Le développement de l'électronique et de l'informatique a permis de construire des appareils de plus en plus performants. Aujourd'hui, les synthétiseurs sont digitaux : ils emmagasinent et produisent des sons dans des arrangements complexes, grâce à un code analogue à celui qu'emploient les ordinateurs, ce qui donne des possibilités extrêmement étendues.

b)Paramètres caractérisant un son :

On peut distinguer 3 parties :

-l'attaque

-le corps

-l'extinction

L'ensemble est « entouré » d'une enveloppe .

c)Schéma de principe d'un synthétiseur :

Enumérons les modules de base d'un synthétiseur :

-l'oscillateur VCO (Voltage Controlled Oscillator) , ou oscillateur contrôlé par la tension. Son but est de générer une onde riche en harmoniques . Un microprocesseur peut faire office de VCO.

-l'oscillateur LFO (Low Frequency Oscillator) ou oscillateur basse fréquence . Celui-ci fonctionne dans une gamme de fréquences inaudibles. Par exemple , pour simuler un effet de vibrato , le LFO doit moduler à une certaine vitesse la fréquence du signal délivré par le VCO.

-le VCA (Voltage Controller Amplifer ) sert à amplifier le signal.

-les filtres : permettre de sélectionner du signal initial délivré par l 'ensemble VCO/LFO , certaines fréquences caractéristiques du son à produire. Parmi les différents filtres , on distingue : le filtre passe-haut , le filtre passe-bas , le filtre passe-bande, le filtre coupe-bande .

-le générateur d'enveloppe

Le schéma d'ensemble ci-dessous :

En résumé ,les oscillateurs électroniques du synthétiseur produisent des sons purs aux caractéristiques sonores variables : sinus, carré, sinusoïdale, dents de scie... Puis, ils sont mis en forme par des filtres électriques pour imiter un instrument de musique existant. Il faut ensuite recréer l'enveloppe du son que l'on veut imiter : l'amplitude augmente, se maintient puis décroît au cours du temps. On utilise pour cela un générateur d'enveloppe. Pour finir, il faut amplifier, à l'aide d'un amplificateur, la tension obtenue avant de l'appliquer à un haut parleur pour obtenir l'intensité du son désiré.

d)Méthodes de synthèse

Diverses méthodes sont utilisées pour le fonctionnement de ces synthétiseurs :

-la synthèse soustractive consiste à filtres les signaux riches en harmoniques. L'élément le plus important est le filtre : il ne laisse passer que les fréquences nécessaires au son que l'on veut produire.

-synthèse par modulation de fréquence:On fait varier la fréquence d'une onde périodique (la porteuse) en fonction de l'amplitude d'une autre onde appelée moduleuse. Ce type de synthèse est utilisé par bon nombre de cartes sonores pour micro-ordinateurs .

-synthèse additive : elle utilise le théorème de Fourier . On réalise la somme de signaux sinusoïdaux. Plus simple du point de vue théorique que la théorie soustractive, elle est plus difficile à mettre en œuvre .Elle nécessite des systèmes dont la puissance de calcul est importante.

-la lecture d'échantillons : le synthétiseur lit les échantillons de sonorités stockées dans la machine. Pour les plus perfectionnés , mais chers, on peut avoir un échantillon par touche de clavier.

-la synthèse par modélisation virtuelle : l'instrument dont on veut produire les sons est modélisé sous forme de calculs mathématiques . Il est recalculé en permanence dans son intégralité. Les calculs prennent en compte , le type d'instrument, la pression , l'énergie produite par l'instrument etc...

Cette technique nécessite une puissance de calcul relativement importante.

II/Les effets sonores :

Lancer Audacity et ouvrir le fichier «flute de pan 10 cm »

Utiliser les filtres Amplification – Egalisation – Changement de tempo- changement de hauteur- inverser sens- wahwah.

Appliquer un à un ces filtres indiqués

Q1)Représenter le signal de l'original

Q2)Représenter les signaux obtenus après filtrage pour chacun des filtres utilisés. Indiquez quelles sont les caractéristiques modifiées par rapport à l'original

III/reconnaissance vocale

a)Principe

La voix peut être décomposée en une suite de sons distinctifs appelés phonèmes. Les mots « lait » et « loup » par exemple, diffèrent par un phonème respectivement repéré en alphabet phonétique par [e] et [u]. Le repérage des phonèmes est l'une des étapes de la reconnaissance vocale.

Le spectre du sont correspondant à un phonème fait apparaître plusieurs pics appelés formats

Ils sont dus à des phénomènes de résonance à l'intérieur du conduit vocal ; leur fréquence dépend de la position des divers organes mis en jeu dans dans la voix (langue , lèvres etc...)Les formats sont caractéristiques du phonème prononcé . Ces formats sont repérables sur un spectrogramme .

Les analyses spectrales montrent que quatre à cinq formats importants sont présents dans tous les spectres de voix.

Ci-dessus , le signal temporel correspndant à aux sons « a , e, i ,o ,u » . Ci-dessous le spectrogramme correspondant obtenu avec Audacity

Les zones blanches correspondent aux formats pour chaque son .

Q3)Des cinq sons quel est celui qui un format plus élévé en fréquence que les autres ?

b)Acquisition libre et spectogramme :

Avec Audacity et le micro réaliser une acquisition brève .

Q4)Rassembler dans une page word en utilisant « ultrasnap » :

- le signal temporel enregistré

- son spectrogramme

c)schéma de principe de la reconnaissance vocale : voir livre page 83

IV/Exercice :

Les logiciels de reconnaissance vocale utilisent une analyse spectrale du signal numérique associé au son. Le spectrogramme d'un mot (figure 1) est comparé à une table de formats (fig 2).

Le premier format (F₁) est déterminé par la position de la mandibule, le deuxième (F₂) par celle de la langue et des lèvres et le troisième (F₃) par celle des lèvres .

a)Expliquer pourquoi, une conversion analogique-numérique doit être réalisée.

b)Déterminer les fréquences des formats aux dates t=0,3 s, t=0,5 s et t=0,7 s.

c)En déduire les voyelles correspondantes (fig 2).

Il existe plusieurs types de consonnes réparties en trois groupes : les fricatives , les occlusives et les vocaliques. Lors de la prononciation d'une occlusive (b,p,d,g...) le conduit phonatoire est brièvement fermé, un silence est donc visible. Le son engendré par une fricative ( s,f,v....) est turbulent et riche en hautes fréquences. Les vocaliques (r,l,m,n...) ont une structure formantique.

d)justifier que les trois consonnes appartenant au mot prononcé peuvent être m,s et d.

e)En déduire le mot prononcé.

Enfin , il faut que l'ordinateur reconnaisse le mot prononcé dans son dictionnaire.

f)Justifier qu'il est nécessaire de procéder à plusieurs enregistrements avant d'utiliser un logiciel de reconnaissance vocale .

g)Enoncer les difficultés rencontrées lorsque le logiciel retranscrit ce qui a été dit.

Spé SPC – Synthèse musicale – Reconnaissance vocale - Correction

1)Original : flute de pan 10 cm

2)* Après amplification :

*Après égalisation :

*Changer le tempo

*changer la hauteur

*inverser sens

*wahwah

3) C'est le « i » qui a un format plus élevé que les autres

4)le mot prononcé« chopinet »

- signal temporel

-sonogramme :