Objets Sonores: Une Représentation Bio-Inspirée Hiérarchique Parcimonieuse À Très Grandes Dimensions Utilisable En Reconnaissance; Auditory Objects: Bio-Inspired Hierarchical Sparse High Dimensional Representation for Recognition
OOBJETS SONORES: UNE REPRÉSENTATION BIO-INSPIRÉE,HIÉRARCHIQUE, PARCIMONIEUSE À TRÈS GRANDES DIMENSIONSUTILISABLE EN RECONNAISSANCE
Simon Brodeur et Jean Rouat
[email protected], [email protected] de recherche en Neuroscience Computationelle et Traitement Intelligent des Signaux (NECOTIS)Département génie électrique et génie informatique, Université de Sherbrooke, Sherbrooke QC Canada J1K 2R1
ABSTRACT
The emphasis is put on the hierarchical structure, independence and sparseness aspects of auditory signalrepresentations in high-dimensional spaces, so as to define the components of auditory objects. The conceptof an auditory object and its neural representation is introduced. An illustrative application then follows,consisting in the analysis of various auditory signals : speech, music and natural outdoor environments. Anew automatic speech recognition (ASR) system is then proposed and compared to a conventional statisticalsystem. The proposed system clearly shows that an object-based analysis introduces a great flexibility androbustness for the task of speech recognition. The integration of knowledge from neuroscience and acousticsignal processing brings new ways of thinking to the field of classification of acoustic signals.
SOMMAIRE
L’accent est placé dans cet article sur la structure hiérarchique, l’aspect parcimonieux de la représentationde l’information sonore, la très grande dimension des caractéristiques ainsi que sur l’indépendance des ca-ractéristiques permettant de définir les composantes des objets sonores. Les notions d’objet sonore et dereprésentation neuronale sont d’abord introduites, puis illustrées avec une application en analyse de signauxsonores variés : parole, musique et environnements naturels extérieurs. Finalement, un nouveau système dereconnaissance automatique de parole est proposé. Celui-ci est comparé à un système statistique convention-nel. Il montre très clairement que l’analyse par objets sonores introduit une grande polyvalence et robustesseen reconnaissance de parole. Cette intégration des connaissances en neurosciences et traitement des signauxacoustiques ouvre de nouvelles perspectives dans le domaine de la reconnaissance de signaux acoustiques.
L’organisation du système auditif reflète les structuresdes signaux sonores. L’accent est placé dans cet article surune proposition de représentation par objets sonores qui viseà intégrer certaines connaissances de la physiologie et de laperception dans la conception des objets sonores.
Quels sont les structures et objets sonores à percevoir ?Comment ces structures ou objets sont-ils identifiés par lesystème auditif ? Comment mettre en oeuvre des systèmesde classification ou de reconnaissance capables d’extraire oude reconnaître les objets sonores ? Toutes ces questions sontencore ouvertes et non résolues, cependant, plusieurs obser-vations physiologiques et psycho-acoustiques permettent decirconscrire les réponses potentielles par l’élaboration de mo-dèles. Une fois les réponses circonscrites, il est intéressantde confronter ces modèles avec les outils des traitements designaux, de la théorie de l’information et de l’intelligenceartificielle, afin d’affiner notre compréhension de la percep-tion d’objets sonores et de leur représentation. Par cet ar-ticle, nous répondons partiellement en proposant une repré- sentation simple des objets sonores et nous indiquons com-ment il est possible d’utiliser les connaissances des neuros-ciences pour proposer un modèle de traitement des sons afinde réaliser une analyse des signaux qui conduit à une recon-naissance robuste et immunisée contre les perturbations ex-térieures. Nous posons l’hypothèse que l’architecture du sys-tème auditif est aussi liée à la structure des objets sonores,c’est-à-dire que l’évolution a fait en sorte que les structuresrespectives des objets sonores et l’architecture du système au-ditif sont intimement liées. Nous pouvons alors transférer unepartie des connaissances des neurosciences vers le traitementdu signal pour élaborer de meilleurs systèmes.
Un objet (ou entité) est une structure indépendante (auto-nome) dont les composantes sont liées ensemble comme fai-sant partie d’un même objet. Il est donc possible de manipu-ler les objets indépendamment les uns des autres. Cependant,une modification sur une composante aura un impact sur tousles objets élaborés à partir de cette composante. Nous consi-dérons les objets sonores qui ne peuvent être observés direc-tement dans le signal acoustique en raison de son caractèrespatio-temporel multi-échelle. À priori, une segmentation di- a r X i v : . [ c s . S D ] N ov ecte du signal continu introduira des erreurs d’estimation desobjets sonores. En effet, les objets sonores ne sont séparablesqu’une fois leurs caractéristiques perceptives obtenues. La sé-paration ne peut se faire que dans l’espace de la représentationauditive.Notre environnement sonore est constitué d’éléments(composantes) que nous pouvons considérer comme indépen-dants, mais qui peuvent être assemblés (et donc liés) pourcréer un objet, une partie d’objet ou une entité de niveau supé-rieur. Ces objets (ou entités) peuvent alors être manipulés defaçon unitaire et indépendamment les unes des autres. Un en-vironnement sonore est donc le résultat de la combinaison decomposantes élémentaires (construites indépendamment lesunes des autres, avec éventuellement des contraintes externesde conception) qui sont ensuite assemblées et liées pour créerdes objets plus complexes. Au sein de ces objets, les compo-santes élémentaires sont liées tandis que les objets qui sontcette fois-ci plus complexes peuvent être indépendants.Nous postulons aussi que ces parties élémentaires contri-buent significativement à la perception sous forme d’évène-ments acoustiques de type ONSET, OFFSET, clics, ou d’uni-tés plus stables de type modulations en amplitude (AM) ouen fréquence (FM), etc. L’état des connaissances actuellesne permet pas de connaître à priori de façon exacte ces par-ties élémentaires, donc nous tentons de les approcher. Unmême évènement sonore, c’est-à-dire dont les caractéris-tiques spatio-temporelles sont données, peut évoquer une per-ception différente suivant le bagage culturel et linguistiqued’une population de personnes (e.g. occident, orient, languestonales) ainsi que le contexte acoustique. Il est donc logiquepour le concepteur de systèmes de reconnaissance de signauxacoustiques d’élaborer une stratégie permettant d’adapter larecherche de ces unités acoustiques élémentaires en fonctiondu contexte de l’utilisation du système. Une fois ces unitésélémentaires trouvées il sera possible de les utiliser pour bâtirles représentations plus complexes des objets que nous sou-haitons rechercher dans le signal.Nous intégrons dans le système proposé une rechercheautomatisée des unités élémentaires, puis de leur organisa-tion afin de générer des objets sonores composés d’une orga-nisation hiérarchisée des unités élémentaires. Nous donnonsci-dessous la démarche qui nous permet de procéder ainsi. Comment trouver ces unités ne connaissant pas à priorileurs formes ni leurs caractéristiques exactes, mais en dis-posant toutefois d’une quantité suffisante de signal acous-tique ? Dans ce contexte, il n’est pas possible d’utiliser unetechnique d’apprentissage utilisant des données à priori éti-quetées (puisque les caractéristiques exactes de ce que nouscherchons ne sont pas connues). De plus, le nombre à priori de ces unités élémentaires n’est pas connu. Nous indiquonsci-dessous comment la connaissance du système auditif nousa orientés vers la solution choisie et qui permet de contournerces difficultés. Pour cela nous exploitons des caractéristiquesconnues du cerveau :1. L’accroissement de l’indépendance des activités neuro-nales lorsque l’on se déplace le long du chemin auditif,des noyaux périphériques vers le cortex auditif [1] ;2. L’organisation hiérarchique du système auditif ;3. La parcimonie neuronale et la très grande dimensionna-lité des caractéristiques [2].
Champs récepteurs et unités élémentaires
D’une certaine façon, le champ récepteur d’un neuronepeut représenter une unité élémentaire acoustique (en réalitéplusieurs neurones travaillant ensemble peuvent être interpré-tés en terme de champs récepteur). Plusieurs auteurs consi-dèrent d’ailleurs qu’il y a analogie entre le filtre adapté ( mat-ching filter ) et l’opération de filtrage et de reconnaissance réa-lisée par un neurone. On peut citer par exemple le travail deDaniel L. Alkon [3] qui propose en 1990 un modèle de lamémoire basé sur les caractéristiques physiologiques de neu-rones de l’escargot. Ce modèle considère que le champ récep-teur d’un neurone s’adapte de façon à apprendre les relationsde corrélations et d’anti-corrélations entre ses entrées et sasortie. Le neurone est alors en mesure de ne répondre qu’àdes configurations spécifiques de potentiels d’actions sur sesentrées. Ce thème a d’ailleurs orienté bon nombre de travauxde recherches actuels du domaine des neurosciences compu-tationnelles. On peut citer au niveau du système auditif les tra-vaux de l’équipe de Jos Eggermont [4] et de Shamma [5, 6],qui considèrent le lien de corrélation entre stimuli et champsrécepteurs spatio-temporels de neurones. Bref, le champ ré-cepteur d’un neurone auditif peut-être considéré comme étantéquivalent en terme de traitement des signaux à une fonctiondite de base [5]. Ceci est aussi appuyé par les travaux de Le-wicki [7, 8] au début des années 2000, qui constate que lareprésentation optimale des sons naturels passe par une pro-jection de ceux-ci sur des bases dont la forme se rapprochedes réponses des filtres cochléaires de l’audition [9]. Il estd’ailleurs intéressant de constater que les psycho-acousticiensavaient observé ce type de réponse dès le milieu des années1970 (e.g. [10]) et que ces mêmes réponses ont ensuite pu êtreobtenues uniquement à partir de critères d’optimisation de lareprésentation des sons [8].Par ailleurs, il est connu depuis la fin des années 1980que l’organisation des champs récepteurs est sur-complèteet que les neurones sont organisés en couches de caractéris-tiques spécifiques dans le noyau cochléaire [11], pour le co-dage de l’information en modulation d’amplitude dans le col-liculus inférieur[12, 13] et dans le cortex [14]. D’une certainefaçon, les champs récepteurs peuvent être interprétés commeétant des bases parcimonieuses organisées de façon hiérar-chique pour une représentation adaptée aux signaux auditifs.l est possible d’exploiter cette architecture pour proposer denouvelles façons de représenter les signaux sonores [15]. As-sez tôt, il a été proposé de trouver automatiquement des basessurcomplètes en tenant compte du fait qu’il devrait y avoirune indépendance statistique entre les bases [16].En résumé, on peut poser l’hypothèse que les bases sontindépendantes et perceptivement significatives, et que l’ana-logie avec les champs récepteurs de micro-circuits neuronauxdu système auditif est possible. En utilisant ces critères, il serapossible de représenter les éléments ou parties d’objets so-nores et permettre la conception d’un algorithme de rechercheautomatique de ces bases. En effet, les techniques actuellesen traitement des images disposent de plusieurs outils utili-sables pour la recherche et le traitement d’objets sonores. Parexemple l’analyse en composante indépendante (ICA) [17]permet de trouver des bases indépendantes et la factorisationen matrice non négative (NMF) [18, 19] des parties d’imagesqui sont interprétables visuellement.
Hiérarchie du système auditif
Un autre aspect très important à prendre en comptedans le traitement des sons est l’organisation très hiérarchi-sée du système auditif [20]. Il comprend de l’ordre de 7 à8 noyaux nerveux traversés par l’information sonore avantde parvenir au cortex auditif. De plus, certains noyaux ner-veux (e.g. le noyau cochléaire et le colliculus inférieur) sontaussi hiérarchisés. Cette organisation permet de prendre encompte le contexte acoustique [21], soit la distribution spatio-temporelle des objets sonores. Elle permet aussi d’analyserde façon multi-échelle le signal acoustique, d’accroître larobustesse aux interférences et d’introduire une invariancedans la “forme” de la représentation multi-échelle et spatio-temporelle des objets sonores. De plus, une représentationmentale d’un objet sonore pourrait être élaborée par appa-riement de différentes couches (ou groupes) de neurones. Cetappariement pourrait se faire par synchronie des déchargesdes neurones ( binding ). Ceci est d’ailleurs analogue à ce quiest observé dans le système visuel. L’hypothèse y est faiteque la représentation mentale d’un objet puisse être le résul-tat de synchronie des décharges de sous groupes de neurones,chacun des sous-groupes représentant des caractéristiques ouparties différentes des objets [2, 22].Le présent article présente une solution possible quiprend en compte la représentation objet des signaux telle quenous l’avons évoquée. Nous regardons maintenant commentla parcimonie et la très grande dimensionnalité des représen-tations peuvent être intégrées au traitement des signaux so-nores.
Peu de neurones sont actifs en même temps et leur ré-ponse est parcimonieuse. Ceci est une conséquence indirectedu nombre considérable de neurones [2], qui conduit à uneparcimonie spatiale. De plus, le premier neurone à répondrerapidement suite à la présentation d’un stimulus est celui quiencode et caractérise le mieux le stimulus. Il n’est alors pasnécessaire d’attendre la réponse des autres neurones [23] et laparcimonie est alors aussi temporelle [24]. En raison de cetteparcimonie spatiale et temporelle, le codage de l’informationrepose sur des évènements discrets (décharges des neurones)distribués dans un espace à très grande dimensionnalité (i.e.où chaque neurone correspond à une dimension). Cet aspectest aussi pris en considération dans le système de reconnais-sance qui est proposé à l’aide d’un codage binaire des carac-téristiques.
La vaste majorité des systèmes contemporains de recon-naissance/classification des signaux utilise le même type decaractéristiques pour représenter les signaux. Il s’agit des co-efficients cepstraux sur l’échelle de Mel (MFCC) [25]. Leurutilisation est motivée par le fait que l’échelle des fréquencesy est transformée en échelle Mel afin de reproduire la distri-bution des bandes critiques de l’oreille. Par ailleurs, la trans-formation en cosinus appliquée sur le logarithme du spectred’amplitude, pour obtenir ces coefficients, reproduit dans unemoindre mesure les patrons de connectivité par inhibition la-térale tels qu’ils pourraient exister au niveau du noyau co-chléaire. L’opérateur de logarithme permet ici la séparationentre la source glottale et le conduit vocal. Mais le plus grandatout des MFCC est sans aucun doute le fait qu’en raison dela transformation en cosinus, ceux-ci sont relativement dé-corrélés, ce qui permet de meilleures performances lorsque lesystème de reconnaissance est basé sur les distributions sta-tistiques des MFCC (e.g. les systèmes à base de chaînes deMarkov [26]).De nouvelles architectures ont émergé depuis les der-nières années, avec des résultats prometteurs. Ces nouveauxsystèmes sont organisés de façon hiérarchique et mettentl’accent sur l’obtention de caractéristiques plus proches despropriétés perceptives du signal acoustique. On peut donnercomme exemple [27, 28, 29, 30]. Encore plus récemment, ila été démontré que la recherche de caractéristiques par l’uti-lisation d’architectures de réseaux de neurones à rechercheprofonde (Deep Belief Neural Networks, [31]) offre un poten-tiel supérieur aux systèmes de reconnaissance communémentutilisés pour la parole spontanée. Le présent travail s’inscritplutôt dans ce contexte.
APPROCHE PROPOSÉE
Nous proposons une nouvelle architecture qui prend encompte les points développés aux sections précédentes afind’extraire une représentation des objets sonores qui respecteles propriétés importantes connues du système auditif. Nousle faisons en intégrant à la démarche des outils développésinitialement pour le traitement des signaux et d’images afinde trouver, dans un premier temps, les bases surcomplètes quiseront équivalentes à des champs récepteurs placés à des ni-veaux hiérarchiques différents. Nous présentons une premièreexpérience qui montre que la technique permet d’extraire ef-fectivement des bases parcimonieuses caractéristiques des si-gnaux utilisés durant l’apprentissage. Ensuite nous effectuonsune reconnaissance de parole à l’aide de représentations par-cimonieuses et de grandes dimensions. Dans notre cas, lagrande dimension des données nous permet de travailler avecun codage binaire, ce qui permet d’accroître grandement larapidité du traitement. Nous introduisons alors une reconnais-sance à base de distributions de Bernoulli, adaptées à ce typede caractéristiques. Tous ces éléments permettent d’élaborerun système de reconnaissance de parole innovant.Dans cette approche, les composantes élémentaires desobjets sont les bases qui ont été trouvées pour le premierniveau hiérarchique. Les parties d’objets sonores (i.e. com-posantes complexes) sont représentées par les niveaux hié-rarchiques supérieurs. Les objets ou parties d’objets sont re-présentés par des vecteurs dont les composantes sont bi-naires. Chaque coordonnée d’un vecteur objet (ou vecteur“partie d’objet”) correspond à une composante particulière.Ces composantes sont soit élémentaires (premier niveau de lahiérarchie), soit complexes (dernier niveau). Une composante(ou partie d’objet) est considérée comme appartenant à un ob-jet sonore si la coordonnée du vecteur qui lui est associée estdifférente de zéro.Pour ce travail, l’accent est mis sur l’obtention de re-présentations objets à partir de caractéristiques dérivées desenveloppes des signaux cochléaires. Ceci permet de capturerde façon générique les formes les plus courantes de modu-lation en amplitude (AM) et en fréquence (FM), ainsi queles transitoires et les configurations de formants. La repré-sentation d’entrée aux systèmes qui sont étudiés est le co-chléogramme (illustré à la figure 1, page 4). On cherchera àexploiter l’information contenue dans les différents patronsde modulation spectro-temporelle locale pour caractériser lesobjets sonores. Dans la suite de l’article, un traitement parblocs/fenêtres et la prise en compte de l’aspect spatial réfé-reront au fait que le cochléogramme sera interprété commeétant une image, par sa nature bidimensionnelle (i.e. repré-sentation temps-fréquence). C ana l Temps [ms] F r équen c e [ k H z ] F IGURE seven par un locuteur homme. Chaquecanal correspond à la sortie d’un filtre cochléaire passe-bande etexpose les caractéristiques de modulation temporelle propre à unebande de fréquence. Les paramètres des filtres sont dérivés d’ob-servations neurophysiologiques de la cochlée et d’observations psy-choacoustiques, favorisant une plus grande résolution temporelleque spectrale.
La formulation mathématique de la projection hiérar-chique est la suivante : soit S ( h ) un ensemble de n signauxde dimension N , en entrée au niveau hiérarchique h , i.e. S ( h ) = [ s . . . s n ] ∈ (cid:60) N × n . Soit D ( h ) un dictionnaire de K bases de dimension N , au niveau hiérarchique h , i.e. D ( h ) =[ d . . . d K ] ∈ (cid:60) N × K . La dimension N peut varier selon leniveau de la hiérarchie pour effectuer une réduction de dimen-sion, ou une expansion pour obtenir une représentation sur-complète. La projection des coefficients d’entrée de l’étageinférieur sur le dictionnaire produit un nouvel ensemble decoefficients C ( h ) = [ c . . . c n ] ∈ (cid:60) K × n , comme montré àl’équation (1) et valide pour h > . La pseudo-inverse gé-néralisée (Moore–Penrose) permet d’approximer (cid:0) D ( h ) (cid:1) − ,car D ( h ) est une matrice rectangulaire. Pour éviter les pro-blèmes d’instabilité numérique, la pseudo-inverse (cid:0) D ( h ) (cid:1) + sera toutefois calculée par décomposition en valeurs singu-lières [32], plutôt que la forme directe d’optimisation au sensdes moindres carrés. La transposée du dictionnaire est définiepar D ( h ) T . C ( h ) = (cid:16) D ( h ) (cid:17) + · S ( h − = (cid:16) D ( h ) T D ( h ) (cid:17) − D ( h ) T · S ( h − pour tout niveau abstrait, où h > (1)a projection hiérarchique possède un aspect spatial,où les fenêtres adjacentes sont concaténées et le vecteur ré-sultant projeté sur l’étage supérieur. La reformulation se-lon les coordonnées ( i, j ) dans le référentiel local pourchaque étage est donnée à l’équation (2). Au premier niveau h = 0 , les signaux d’entrée correspondent à des fenêtres W ( i,j ) ∈ (cid:60) L C × L T distribuées spatialement sur la représenta-tion spectro-temporelle, et converties sous forme de vecteurscolonnes X ( i,j ) ∈ (cid:60) L C · L T . Les constantes L C et L T cor-respondent respectivement au nombre de canaux et d’échan-tillons temporels couverts par chaque fenêtre. Pour tout ni-veau h > , la projection est appliquée sur la concaténationdes coefficients des projections du niveau inférieur h − . Lesconstantes M ( h ) et N ( h ) correspondent au nombre de fenêtresde projection adjacentes considérées respectivement sur l’axefréquentiel et temporel. C ( i,j )( h ) = D +(0) · X ( i,j ) si h = 0 , D +( h ) · (cid:107) M ( h ) − i =0 (cid:107) N ( h ) − j =0 C ( i,j )( h − si h > . (2)Le symbole (cid:107) définit l’opération de concaténation sur P matrices de coefficients adjacentes : P − (cid:107) i =0 C ( i ) = (cid:2) C ( i ) C ( i +1) . . . C ( i + P − (cid:3) (3)La figure 2 montre plus intuitivement l’aspect spatial decette projection. Par souci de simplicité, le chevauchemententre les fenêtres n’est pas illustré.La projection hiérarchique permet aussi d’allouer un plusgrand contexte temporel ou spectral selon le fenêtrage et lechevauchement choisi. Pour éviter les discontinuités causéespar le fenêtrage initial W ( i,j ) au niveau du cochléogramme, ilest possible d’introduire un chevauchement temporel et spec-tral. Ceci permet de mieux couvrir les caractéristiques du si-gnal avec un nombre limité de bases, au profit d’une représen-tation de sortie contenant plus de coefficients et où certainesdimensions peuvent devenir fortement corrélées. La qualité des bases obtenues par l’algorithme d’appren-tissage non-supervisé du dictionnaire D ( h ) pour chacun desétages h est ultimement mesurée par l’effet sur la perfor-mance par exemple d’un système de classification. Toute-fois, l’interprétation visuelle des bases (i.e. caractéristiquesspatio-temporelles extraites) est pourtant importante pour va-lider que la projection hiérarchique permet bien l’extraction F IGURE M ( h ) = N ( h ) = 2 pour h = { , } , soit la concaténation de 4 fenêtres adjacentes à chaque ni-veau. Les contours figuratifs des fenêtres sont montrés sur le co-chléogramme. Il est à noter qu’en réalité, les niveaux L1 et L2 necouvriront jamais plus que l’aire définie par le niveau L0 (en om-bragé). de structures complexes dans le signal. L’analyse en compo-santes indépendantes (ICA) [33] est une méthode de décom-position linéaire (voir Équation 1) favorisant une représenta-tion par objets d’un signal en forçant l’indépendance entreles composantes des objets. Cette décomposition définit desbases en se basant donc sur un critère de maximisation deleurs indépendances statistiques. Comparativement à l’ana-lyse en composantes principales (PCA), il s’agit d’un critèreplus strict que la décorrélation, car les moments d’ordres su-périeurs à 2 sont considérés. Pour cette raison, il y a contrainteque les composantes indépendantes doivent posséder une dis-tribution non-gaussienne.L’implémentation FastICA [34] a été utilisée pour les ex-périences. L’avantage principal est qu’il n’y a pas de méta-paramètres à choisir, comme une constante de régularisationdéfinissant le compromis entre la parcimonie (coefficients ouases) et l’erreur de reconstruction. Seule une fonction decontraste pour l’approximation de la néguentropie est requise,mais dont le choix n’est important que pour optimiser la per-formance de l’algorithme selon le type de non-gaussianitédes composantes [34]. En fait, tant qu’il y a critère de mi-nimisation de l’information mutuelle, les caractéristiques ex-traites seront localisées en temps et en fréquence si l’appren-tissage est effectué sur des sons naturels ou des signaux deparole [7, 35].Le problème d’estimation des sources par ICA devientplus complexe si le nombre de composantes indépendantesest supérieur au nombre de mixtures observées, car le pro-cessus de mélange est non-inversible en raison d’une perted’information [17]. Il s’agit de la situation où la représenta-tion est sur-complète. Pour la présente architecture, chaqueétage h de la hiérarchie produit un vecteur de coefficientsdont la dimension est inférieure à celle de la sortie de l’étageprécédent. Ceci est principalement dû à la concaténation desprojections adjacentes. Il s’agit alors du cas de représentationsous-complète. Un des avantages de cette situation est qu’enconsidérant l’aspect de parcimonie, il y a capacité inhérenteà classifier les signaux d’entrée [36]. Pour une tâche d’ex-traction de caractéristiques, il est alors possible de compres-ser l’information sans explosion du nombre de dimensions.Alternativement, une réduction de dimension des vecteursd’entrée est recommandée dans le cas de représentation sous-complète [37], mais l’utilisation de l’analyse par compo-santes principales (PCA) reste mitigée. Sachant l’ambiguïtéde ICA au niveau de la variance des composantes (i.e. assu-mée fixe à 1), les composantes indépendantes ne sont pas for-cément contraintes dans le sous-espace défini par PCA [38].La projection hiérarchique proposée vise avant tout à décom-poser le signal en composantes parcimonieuses, mais sans lacontrainte de devoir reconstruire le signal. Les différents pro-blèmes énoncés précédemment sont alors de moindre impor-tance comparativement à une application en codage de la pa-role. L’apprentissage non-supervisé permet d’obtenir une re-présentation naturellement adaptée au signal à modéliser oureconnaître. Peu d’effort manuel est alors requis dans le choixdes paramètres optimaux du système. Dans cette expérience,les types de bases obtenues lorsque l’apprentissage est ef-fectué sur des catégories de sons différentes (e.g. parole etmusique) ont été comparés. La base de données TIMIT [39]consistant en 330 minutes de parole continue (sous forme dephrases) a été utilisée pour la catégorie de parole. Pour lacatégorie de musique, 73 minutes de musique classique or-chestrale [40] ont été utilisées. Enfin, pour la catégorie dessons naturels, 60 minutes d’enregistrement d’une plage tropi-cale [41] et 60 minutes d’enregistrement d’une forêt de mon- tagne [42] ont composé la base de données d’apprentissagespécifique.
Un filtre de pré-accentuation découlant de la réponsespectrale observée physiologiquement chez l’humain [43]est d’abord utilisé pour rehausser les moyennes fréquences.Une analyse spectro-temporelle est ensuite effectuée par unbanc de filtres Gammatone [44]. Le banc de filtres aété corrigé pour le décalage de phase entre les canaux, cequi fait qu’une impulsion glottale produira une réponse ins-tantanée sur tous les canaux. La plage de fréquence cou-verte est de [0 , Hz ] et l’espacement des filtres est li-néaire sur l’échelle de Mel [45]. La largeur de bande desfiltres est grande pour privilégier la résolution temporelleà la sortie des canaux, qui favorisera une meilleure mo-délisation des transitoires tout en évitant la résolution dechacune des harmoniques lors des segments voisés. L’étapesuivante dans le calcul du cochléogramme est une rectifi-cation simple-alternance suivie d’une compression par uneracine cubique [46]. L’usage d’une compression fortementnon-linéaire offre l’avantage d’augmenter radicalement lecontraste entre les canaux de faibles amplitudes. Les modula-tions d’amplitude en moyenne et haute-fréquence (où l’éner-gie est souvent moindre) deviennent alors plus comparablesà celles en basse-fréquence. Finalement, un filtre Butterworthpasse-bas d’ordre 1, avec une fréquence de coupure à Hz,permet le lissage du spectre et réduit ainsi l’effet des impul-sions glottales sur les caractéristiques de modulation d’ampli-tude extraites par l’algorithme d’analyse en composante indé-pendante (ICA).Une intégration du contexte spatio-temporel permetd’extraire des caractéristiques de plus en plus complexes.Sans poser d’hypothèses sur la nature des composantes desobjets, mais en augmentant simplement le contexte spatialet temporel, des structures cohérentes et pertinentes sont ap-prises par les bases. Elles représentent des parties élémen-taires d’objets sonores. La figure 3 montre en quoi une projec-tion hiérarchique (sans chevauchement) exploite l’augmenta-tion du niveau d’abstraction, ce qui permet la considérationd’un plus large contexte spatio-temporel dans la représenta-tion d’un signal de parole.Pour cette expérience, les paramètres utilisés pour effec-tuer la projection hiérarchique sont les suivants : Le nombred’étages de projection égal à 3, la taille K du dictionnaire àchaque étage étant respectivement de 128, 256, et 256. Il y aun fenêtrage initial W ( i,j ) de L C = 16 canaux par L T = 40 ms, sans chevauchement. Le cochléogramme comporte 64 ca-naux avec une fréquence d’échantillonnage de 1000Hz. Il ya concaténation de M ( h ) = 2 blocs au niveau spectral, et N ( h ) = 3 bloc au niveau temporel. Cette configuration feraen sorte que le dernier niveau de projection couvrira ca-naux par ms. L’apprentissage non-supervisé du diction- iveau L3Niveau L2Niveau L1Niveau L0
16 40 ms32 80 ms64 160 ms 128canaux 320 ms === ++ + ... ... ...
Contextespectrotemporelétroitlarge
Décomposition linéaireDictionnaire F IGURE naire est effectué par analyse en composantes indépendantes(ICA). Les étages L0 et L1 sont entraînés avec 100,000 vec-teurs de coefficients, tandis que pour l’étage L2, le nombreest limité entre 20,000 et 50,000 vecteurs d’apprentissage.Connaissant le grand contexte temporel des bases de haut-niveau, le nombre d’exemples pour l’entraînement est ulti-mement limité par la taille spécifique de la base de données.L’entraînement des dictionnaires selon les étages de lahiérarchie est effectué de façon itérative, donc successive-ment du niveau L0 jusqu’au niveau L2. Ceci montre lescontraintes de dépendance avec les étages inférieurs.
Les bases obtenues après apprentissage modélisent bienles caractéristiques propres aux différentes catégories de sons, comme il est illustré à la figure 4 ( page 7). Peu importele type de sons, il y a représentation parcimonieuse du si-gnal à chaque étage (non montré). Cette propriété est éva-luée objectivement par la mesure de kurtosis (moment centréd’ordre 4) du vecteur de coefficients. Peu importe le type desons, il y a aussi représentation par objets du signal, commerévélée par une inspection visuelle et subjective des bases.Avec plus de données d’apprentissage pour chacune des ca-tégories, des bases supplémentaires de plus haut-niveau (i.e.plusieurs secondes) auraient pu définir des patrons de modu-lation spectro-temporelle encore plus complexe.
Niveau L2Niveau L1Niveau L0 (16x40 ms) (32x120 ms) (64x360 ms) (a) Parole isolée (TI46)(b) Musique classique (Vivaldi)(c) Nature (forêt tropicale et plage) F IGURE
EXPÉRIENCE 2 : RECONNAISSANCEDE MOTS ISOLÉS
Pour un système de reconnaissance de forme, il devraitidéalement y avoir un passage graduel de l’apprentissage non-supervisé à un apprentissage supervisé. Alors qu’une certaineambiguïté sur la nature du signal est permise pour l’étaged’extraction de caractéristiques, une décision stricte devraêtre prise à l’étage de classification. Dans cette expérience,une représentation dérivée de la projection hiérarchique estutilisée pour construire un système de reconnaissance de motsisolés basé sur une modélisation statistique par modèle deMarkov caché (HMM). La base de données TI46 [47] estcouramment utilisée pour tester les systèmes automatiquesde reconnaissance de type mots isolés et dépendant du lo-cuteur. La base de données contient seulement 46 classes (al-phabet, chiffres et commandes). On dispose de 16 locuteurs(8 hommes et 8 femmes) et de 26 prononciations par locuteurpar mot. Pour les ensembles d’entraînement et de test, on dis-pose respectivement de 10 et 16 prononciations par locuteur.Le partitionnement standard pour cette base de données a étéutilisé. Pour tester la capacité de généralisation, le systèmede reconnaissance est entraîné de façon à être indépendant dulocuteur.Le HMM est un modèle statistique générateur d’une sé-quence d’observations basé sur un espace d’états et une to-pologie de transitions [26], communément utilisé en recon-naissance de la parole. Un modèle de mot entier et une struc-ture gauche-droite à 16 états ont été utilisés pour chacune desclasses. Lors de l’évaluation d’un signal acoustique contenantun mot (mais dont l’identité reste à déterminer), le modèleayant le maximum de vraisemblance à avoir généré la sé-quence d’observations est retenu comme le mot prononcé leplus probable.
Les différents étages composant l’architecture propo-sée sont illustrés à la figure 5 (page 8), qui met l’emphasesur l’évolution de la dimension des représentations selon lesétages. Il y a explosion des dimensions à la sortie d’une pro-jection hiérarchique, mais la parcimonie de la représentationassure une activation restreinte à certaines dimensions seule-ment. Ceci permettra d’augmenter la robustesse au bruit dusystème, considérant de plus que les bases auront été adap-tées aux caractéristiques de la parole.Il doit être possible à chaque intervalle de temps F sous dans le signal de parole de définir un vecteur de caractéris-tiques multi-échelle pour la modélisation statistique (e.g. mo-dèle de Markov caché). La constante F sous est la fréquenced’échantillonnage du vecteur de caractéristiques correspon-dant à une observation discrète. La séquence d’observationsproduite sert ensuite d’entrée à l’étage de classification. La fi-gure 6 (page 9) illustre comment cette opération est effectuée Audio (1-dim)Cochléogramme (2-dim)Vecteur binaire (700-dim)Classe (46-dim)"UN", "DEUX" ... "NEUF""A", "B", "C", ... "Z""OUI", "NON", ... "
ARRÊTER "46 mots possibles:PrétraitementacoustiqueProjectionhiérarchique /seuillageClassi cateur(HMMs) F IGURE pour produire un vecteur binaire, parcimonieux et à grandedimension. La projection hiérarchique est efficace en termesde calculs dans le sens où des techniques de programmationdynamique permettent d’éviter le recalcul d’une même pro-jection (bloc ou fenêtre) si les mêmes coefficients sont utiliséspar plusieurs projections d’ordre supérieur.L’expression générale d’une modélisation acoustique parmodèle de mixture est donnée à l’équation (4). La densité deprobabilité p ( x ) découle de la contribution de M mixtures,décrites par une probabilité a priori p ( i ) et une vraisemblance p ( x | i ) . p ( x ) = M − (cid:88) i =0 p ( i ) p ( x | i ) (4)avec les contraintes M − (cid:88) i =0 p ( i ) = 1 et p ( i ) ∈ [0 ,
100 200 300 400 500 600 700
Low-pass filtering and resampling: RUBOUT
Niveau L0 Niveau L1 Niveau L2 seuillage ... ...
Di érencespatiale Di érenced'échelleDi érencede baseVecteur decaractéristiques t Contexte temporel sur cochléogramme seuillage seuillage F IGURE
Avec l’utilisation de représentations binaires parcimo-nieuses, les mixtures de gaussiennes (GMMs) ne sont plusadaptées pour la modélisation acoustique dans une archi-tecture HMM, car elles modélisent des variables aléatoirescontinues et non discrètes. Le cas d’une mixture de fonctionsgaussiennes multivariables à n-dimensions est défini à l’équa-tion (5). Les moments de premier ordre µ i = E ( X ) et dedeuxième ordre Σ i = Cov ( X ) paramétrisent chacune des M mixtures. p ( x | i ) = 1(2 π ) n | Σ i | e − ( x − µ i ) T Σ − i ( x − µ i ) (5)Les mixtures de Bernoulli (BMMs) offrent une alterna-tive appropriée pour construire un modèle générateur d’obser-vations binaires. Cette divergence par rapport aux systèmesconventionnels de reconnaissance de la parole permet de dé-finir un espace de paramètre, au niveau du modèle statis-tique, qui disposera des mêmes propriétés que la représen-tation d’entrée : les paramètres des mixtures seront de grandedimension et parcimonieux.Prenons le cas spécial d’une distribution de Bernoulli dedimension N , où les dimensions sont considérées comme sta-tistiquement indépendantes. La fonction de probabilité est dé-finie à l’équation (6), où x n ∈ { , } est l’élément à la dimen-sion n du vecteur binaire x de dimension N , et p i,n ∈ [0 , est le paramètre de la dimension n associé à la mixture i . Cedernier reflète intuitivement la probabilité moyenne d’avoirune activation positive (i.e. 1) sur une certaine dimension. p ( x | i ) = N (cid:89) n =1 p x n i,n (1 − p i,n ) − x n (6)L’entraînement des paramètres des mixtures et du mo-dèle markovien (e.g. probabilités de transitions) est fait parl’algorithme Expectation-Maximisation (EM). Comme lesparamètres p i,n correspondent à la probabilité moyenne d’ap-parition sur chacune des dimensions, la mise à jour est iden-tique à celle utilisée pour le paramètre de moyenne des mix-tures de gaussiennes. Pour un processus de Bernoulli mul-tivariable, on fait l’hypothèse d’indépendance statistique dechacune des dimensions. Dans le cas où les caractéristiquesd’entrée découlent d’une analyse par composantes indépen-dantes (ICA), cette hypothèse est réaliste.L’utilisation de mixtures de Bernoulli est relativementrare en reconnaissance de forme, et se concentre sur les tra-vaux de quelques chercheurs seulement. Les mixtures de Ber-noulli ont d’abord été investiguées pour la reconnaissanced’images binaires [48, 49, 50]. L’effet des paramètres initiauxsur la convergence a ensuite été étudié [51]. Finalement, l’in-tégration avec un HMM a été effectuée [50, 52], mais toujoursen reconnaissance d’image et non de parole.Les avantages des mixtures de Bernoulli dans l’applica-tion présente sont nombreux. Premièrement, les paramètresd’une mixture de Bernoulli définissent essentiellement desprototypes dont la visualisation/interprétation est facilementconcevable (surtout dans le cas du traitement d’image [e.g.48]). Deuxièmement, un processus de Bernoulli considèreseulement la moyenne, et ignore la variance. Il y a doncne meilleure convergence, car nul besoin de techniques deseuillage des paramètres des mixtures pour éviter la surspé-cialisation (i.e. variance nulle ou concentration autour d’uneseule observation). L’initialisation des paramètres est aussimoins susceptible à porter problème dans le cas des mixturesde Bernoulli, où quelques techniques simples permettentd’éviter les configurations pathologiques de paramètres [51].Enfin, la parcimonie dans l’espace des paramètres peut êtreforcée si le nombre de dimensions ou variables latentes estlarge, dans le cas d’un modèle générateur par variables la-tentes binaires [53]. Il y a donc un potentiel intéressant pourconserver la similitude avec les représentations d’entrée, quisont parcimonieuses et à haute-dimensionnalité.Pour l’extraction des caractéristiques, les paramètressont légèrement différents de l’expérience précédente portantsur l’émergence de bases non-supervisées pour diverses caté-gories de sons. La taille K du dictionnaire pour chacun des 3étages est respectivement de 64, 128, et 256. L’entraînementutilise maximalement 25,000 exemples de vecteurs de coef-ficient lors de l’apprentissage non-supervisé des bases avecl’algorithme d’analyse en composantes indépendantes (ICA).La fréquence d’échantillonnage F sous du vecteur de caracté-ristiques est de Hz. Il y a un fenêtrage initial W ( i,j ) de L C = 32 canaux par L T = 40 ms, avec de chevauche-ment temporel et spectral. Il y a concaténation de M ( h ) = 2 blocs au niveau spectral, et N ( h ) = 2 bloc au niveau tem-porel, avec un chevauchement de au niveau des blocsabstraits (i.e. pour h > ). Cette configuration fera en sorteque le dernier niveau de projection couvrira canaux par ms, donc de l’ordre de grandeur suprasegmental ou syl-labique. Pour l’apprentissage du modèle acoustique par mix-ture de Bernoulli à 8 composantes, 50 itérations de l’algo-rithme EM ont été effectuées. Chaque HMM possède une to-pologie gauche-droite à 16 états. L’influence de chaque méta-paramètre sur les taux de reconnaissance a été validée pourobtenir cette configuration optimale. L’étage d’extraction des caractéristiques le plus communen reconnaissance de parole et basé sur les coefficients ceps-traux sur l’échelle fréquentielle de Mel (MFCC) et de leursdérivées temporelles. Les paramètres utilisés ont été tirés dulivre de référence de la suite HTK [54]. Après un filtre depréaccentuation ( α = 0 . ) et un fenêtrage par Hamming dusignal d’entrée, une transformée de Fourier à court terme estappliquée. Les amplitudes spectrales sont alors projetées surl’échelle de Mel, consistant en des filtres triangulaires che-vauchants. Les logarithmes des amplitudes sont alors pris àla sortie du banc de filtres, puis une transformée en cosi-nus discrète est appliquée pour obtenir les coefficients ceps-traux. Seuls les premiers coefficients sont considérés, car ilsportent l’information grossière du profil spectral. Il y a re-haussement standard et normalisation de la moyenne des co-efficients cepstraux, puis calcul des dérivés premières (delta) et secondes (delta-delta). Le vecteur de caractéristiques pos-sède en tout 39 dimensions : 1 log-énergie, 12 coefficientscepstraux, 13 delta, 13 delta-delta. Intuitivement, les MFCCsmodélisent donc l’enveloppe spectrale et son évolution localeà chaque fenêtre de temps, par un vecteur dense à faible-dimensionnalité. Pour l’apprentissage du modèle acoustiquepar mixture de gaussiennes à 4 composantes, 50 itérations del’algorithme EM ont été effectuées. Chaque HMM possèdeune topologie gauche-droite à 16 états. L’influence de chaqueméta-paramètre sur les taux de reconnaissance a été validéepour obtenir cette configuration optimale.La base de données NOISEX-92 [55] a été utilisée poursimuler l’effet indésirable d’un bruit additif durant l’entraî-nement et l’évaluation des systèmes de reconnaissance. Lesbruits sont réalistes et non-stationnaires, sauf dans le cas dubruit blanc. L’entraînement en condition propre est effectuéavec les données originales non-bruitées. Pour l’entraînementmulti-condition, chaque fichier de parole de l’ensemble d’en-traînement original a été mélangé avec un des bruits utiliséspour l’ensemble de test. Le bruit est choisi aléatoirement pourchacun des fichiers, et le rapport signal-à-bruit (RSB) a étéfixé à 20 dB. Il ne s’agit donc que d’un faible niveau de bruit.Toutefois, l’ensemble d’entraînement contient maintenant del’information sur tous les bruits qui seront présentés avecl’ensemble de test, ce qui devrait réduire la disparité entrel’ensemble d’entraînement et de test. Dans ces conditions, demeilleures performances à bas rapports signal-à-bruit (RSB)sont attendues, car la variabilité induite par le bruit pourra êtremodélisée durant l’entraînement. L’entraînement d’un sys-tème de reconnaissance de parole avec un ensemble d’entraî-nement bruité permet de voir en quoi le système tire avantagede cette information additionnelle.Il n’existe pas à notre connaissance de travaux ayant uti-lisé toutes les 46 classes de la base de données TI46 pourévaluer les taux de performance de reconnaissance. Il est trèscommun que les sous-ensembles restreints TI-20 (20 classes),TI-ALPHA (26 classes), ou même seulement les chiffres (10ou 11 classes) soient utilisés. Un avantage est que l’utilisationdes 46 classes rend le problème de classification plus difficile,car la confusion entre les classes augmente. Une comparaisondirecte des performances avec la littérature est donc impos-sible. Toutefois, les configurations optimales ont été dérivéesindépendamment pour le système proposé et le système deréférence, ce qui assure une comparaison juste et sans biais.L’objectif est avant tout de démontrer la polyvalence du sys-tème proposé, en terme de robustesse, sur différents typesd’entraînement (i.e. avec ou sans bruit). Plusieurs techniquesd’optimisation (e.g. modèle de silence en début et fin de mot)pourraient être ajoutés aux deux systèmes dans le but d’aug-menter les taux de reconnaissance absolue. .3 Résultats Le système proposé (SPARSE) et le système de référence(MFCC) ont été évalués sur l’ensemble de données de testbruité après un entraînement en condition propre (voir Ta-bleau 1). On remarque une dégradation des performances deprès de (relatif) pour le système MFCC utilisé avec lebruit de conversation, lorsqu’on compare la condition de testpropre avec les différents bruits à un rapport signal-à-bruit(RSB) de 40 dB. Le système SPARSE est beaucoup plus ro-buste dans cette condition, avec une dégradation maximale de . (relatif). Pour l’intervalle de RSBs entre 10 dB et 40 dB,les performances de ce dernier sont en majorité supérieuresau système de référence, sauf dans le cas du bruit blanc gaus-sien et du bruit de salle de machine. Ces types de bruits sontpropices à poser problème avec les mécanismes de seuillageutilisés pour produire une représentation binaire. Les carac-téristiques décrivant plutôt les zones de faible énergie (e.g.silences ou pause courte), qui étaient ignorées durant l’en-traînement en condition propre, peuvent maintenant affecterles autres caractéristiques fiables. Ceci engendre une grandedisparité avec le modèle appris, qui ne peut alors plus géné-raliser correctement. Néanmoins, pour les autres bruits réa-listes, l’usage de caractéristiques parcimonieuses et à grandesdimensions est une alternative efficace pour améliorer la ro-bustesse comparativement au système de référence. T ABLE (a) Bruit de conversation
RSB -5 dB 0 dB 10 dB 20 dB 40 dB PropreMFCC (b) Bruit de salle de machine d’un contre-torpilleur (bateau)
RSB -5 dB 0 dB 10 dB 20 dB 40 dB PropreMFCC (c) Bruit intérieur d’une voiture
RSB -5 dB 0 dB 10 dB 20 dB 40 dB PropreMFCC (d) Bruit blanc gaussien
RSB -5 dB 0 dB 10 dB 20 dB 40 dB PropreMFCC 2.2 2.3
Enfin, le système proposé (SPARSE) et le système de ré-férence (MFCC) ont été évalués sur l’ensemble de donnéesde test bruité après un entraînement multi-condition (voir Ta-bleau 2). Rappelons que les bruits ont tous été présentés du-rant l’entraînement à un RSB fixe de 20 dB. On remarque unedégradation considérable des performances pour le systèmeMFCC, lorsqu’on compare avec l’entraînement en conditionsde test propres. Cette dégradation affecte moins le systèmeSPARSE, qui semble pouvoir mieux modéliser les caractéris-tiques de la parole mélangées dans le bruit. Pour l’intervallede RSBs entre 10 dB et 40 dB, les performances de ce derniersont presque qu’exclusivement supérieures comparativementau système de référence. Pour un RSB de 10 dB, les per-formances du système SPARSE sont nettement supérieurescomparativement à l’entraînement en condition propre, et ce,pour tous les types de bruits. Ceci démontre qu’un entraîne-ment avec bruit est bénéfique à bas-RSB, même s’il affectelégèrement les performances de reconnaissance à haut-RSB.L’usage de caractéristiques parcimonieuses et à grandes di-mensions permet de limiter ce problème et d’améliorer la ca-pacité à généraliser. En effet, une différence majeure est quele système MFCC modélise le bruit à même les dimensionsutiles de la parole, car la représentation est dense. Le systèmeSPARSE utilise des caractéristiques parcimonieuses et hié-rarchiques, et effectue une séparation telle que le bruit seradistribué sur des dimensions différentes de celles de la pa-role. Dans l’espace des paramètres, le bruit sera alors modé-lisé avec ses propres fonctions de densité de probabilité, doncdans un sous-espace disjoint où la variabilité sera concentréehors des dimensions utiles de la parole.Un profilage du temps de calcul des différents étagesde traitement a été réalisé pour le système de référence etle système proposé, sur un processeur Intel Xeon cadencé à2.4 GHz (1 coeur). Le tableau 3 montre que selon le facteurtemps-réel (TR), l’approche proposée SPARSE est beaucoupplus lente que l’approche standard MFCC. Le facteur temps-réel τ T R = d son /d trait correspond au rapport de la durée d son du son d’entrée sur la durée d trait de traitement (e.g.extraction de caractéristiques, classification). Le cas τ T R ≥ indique l’atteinte d’une performance en temps-réel, donc lesystème peut traiter le son d’entrée en continu (e.g. venantd’un microphone). On cherche à obtenir un facteur temps-réel(TR) le plus haut possible. L’implémentation actuelle de l’ar-chitecture proposée ne permet actuellement que le traitementhors-ligne de la parole. Plusieurs améliorations au niveau del’étage d’extraction des caractéristiques permettraient toute-fois de réduire le temps de calcul. Par exemple, lorsque lafréquence d’échantillonnage F sous du vecteur de caractéris-tiques Y t au temps t est choisie telle qu’il y a alignementavec les blocs de projection de premier niveau (i.e. h = 0 ), lamajorité des projections effectuées au temps t peuvent servirau calcul des bases de niveau h = 0 et h = 1 au temps t + 1 .Ceci permet de tirer profit du chevauchement temporel exis-tant entre les vecteurs Y t et Y t +1 . Enfin, l’évaluation de mix-tures de Bernoulli possédant des milliers de paramètres est cequi alourdit le plus l’étage de classification. L’entraînement ABLE (a) Bruit de conversation
RSB -5 dB 0 dB 10 dB 20 dB 40 dB PropreMFCC (b) Bruit de salle de machine d’un contre-torpilleur (bateau)
RSB -5 dB 0 dB 10 dB 20 dB 40 dB PropreMFCC (c) Bruit intérieur d’une voiture
RSB -5 dB 0 dB 10 dB 20 dB 40 dB PropreMFCC 38.1 46.6 56.5 59.8 43.1 41.0SPARSE (d) Bruit blanc gaussien
RSB -5 dB 0 dB 10 dB 20 dB 40 dB PropreMFCC des systèmes SPARSE et MFCC requiert respectivement 190minutes et 20 minutes de temps de calcul sur un processeurAMD Opteron cadencé à 2.2 GHz (16 coeurs). L’extractionde caractéristiques et l’évaluation de mixtures de Bernoulli àtrès grandes dimensions expliquent l’écart considérable entreles temps d’entraînement. T ABLE × TR) ( × TR) ( × TR)MFCC
SPARSE 0.792 0.518 0.314
Effet du bruit sur l’apprentissage des bases
L’analyse en composantes indépendantes (ICA) est cou-ramment utilisée pour la séparation aveugle de sources [e.g.56], utile par exemple pour débruiter un signal de parole [e.g.57, 58]. Il a déjà été remarqué que l’adaptation des bases encondition de bruit durant l’entraînement est bénéfique [59],car on tient alors compte de la variabilité introduite parle bruit. Avec des données d’entraînement bruitées reflétantmieux les conditions de tests, de meilleures performances dereconnaissance doivent être attendues, ce qui corrobore les ré-sultats obtenus. La figure 7 montre qu’effectivement, lorsqueles bases sont apprises en présence de bruit, il y a séparationdes composantes du bruit de celles de la parole lors de la pro-jection hiérarchique. C h a nn e l s Basis no.15 at level 2 C h a nn e l s Basis no.175 at level 2 C h a nn e l s Basis no.97 at level 2 C h a nn e l s Basis no.82 at level 2 (a) Bases représentant la parole (64 x 160 ms) C h a nn e l s Basis no.22 at level 2 C h a nn e l s Basis no.250 at level 2 C h a nn e l s Basis no.207 at level 2 C h a nn e l s Basis no.107 at level 2 (b) Bases représentant le bruit (64 x 160 ms) F IGURE
Les bases qui ont un contexte temporel plus grand sontplus aptes à extraire les composantes de bruit, car les régula-rités statistiques à long-terme peuvent être mieux capturées.Il s’agit d’une tâche plus difficile à petite échelle, ce qui ex-plique la pertinence d’effectuer une projection hiérarchiquepour l’obtention de bases de haut-niveau. Le choix de l’algo-rithme d’apprentissage des bases n’est qu’un des nombreuxfacteurs influençant les performances de reconnaissance, etpas nécessairement le plus important [60]. Dans le cas pré-sent, l’analyse en composantes indépendantes (ICA) dans uncontexte de projection hiérarchique s’est révélée l’algorithmed’apprentissage non-supervisé idéal. L’obtention du vecteurde caractéristiques parcimonieux à grandes dimensions estalors faite en s’assurant que les caractéristiques propres à laparole soient fidèlement extraites, même en présence de bruitdans les données d’entraînement. Ceci appuie bien l’aspectde puissance de discrimination des représentations parcimo-ieuses dans des espaces à grandes dimensions [61], avec uncompromis entre la séparabilité des classes et la qualité d’ap-proximation. Dans le cas de la reconnaissance vocale, l’as-pect de discrimination prime, car la reconstruction du signalest sans importance pour son identification.
L’un des objectifs était de comparer la robustesse enconditions difficiles d’un système de reconnaissance de motsisolés basé sur une représentation parcimonieuse à grandedimension. Plusieurs aspects bio-inspirés sont à la base desces principes, et ont inspiré l’extraction de caractéristiques demodulation spectro-temporelle par décomposition linéaire ethiérarchique.L’analyse en composantes indépendantes (ICA) sembleêtre l’algorithme d’apprentissage non-supervisé idéal pourproduire, avec l’intégration de ces aspects, des caractéris-tiques parcimonieuses à grandes dimensions où la parole etle bruit sont restreints dans des sous-espaces disjoints.L’analyse du tableau 1 montre que le système SPARSEest supérieur lorsque l’apprentissage et la reconnaissance sefont en conditions propres. Ceci valide l’intérêt de l’étude,puisque les résultats de départ sont au moins supérieurs àceux d’un système conventionnel. Par contre, avec un ap-prentissage toujours en conditions propres, mais une recon-naissance en conditions difficiles (ou avec bruits), le systèmeSPARSE proposé n’augmente que peu les taux de reconnais-sance. Il est meilleur pour le bruit de voiture et de conver-sation, mais moins bon pour le bruit blanc et l’environne-ment sonore du bateau. Dans la situation de l’apprentissageavec des données propres, les deux systèmes possèdent descapacités similaires à généraliser en conditions de test diffi-ciles – pour la majorité des bruits réalistes testés. Le systèmeSPARSE est toutefois plus robuste à la présence de bruit dansles données d’entraînement (voir Tableau 2). On observe unedégradation moindre des taux de reconnaissance à des rap-ports signal-à-bruit entre 10 dB et 40 dB. En entraînementmulti-condition, le système SPARSE permet donc de mieuxgénéraliser, car les bases apprises lors de la projection hiérar-chique créent une séparation des composantes de parole decelles du bruit. Cette séparation est conservée au niveau dumodèle acoustique, soit dans les paramètres des mixtures deBernoulli à grandes dimensions.Les représentations parcimonieuses et par objets de la pa-role promettent donc d’améliorer les taux de reconnaissancedes systèmes utilisés dans des environnements non-contrôléset riches en bruits additifs, principalement là où les donnéesd’entraînement sont de moindre qualité (i.e. aussi légèrementbruitées). Les travaux futurs porteront à valider l’approcheproposée en reconnaissance de parole continue sur une tâcheà large vocabulaire, ainsi qu’à augmenter la rapidité d’exécu-tion.
La définition d’un objet sonore est différente selon qu’onse place du point de vue de la production ("génération") ou dela perception de l’objet. D’un point de vue de la productiondu son, on se plait à concevoir qu’un objet sonore est com-posé de caractéristiques spécifiques qui se succèderaient dansle temps (e.g. ONSET ou transitoire suivi d’un cours silence,puis d’une voyelle). La synthèse de parole repose souventsur cette conception [62]. En conséquence, la génération decertains objets sonores peut être réalisée par l’établissementd’une succession d’évènements acoustiques qui sont considé-rés comme étant distincts dans le temps (la qualité perceptiven’est d’ailleurs pas toujours excellente). En revanche la per-ception d’un objet sonore ne peut s’établir de la même façon.Un objet sonore simple n’est pas perçu comme étant la suc-cession d’évènements discrets élémentaires temporels, maisplutôt comme étant un tout qui est le résultat de l’intégra-tion spatio-temporelle des caractéristiques élémentaires parle système auditif. Par exemple le son /b/ est perçu commeétant un tout et non pas comme étant composé d’une barre devoisement en basse fréquence (activation des cordes vocales)suivie d’un transitoire puis de la voyelle. En reconnaissanceautomatique des sons, il semble donc plus logique de vou-loir utiliser le point de vue perceptif d’un objet sonore que lepoint de vue de la génération de l’objet sonore pour pouvoiratteindre des performances qui soient le plus proche possiblede celles de l’humain.L’approche utilisée dans le présent travail considère unobjet sonore comme étant la combinaison spatio-temporelleet hiérarchique d’unités élémentaires. Ces unités élémen-taires ont été trouvées par apprentissage non-supervisé sui-vant l’analyse en composante indépendante (ICA) et une or-ganisation hiérarchique. Le critère de recherche de ces uni-tés élémentaires qui a été choisi repose essentiellement surdes données physiologiques qui montrent l’existence d’indé-pendance statistique entre certains neurones corticaux, per-mettant ainsi de maximiser la quantité d’information (entro-pie) par neurones ou groupes de neurones. Nous observonsqu’avec le critère choisi, les parties d’objet sonores (ou bases)sont des combinaisons de patrons de transitoires, de modula-tions en amplitude (AM) et en fréquence (FM) des signauxd’enveloppes extraits à partir d’un banc de filtres cochléaires.Par ailleurs, la recherche automatique et non-supervisée deces unités élémentaires permet une adaptation de l’approcheà différents contextes acoustiques.Toutefois, ce travail ne répond que très partiellement auxquestions posées à l’introduction de cet article. En effet, la fa-çon de combiner les caractéristiques entre elles est arbitraire(utilisation d’un seul vecteur) et seule l’information des en-veloppes à la sortie d’un banc de filtres cochléaire a été ex-ploitée. Il est reconnu que le système auditif est aussi en me-sure de résoudre les harmoniques en basse fréquence, car unnombre important de fibres basses fréquences du nerf auditif(et donc de cellules ciliées de la cochlée) déchargent selon laériode de la fondamentale du signal et non pas selon l’en-veloppe des sorties du banc de filtres [63]. Cet aspect n’a pasété pris en compte dans le présent travail, car l’objectif n’étaitpas d’intégrer les caractéristiques de suivi de fréquence fon-damentale ou de prosodie dans la représentation des objetssonores utilisés en reconnaissance.Il a été illustré comment l’intégration de principes inspi-rés des neurosciences permet de proposer une représentationobjet de signaux sonores. Il aurait été possible de combinerdifféremment les composantes des objets sonores. En effet,la façon de combiner affecte la représentation des objets so-nores et donc les résultats. Ici, il a été choisi d’utiliser unecombinaison très simple : chaque dimension d’un vecteur estune caractéristique d’objet (ou de partie d’objet), peu importesa position ou son rôle dans la structure de l’objet sonore enquestion. Malgré cette combinaison non ordonnée et non hié-rarchisée des composantes des objets, les résultats sont trèsprometteurs.Ce travail montre par ailleurs qu’il est possible de tirerprofit des représentations à très grandes dimensions. Ces re-présentations sont rarement considérées comme intéressantesen modélisation statistique des signaux, notamment en raisonde la complexité anticipée. Cependant, la complexité de cal-cul peut être grandement réduite, car l’extraction des caracté-ristiques reste simple et se prête bien au calcul distribué. Deplus, les vecteurs des composantes objets sont à coordonnéesbinaires. Ceci permet aussi une grande simplicité de mise enoeuvre.
REMERCIEMENTS
Calcul Canada, pour les ressources de calcul de haute-performance mises à disposition. Le conseil de recherches ensciences naturelles et en génie du Canada (CRSNG), le fondsde recherche Québec en Nature et Technologies (FRQ-NT).
RÉFÉRENCES [1] G. Chechik, M. J. Anderson, O. Bar-Yosef, E. D. Young,N. Tishby, I. Nelken. “Reduction of Information Redun-dancy in the Ascending Auditory Pathway.” Neuron, ,359–368 (2006).[2] S. Molotchnikoff, J. Rouat. “Brain at work : Time, Spar-seness and Superposition Principles.” Frontiers in Bios-cience (Landmark Edition), , 583–606 (2012).[3] D. L. Alkon, K. T. Blackwell. “Pattern Recognition byan Artificial Network Derived from Biological NeuronalSystems.” Biological Cybernetics, , 363–376 (1990).[4] Z. Chen, S. Haykin, J. J. Eggermont, S. Becker. Corre-lative Learning A Basis for Brain and Adaptive Systems (Wiley-interscience, 2007). [5] D. Depireux, J. Simon, D. Klein, S. Shamma. “Spectro-temporal response field characterization with dynamicripples in ferret primary auditory cortex.” Journal ofNeurophysiology, , 1220–34 (2001).[6] D. N. Zotkin, T. Chi, S. Shamma, R. Duraiswami. “Neu-romimetic Sound Representation for Percept Detectionand Manipulation.” EURASIP Journal on Applied Si-gnal Processing, , 1350–64 (2005).[7] M. S. Lewicki. “Efficient coding of natural sounds.”Nature neuroscience, , 356–363 (2002).[8] E. C. Smith, M. S. Lewicki. “Efficient auditory coding.”Nature, , 978–982 (2006).[9] T. Irino, R. D. Patterson. “A time-domain, level-dependent auditory filter : The gammachirp.” Journalof the Acoustical Society of America, , 412–419(1997).[10] R. D. Patterson. “Auditory filter shapes derived withnoise stimuli.” Journal of the Acoustical Society ofAmerica, , 640–654 (1976).[11] R. D. Frisina, R. L. Smith, S. C. Chamberlain. “Dif-ferential Encoding of Rapid Changes in Sound Ampli-tude by Second-Order Auditory Neurons.” Experimen-tal Brain Research, , 417–422 (1985).[12] C. E. Schreiner, G. Langner. “Periodicity coding in theinferior colliculus of the cat. II. Topographical organiza-tion.” Journal of neurophysiology, , 1823–40 (1988).[13] J. Winer, C. Schreiner. The inferior colliculus (SpringerVerlag, 2005).[14] C. E. Schreiner, J. V. Urbas. “Representation of ampli-tude modulation in the auditory cortex of the cat. I. Theanterior auditory field (AAF).” Hearing research, ,227–241 (1986).[15] D. J. Klein, P. König, K. P. Körding. “Sparse Spectro-temporal Coding of Sounds.” EURASIP Journal on Ad-vances in Signal Processing, , 659–667 (2003).[16] M. S. Lewicki, T. J. Sejnowski. “Learning Overcom-plete Representations.” Neural Computation, , 337–365 (2000).[17] A. Hyvärinen, J. Karhunen, E. Oja. “ICA with Over-complete Bases.” In “Independent Component Analy-sis,” volume 7, chapter 16, pp. 305–313 (John Wiley &Sons, Inc, 2001).[18] D. D. Lee, H. S. Seung. “Learning the parts of ob-jects by non-negative matrix factorization.” Nature, ,788–791 (1999).[19] D. L. Donoho, V. C. Stodden. “When Does Non-Negative Matrix Factorization Give a Correct Decom-position into Parts ?” In “Proceedings of the 18th An-nual Conference on Neural Information Processing Sys-tem (NIPS),” (Vancouver, BC, Canada, 2004).20] G. Hickok, D. Poeppel. “The cortical organization ofspeech processing.” Nature Reviews Neuroscience, ,393–402 (2007).[21] M. S. Lewicki, B. J. Arthur. “Hierarchical Organizationof Auditory Temporal Context Sensitivity.” The Journalof Neuroscience, , 6987–98 (1996).[22] S. Molotchnikoff, J. Rouat. Visual Cortex - Current Sta-tus and Perspectives , (Intech, 2012).[23] R. Guyonneau, R. VanRullen, S. J. Thorpe. “Neuronstune to the earliest spikes through STDP.” Neural Com-putation, , 859–879 (2005).[24] R. Guyonneau, R. VanRullen, S. J. Thorpe. “Temporalcodes and sparse representations : a key to understan-ding rapid processing in the visual system.” Journal ofphysiology, Paris, , 487–497 (2004).[25] S. B. Davis, P. Mermelstein. “Comparison of ParametricRepresentations for Monosyllabic Word Recognition inContinuously Spoken Sentences.” IEEE Transactionson Acoustics, Speech and Signal Processing, , 357–366 (1980).[26] L. Rabiner. “A tutorial on hidden Markov models andselected applications in speech recognition.” Procee-dings of the IEEE, , 257–286 (1989).[27] F. Valente, M. Magimai-Doss, C. Plahl, S. Ravuri. “Hie-rarchical Processing of the Modulation Spectrum forGALE Mandarin LVCSR system.” In “Proceedingsof the Annual Conference of the International SpeechCommunication Association (Interspeech),” (Brighton,UK, 2009).[28] A. Mohamed, G. Dahl, G. Hinton. “Deep Belief Net-works for phone recognition.” In “Proceedings of the24th Annual Conference on Neural Information Proces-sing System (NIPS), Workshop on Deep Learning forSpeech Recognition and Related Applications,” (Whist-ler, BC, Canada, 2009).[29] A. Mohamed, D. Yu, L. Deng. “Investigation of full-sequence training of deep belief networks for speech re-cognition.” In “Proceedings of the 11th Annual Confe-rence of the International Speech Communication Asso-ciation (Interspeech),” pp. 2846–49 (Makuhari, Chiba,Japan, 2010).[30] F. Seide, G. Li, D. Yu. “Conversational Speech Trans-cription Using Context-Dependent Deep Neural Net-works.” In “Proceedings of the 12th Annual Conferenceof the International Speech Communication Association(Interspeech),” August, pp. 437–440 (Interspeech, Flo-rence, Italy, 2011).[31] G. Hinton, L. Deng, D. Yu, G. E. Dahl, A. Mohamed,N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. N. Sai-nath, B. Kingsbury. “Deep Neural Networks for Acous-tic Modeling in Speech Recognition : The Shared Views of Four Research Groups.” IEEE Signal Processing Ma-gazine, , 82–97 (2012).[32] C. Radhakrishna Rao, S. K. Mitra. “Generalized in-verse of a matrix and its applications.” In “Proceedingsof the Berkeley Symposium on Mathematical Statisticsand Probability,” pp. 601–620 (Berkeley, USA, 1972).[33] A. Hyvärinen, E. Oja. “Independent component analy-sis : algorithms and applications.” Neural networks, ,411–430 (2000).[34] A. Hyvärinen. “Fast and robust fixed-point algorithmsfor independent component analysis.” IEEE transac-tions on neural networks, , 626–634 (1999).[35] J. Lee, T. Lee, H. Jung, S. Lee. “On the efficientspeech feature extraction based on independent com-ponent analysis.” Neural Processing Letters, , 235–245 (2002).[36] D. W. Wang, X. Ma, Y. Su. “Undercomplete Dictionary-Based Feature Extraction for Radar Target Identifica-tion.” Progress In Electromagnetics Research M, , 1–19 (2008).[37] G. R. Naik, D. K. Kumar. “An Overview of IndependentComponent Analysis and Its Applications.” Informa-tica, , 63–81 (2011).[38] J. Porrill, J. V. Stone. “Undercomplete IndependentComponent Analysis for Signal Separation and Dimen-sion Reduction.” Technical report, University of Shef-field, Department of Psychology (1998).[39] J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G. Fiscus,D. S. Pallett, N. L. Dahlgren, V. Zue. “TIMIT Acoustic-Phonetic Continuous Speech Corpus.” (1993).[40] I. Perlman. “Vivaldi - The Four Seasons and ViolinConcertos [Audio CD].” (2002).[41] Nature Sound Series. “Tropical Ocean Surf (NatureSounds Only version) [Audio CD].” (2007).[42] Nature Sound Series. “Mountain Stream (Nature soundsonly version) [Audio CD].” (2006).[43] A. Huber, T. Linder, M. Ferrazzini, S. Schmid,N. Dillier, S. Stoeckli, U. Fisch. “Intraoperative assess-ment of stapes movement.” Annals of Otolology, Rhi-nology & Laryngology, , 31–35 (2001).[44] V. Hohmann. “Frequency analysis and synthesis usinga Gammatone filterbank.” Acta Acustica united withAcustica, , 433–442 (2002).[45] S. Stevens, J. Volkmann, E. Newman. “A scale forthe measurement of the psychological magnitude pitch.”Journal of the Acoustical Society of America, , 185–190 (1937).46] C. Avendaño, L. Deng, H. Hermansky, B. Gold. “Theanalysis and representation of speech.” Speech proces-sing in the auditory system, , 63–100 (2004).[47] M. Liberman et al. “TI 46-Word Linguistic DataConsortium, Philadelphia.” (1993).[48] A. Juan, E. Vidal. “Bernoulli mixture models for bi-nary images.” In “Proceedings of the 17th InternationalConference on Pattern Recognition (ICPR),” volume 3,pp. 367–370 (IEEE, Cambridge, UK, 2004).[49] V. Romero, A. Giménez, A. Juan. “Explicit Model-ling of Invariances in Bernoulli Mixtures for BinaryImages.” Pattern Recognition and Image Analysis, , 539–546 (2007).[50] A. Giménez, A. Juan. “Bernoulli HMMs at SubwordLevel for Handwritten Word Recognition.” Pattern Re-cognition and Image Analysis, , 497–504 (2009).[51] A. Juan, J. García-Hernández, E. Vidal. “EM Initialisa-tion for Bernoulli Mixture Learning.” In “InternationalWorkshop on Structural and Syntactic Pattern Recogni-tion (SSPR),” pp. 635–643 (Lisbon, Portugal, 2004).[52] A. Giménez, A. Juan. “Bernoulli HMMs at SubwordLevel for Handwritten Word Recognition.” In “Procee-dings of the 10th International Conference on DocumentAnalysis and Recognition,” volume 5524, pp. 497–504(IEEE, Barcelona, Spain, 2009).[53] M. Henniges, G. Puertas, J. Eggert, J. Lücke. “BinarySparse Coding.” Latent Variable Analysis and SignalSeparation, , 450–457 (2010).[54] S. Young, G. Evermann, D. Kershaw, G. Moore,J. Odell, D. Ollason, V. Valtchev, P. Woodland. The HTKBook (for HTK Version 3.4) (Cambridge University En-gineering Department, 2009).[55] A. Varga, H. Steeneken. “Assessment for automaticspeech recognition : II. NOISEX-92 : A database andan experiment to study the effect of additive noise onspeech recognition systems.” Speech Communication, , 247–251 (1993).[56] D. Obradovic, G. Deco. “Blind signal separation revisi-ted.” In “Proceedings of the 36th IEEE Conference onDecision and Control,” volume 2, pp. 1591–96 (IEEE,San Diego, USA, 1997).[57] J. Lee, H. Jung, T. Lee, S. Lee. “Speech enhancementwith MAP estimation and ICA-based speech features.”Electronics Letters, , 1506–7 (2000).[58] L. Hongyan, R. Guanglong. “Blind separation of noisymixed speech signals based Independent ComponentAnalysis.” In “Proceedings of the First InternationalConference on Pervasive Computing, Signal Processingand Applications,” pp. 586–589 (IEEE, Harbin, China,2010). [59] M. Heckmann, X. Domont, F. Joublin, C. Goerick.“A Hierarchical Framework for Spectro-Temporal Fea-ture Extraction.” Speech Communication, , 736–752(2011).[60] F. O’Donnell, F. Triefenbach, J.-P. Martens, B. Schrau-wen. “Effects of Architecture Choices on Sparse Co-ding in Speech Recognition.” In “Proceedings of theInternational Conference on Artificial Neural Networks(ICANN),” volume 7552 of Lecture Notes in ComputerScience , pp. 629–636 (Springer, Lausanne, Switzerland,2012).[61] I. Tosic, P. Frossard. “Dictionnary Learning : What isthe right representation for my signal ?” IEEE SignalProcessing Magazine, , 27–38 (2011).[62] É. Keller. Fundamentals of speech synthesis and speechrecognition : basic concepts, state of the art, and futurechallenges (Wiley, 1994).[63] M. I. Miller, M. B. Sachs. “Representation of voicepitch in discharge patterns of auditory-nerve fibers.”Hearing research,14