ACP pour l'inférence grammaticale probabiliste

Raphaël Bailly (LIF) - Mardi 24 mars - CMI.

L'inférence grammaticale probabiliste est l'estimation de densité de probabilité sur l'ensemble des mots construits sur un alphabet. Les applications les plus courantes se trouvent en biologie moléculaire (séquences ADN, synthèse des protéines), en traitement de la langue, ou autres (reconnaissance de formes, électronique…).
Le modéle probabiliste le plus utilisé est le HMM, ou modèle de Markov à états cachés, avec comme algorithme d'apprentissage l'algorithme de Baum-Welch: optimisation du maximum de vraisemblance sous contraintes linéaires. Nous étudions une alternative: un modèle qui généralise les HMM, avec un algorithme d'apprentissage basé sur une analyse en composantes principales, et qui permet:

de prédire une structure,
d'obtenir de meilleurs résultats que Baum-Welch pour la vraisemblance sur un échantillon de test,
d'envisager l'utilisation conjointe de noyaux, et d'autres méthodes d'apprentissage statistique.

Bref, la révolution!