Apprentissage de connaissances à partir de textes : le cas de la morphologie

old_uid2296
titleApprentissage de connaissances à partir de textes : le cas de la morphologie
start_date2007/02/22
schedule10h
onlineno
summaryLa masse d’informations numériques disponibles ne cesse de croître à un rythme soutenu. Leur diffusion et leur archivage s’accompagne toutefois de nombreux problèmes, liés notamment à l’absence d’organisation des documents qui complique l’identification des informations pertinentes. Le défi, relayé par le projet du Web Sémantique, consiste à donner du sens à ces informations, en s’aidant de ressources décrivant les connaissances. Dans le cas des données textuelles, ces ressources peuvent prendre la forme de thésaurus, de terminologies ou d’ontologies. Le processus de construction de telles ressources est toutefois long et coûteux, ce qui explique leur absence pour des langues minoritaires ou certains domaines. Or, les connaissances se trouvent naturellement décrites dans les textes, qui constituent de fait un matériau de base pour l’extraction de connaissances. Ce matériel se prête bien aux méthodes d’apprentissage automatique, largement utilisées en fouille de texte. Tous les niveaux linguistiques ne bénéficient toutefois pas du même traitement : les travaux en fouille de texte privilégient le niveau du mot et des groupes de mots. Notre approche se différencie de la majorité des travaux car nous avons choisi de nous intéresser à la structure interne des mots, c’est à dire à leur morphologie. Cet exposé présentera l’apprentissage non supervisé de connaissances morphologiques, à partir de corpus de textes de spécialité. Les méthodes décrites se caractérisent par l’absence d’utilisation de ressources externes au corpus, ce qui garantit leur indépendance aux langues et aux domaines traités. Nous présenterons les résultats obtenus en allemand, anglais, finnois, français et turc, pour des corpus de langue générale et technique (médecine et volcanologie). Nous décrirons également les utilisations possibles des résultats pour diverses applications : reconnaissance et synthèse de la parole, identification et pondération de mots clés et acquisition de relations sémantiques entre termes morphologiquement complexes.
responsiblesBouchon-Meunier, Diaz, Gallinari