|
L'influence de quelques grands domaines discursifs sur les méthodologies et les performances d'applications en traitement automatique des langues| old_uid | 3937 |
|---|
| title | L'influence de quelques grands domaines discursifs sur les méthodologies et les performances d'applications en traitement automatique des langues |
|---|
| start_date | 2008/01/28 |
|---|
| schedule | 14h |
|---|
| online | no |
|---|
| summary | La linguistique de corpus a montré que les performances des outils de traitement automatique des langues (TAL) étaient sensibles aux données fournies. Or la majorité des travaux en TAL utilisent des algorithmes d'apprentissage qui épousent les "idiosyncrasies" des données, sans grand discernement. Il a été également stipulé que les genres textuels avaient de l'influence sur les résultats obtenus (Rastier 2002). Dans l'état actuel des choses, cette assertion ne peut être réellement expérimentée par les systèmes à apprentissage, compte tenu du fait que le genre textuel ne peut être isolé par eux des autres particularités des données.
Dans cette communication, nous nous sommes intéressés à deux applications particulières de TAL que sont la compression automatique de textes (par compression de phrase) et la segmentation thématique. Les logiciels développés, ou en cours de développement, sont fondés sur des algorithmes sans apprentissage et donc non sensibles aux particularités des données. En revanche, nous avons posé comme hypothèse la sensibilité au domaine discursif telle qu'énoncée ci-dessus, et c'est cette dernière qui a été évaluée. Cette communication décrira ces applications, leur théorie fondatrice, la méthodologie d'évaluation adoptée, ainsi que les résultats obtenus sur des données dans plusieurs domaines discursifs (contes et romans, écrits journalistiques, articles scientifiques en biologie, textes juridiques de la communauté européenne, discours politiques). On concluera sur l'importance du domaine discursif en tant que facteur pour la conception adaptée de logiciels de TAL. |
|---|
| responsibles | Détrie |
|---|
| |
|