Approches tout-terrain ou ad hoc : comment concevoir des applications de TAL robustes à la variation dans les données ?

titleApproches tout-terrain ou ad hoc : comment concevoir des applications de TAL robustes à la variation dans les données ?
start_date2023/09/26
schedule10h-12h
onlineno
location_infoSalle de séminaire 1, bât. Max Weber
summaryDes approches en sac de mots aux très récents grands modèles de langues (Large Language Models), l'histoire du Traitement Automatique des Langues a été jalonnée de différents changements de paradigmes. Ces nouveaux paradigmes ont repoussé les frontières de ce qu'il est possible de faire en TAL. Pourtant, à y regarder plus précisément, la plupart des avancées en termes de résultats concernent des tâches très spécifiques, réalisées sur un nombre restreint de langues (et très souvent l'anglais). Au-delà de cet aspect multilingue, les approches les plus fréquemment utilisées peinent encore à traiter des données hétérogènes ou bruitées, posant la question de la robustesse à la variation linguistique des approches dites "état de l'art". Autrement dit, le TAListe peut (et doit) interroger la capacité de méthodes efficaces pour un certain type de données à traiter aussi efficacement un autre type de données. Supprimer la ponctuation ou les mots vides, traduire les textes vers l'anglais ou encore standardiser les textes sont des solutions évoquées, dans les articles scientifiques ou dans les tutoriels en ligne, pour adapter les données aux approches existantes. Dans cette présentation, je montrerai au contraire des cas d'usage où l'on va plutôt interroger la robustesse des méthodes "classiques" et observer comment s'adapter à des données offrant de la variation : tweets, corpus multilingues, données issues d'OCR, d'ASR ...
responsiblesBattistelli, Villoing