Application de la réécriture de graphes au traitement de corpus linguistiques

old_uid18487
titleApplication de la réécriture de graphes au traitement de corpus linguistiques
start_date2020/10/16
schedule13h30-15h30
onlineno
detailsDelicortal
summaryDepuis plusieurs années déjà, la linguistique de corpus a pris une place importante au sein de la linguistique. Elle requiert des corpus qui aient à la fois une taille importante et dont l’annotation soit de très grande qualité. Avec l’explosion de l’apprentissage profond, on retrouve la même exigence du côté des informaticiens linguistes. Pour traiter de tels corpus, il est crucial de disposer d’outils automatiques performants. Nous proposons pour le développement de tels outils une approche originale fondée sur la réécriture de graphes. Un corpus annoté peut être vu de façon très générale comme un ensemble de graphes et son exploration se présente alors comme la recherche de motifs dans ces graphes. Cela vaut à la fois pour les études linguistiques sur corpus et pour la détection d’erreurs et d’incohérences dans un corpus. Maintenant, il est souvent nécessaire de transformer l’annotation d’un corpus, pour corriger des erreurs systématiques, pour passer d’un format d’annotation à un autre ou pour passer d’un niveau d’annotation à un autre (par exemple de la syntaxe à la sémantique). Nous proposons de voir toutes ces transformations comme l’application de règles locales de réécriture de graphes. Nous présenterons GREW (http://grew.fr/), l’outil de réécriture de graphes que nous avons développé pour une application au Traitement Automatique des Langues. Nous présenterons aussi GREW.MATCH (http://match.grew.fr/), qui est la partie recherche de motifs dans un graphe de GREW et qui peut être utilisée de façon indépendante en ligne sur l’ensemble des corpus du projet Universal Dependencies (https://universaldependencies.org/).
responsiblesGianninoto, Aleksandrova