Règles de grammaires et corpus annotés - Autour du projet Autogramm

titleRègles de grammaires et corpus annotés - Autour du projet Autogramm
start_date2024/02/01
schedule14h-15h
onlineno
location_infoSalle D155
detailsSéminaire SLîM
summaryLes treebanks ou corpus arborés annotés, autrefois si utile comme moyen pour développer des outils de Traitement Automatique de Langues (TAL), restent toujours un élément majeur pour la linguistique théorique et la documentation des langues. Dans cette perspective, nous présenterons un des usages que nous faisons des treebanks, celui de l'extraction automatique d'observations quantitatives et de motifs grammaticaux. Ce questionnement sur l’induction de grammaires descriptives à partir de corpus annotés est au centre du projet ANR Autogramm (Modyco, Lacito, Lisn, Loria-Sémagram). Nous discuterons de comment formaliser une règle de grammaire et de son application à des corpus annotés. Nous insisterons plus précisément sur l'extraction de règles de grammaire quantifiées et ordonnées caractérisant un corpus et à travers lui une langue ou un état de langue. Nous montrerons également les limites de telles approches.
responsiblesNC