search

actions - event

state: published
- cancelpublished
- view workflow

Des Méthodes de TAL modernes pour l'Enrichissement de Documents

old_uid	18382
title	Des Méthodes de TAL modernes pour l'Enrichissement de Documents
start_date	2020/09/22
schedule	10h30-12h
online	no
summary	Nous présentons une pipeline pour le traitement et l'enrichissement de documents basée sur les dernières méthodes d'apprentissage neuronal. Notamment, pour le français, notre pipeline est entrainée sur le corpus de très grande taille OSCAR (https://oscar-corpus.com) et construite à partir des représentations de mots contextualisés comme FrELMo (https://pjortiz.com/publication/2020/lrec/ner/) et CamemBERT (https://camembert-model.fr). Le but de la pipeline est de permettre la spécification et le fine-tuning de ces modèles pour la structuration de documents, l'extraction d'informations, la reconnaissance d'entités nommées, l'étiquetage morphosyntaxique, les tâches de questions-réponses, etc. Notre but est de pouvoir traiter n'importe quel type de document, quel que soit son domaine ou l'époque à laquelle il a été écrit.
responsibles	Bordin

hosted_by

Ecole normale supérieure - ENS

speakers

event_of

Langues, Textes, Traitements Informatiques, Cognition (conférence du labex TransferS, Lattice, UMR 8094 CNRS-ENS-Univ. Sorbonne Nouvelle) (2020)

Event #171687 - latest update on 2022/05/17, created on 2020/09/21