|
Les corpus annotés du français : ressources disponibles et exploitation en TAL (ACor4French) (2016)| shared_uid | 2540 |
|---|
| title | Les corpus annotés du français : ressources disponibles et exploitation en TAL (ACor4French) |
|---|
| type | Atelier |
|---|
| year | 2016 |
|---|
| start_date | 2017/06/26 |
|---|
| stop_date | 2017/06/26 |
|---|
| schedule | 09h-17h30 |
|---|
| active | no |
|---|
| website | http://talc2.loria.fr/caf2017/programme |
|---|
| practical_info | Atelier dans le cadre de la conférence TALN 2017. |
|---|
| summary | Dans de nombreuses tâches du TAL, les corpus annotés (semi-)manuellement
sont utilisés comme données d’apprentissage et/ou comme données de
référence pour l’évaluation des outils. Dans les deux cas, le fait de
disposer de corpus annotés de qualité est un enjeu essentiel.
Pour la langue française, les corpus annotés ont fait l’objet de
nombreux projets pendant ces dix dernières années (FTB, PFC, Valibel,
Sequoia, FDTB, Rhapsodie, Annodis, Orféo, ...) que ce soit pour l’analyse
syntaxique (en constituants ou en dépendances), pour l’analyse du
discours, pour les anaphores pronominales, pour la prosodie, etc. Ces
projets ont fait des choix linguistiques souvent indépendants les uns
des autres et les données ne sont pas toujours facilement convertibles
d’une ressource à l’autre. De plus, ces ressources ne sontpas forcément
libres ou n’ont pas toutes des licences compatibles qui permettent de
redistribuer de nouvelles versions corrigées.
Par ailleurs, un nouveau projet international de création de corpus
annotés en syntaxe de dépendances pour différentes langues a démarré
(Universal Dependencies) qui pousse à réfléchir et à repositionner les
données spécifiques au français. De plus, la création de ressources de
ce type par myriadisation par le jeu (jeux ayant un but) pose de
nouvelles questions, par exemple quant à l’expertise des annotateurs.
L’objectif de cet atelier est que les chercheurs impliqués dans ces
différents développements pour la langue française se rencontrent pour
faire un état des lieux des corpus disponibles, des besoins futurs et
des nouvelles initiatives qui pourraient se mettre en place pour
coordonner les prochains projets de développement de corpus afin qu’ils
s’enrichissent mutuellement. |
|---|
| responsibles | Guillaume |
|---|
| |
|