Réflexions historiques et épistémologiques autour de la notion de corpus

old_uid17644
titleRéflexions historiques et épistémologiques autour de la notion de corpus
start_date2019/03/27
schedule14h-17h
onlineno
details2e séance
summaryCette présentation vise à préciser ce qu’est un corpus en replaçant cette notion dans la perspective historique d’un temps long. L’évocation d’un certain nombre de corpus, d’abord sous forme manuscrite, puis d’imprimés, et enfin, après l’apparition des outils numériques, sous forme de bases de données, offrira l’occasion d’observer en quoi l’informatique a considérablement fait évoluer la nature des corpus et ce qu’on attend d’eux, sans pour autant avoir créer de rupture avec la notion traditionnelle. Plus que de simples parallèles, il existe une véritable continuité du point de vue épistémologique entre des pratiques attestées dans le haut Moyen Âge et celles contemporaines en ce qui a trait à l’analyse de données textuelles. Ce fil d’Ariane qui relie les grammairiens (médio-)latins aux linguistes contemporains, s’exprime à travers le phénomène que la tradition nomme ‘glose’. Or, la garantie, selon nos standards scientifiques actuels, d’une analyse fiable — quantifiable et vérifiable —, repose en grande partie sur (a) la qualité d’un corpus (en termes de nature, contenu et pertinence) et (b) le soin apporté à sa préparation en vue d’analyse. Il apparait donc, qu’outre le choix des matériaux à questionner, leur « mise en forme » (préparation préalable des données) constitue un aspect crucial d’une recherche. Et c’est précisément sur cet aspect que les pratiques anciennes et contemporaines se rencontrent : sur le terrain de l’annotation. Dans un tel cadre, une recherche sera donc largement influencée par la nature de cette étape en amont que l’on peut qualifier de pré-analyse, ou préparation des données, qui consiste à ajouter une dimension supplémentaire aux textes. L’exposé se terminera alors par un regard « derrière » les données en considérant quelques problématiques relatives à l’encodage, aux annotations et autres métadonnées attachées aux corpus.
responsiblesNeveu