Baliser des dictionnaires anciens en XML-TEI pour en extraire des données lexicales : l’expérience du projet CollEx-Persée de « Métadictionnaire médical multilingue de la bibliothèque numérique Medica »

titleBaliser des dictionnaires anciens en XML-TEI pour en extraire des données lexicales : l’expérience du projet CollEx-Persée de « Métadictionnaire médical multilingue de la bibliothèque numérique Medica »
start_date2024/01/18
schedule14h
onlineno
location_infoSalle D4 179 & Zoom
summaryLe « Métadictionnaire médical multilingue de la bibliothèque numérique Medica » permet d’enrichir les résultats de recherche au sein d’un corpus de 56 dictionnaires et encyclopédies des sciences médicales du XVIIe au XXe siècle (459 volumes, plus de 450 000 entrées sur plus de 330 000 pages) en donnant accès au savoir lexical et étymologique de sept dictionnaires représentatifs et de leurs lexiques et glossaires multilingues. Nous exposerons tout d’abord les principes et les méthodes de balisage XML-TEI qui ont été définis pour extraire des données lexicales de ces ouvrages, après océrisation, en fonction des objectifs du projet et des contraintes de temps et de moyens à disposition. Des exemples concrets permettront d’illustrer les défis auxquels fait face le travail encore en cours de vérification du texte et de la structuration des fichiers XML-TEI, qui résultent de la diversité et de la complexité des ouvrages traités, mais aussi de la richesse et de la singularité du vocabulaire médical multilingue qui y est relevé. Nous évoquerons également le travail nécessaire pour mettre à disposition en accès libre, comme le projet s’y était engagé, des données qui soient les plus interopérables et les plus réutilisables possibles.
responsiblesVigier