La modélisation graphique de la polysémie évolutive à partir des entrées historiques du TLFi

titleLa modélisation graphique de la polysémie évolutive à partir des entrées historiques du TLFi
start_date2023/03/03
schedule13h30-14h30
onlineno
location_infosalle A104 & visioconférence
summaryBien que tous les membres de l’ATILF soient sans nul doute parfaitement informés de ce qui suit, il nous paraît souhaitable de rappeler les trois points suivants : . Les articles du TLFi se composent d’une entrée lexicographique, de données phonétiques, orthographiques et statistiques, établies à partir de la base de données textuelles FRANTEXT constituée simultanément, et d’une entrée « Étymologie et histoire », à l’exception des tous premiers où deux entrées Étymologie et Histoire copieuses ont été distinguées, ex. abstrait (1087 mots) ≠ concret (68 mots). . Les entrées lexicographiques ont bénéficié d’une informatisation fonctionnelle (attribuant une fonction à chaque segment et permettant ainsi tout un jeu de recherches transversales), mais l’ATILF s’est abstenu d’en faire de même pour les entrées historico-étymologiques (H-É), sans doute avec la conviction que la microstructure de ces entrées était trop hétérogène, et s’est contenté d’une informatisation formelle, c’est-à-dire limitée à la délimitation des entrées et au format typographique. . De ce fait, il est actuellement impossible de pratiquer sur les entrées H-É des recherches transversales similaires à celles que permettent les entrées lexicographiques. Le projet qui sera exposé le 3 mars vise à convertir l’essentiel des données fournies par les entrées H-É du TLFi dotées d’une « POLYSEMIE EVOLUTIVE » (± 20 000 sur un total de ± 49 000) dans un format tabulaire, de leur associer un graphe historique (arborescent) et à moyen terme – si le résultat de ces opérations est jugé satisfaisant, au moins pour une version de démonstration – de publier pour chacune de ces entrées un couple graphe-tableau historique dans le cadre des éditions électroniques du CNRTL. À long terme, la base de données ainsi constituée devrait permettre au moins certaines recherches transversales élémentaires. Les points suivants seront succinctement abordés : . le point de vue du linguiste sur la segmentation et l’enregistrement des données nécessaires à la construction de l’arbre historique de chaque vocable, . l’analyse statistique des 82 fichiers XML fournies par E. Petitjean, notamment la question des entrées historiques polysémiques dont les rubriques ne commencent qu’après un préambule, . les opérations de codage fonctionnel encore en chantier dont l’utilité est à discuter . la construction des arbres historiques dans un format orthonormé (siècles * identifiants des rubriques) La présentation des étapes successives de ce projet sera effectuée pour sa dimension linguistique par Jacques François (CRISCO, Caen) et pour sa dimension informatique par Justine Reynaud (GREYC, Caen). La modélisation graphique du contenu des entrées H-É a été engagée par Triss Jacquiot (GREYC, 1er semestre 2022) et poursuivie par Laurette Chardon (CRISCO) depuis lors.
responsiblesHirchwald