Les constructions à verbe support du persan : une approche statistique

old_uid5512
titleLes constructions à verbe support du persan : une approche statistique
start_date2008/11/03
schedule10h30
onlineno
summaryCet exposé porte sur les constructions à verbe support du persan et propose une méthode statistique pour leur extraction. Le nombre des verbes simples du persan est estimé à environ 250. Une fois que les verbes appartenant à un registre particulier (littéraire ou familier) sont écartés, cet ensemble est réduit de 120 à 130 verbes. Cette situation a deux conséquences : 1. le “lexique verbal” du persan est essentiellement composé de “locutions” formées d'un verbe à contenu lexical plus ou moins faible (ou verbe support) et d'un élément préverbal (nom, adjectif, préposition, adverbe...) ; 2. la distinction même entre “verbe lexical” et “verbe support” devient problématique, dans le mesure où très peu de verbes ont un contenu sémantique précis en l'absence de combinaison avec un élément non-verbal. La conjonction de ces deux phénomènes rend problématique l'élaboration du lexique verbal du persan, et ce d'autant plus que ces “locutions verbales” sont très productives. En effet, la création de verbes simples par dérivation (ou conversion) à partir d'une base nominale ou adjectivale ayant cessé d'être productive en persan, les constructions à verbe support reste le seul moyen d'enrichissement du lexique verbal. La nature collocationnelle de la relation entre le verbe et l'élément non-verbal incite à l'établissent d'un inventaire où sont consignées les propriétés syntaxiques et sémantiques associées à chaque construction (à la manière des tables du LADL ou les dictionnaires explicatifs et combinatoires de Mel'cuk et al., par exemple). La grande productivité de ces constructions implique, en revanche, l'existence des régularités syntactico-sémantiques qu'il conviendrait de mettre en évidence, par le biais, par exemple du codage des Fonctions Lexicales à la Mel'cuk. Le présent travail propose une méthode extraction de listes de constructions à verbe support à partir de grands corpus disponibles sur le web et sans autre ressource linguistique disponible au préalable. La méthode a été appliquée au corpus du quotidien iranien “Keyhan” (choisi à cause de sa régularité de publication et son site web). Elle a été testée sur un ensemble de six verbes qui participent fréquemment à la formation des constructions à verbe support. Les premiers résultats sont extrêmement probants : les 500 premiers mots extraits pour chaque verbe fournissent tous des informations pertinentes : il s'agit, dans la majorité des cas, soit de l'élément non-verbal de la construction à verbe support, soit d'une préposition introduisant un des membres de la construction. Nous poursuivons notre travail dans plusieurs directions : -Diversification des corpus, afin d'intégrer d'autres variétés du persan. - L'affinement des méthodes d'extraction, afin d'en améliorer les résultats. - L’élaboration d'une méthode de calcul de compositionnalité, afin de mettre en évidence les schémas de producivité dans la production et interprétation de ces constructions. Les premières retombées de ce travail nourriront le dictionnaire des constructions à verbe support du persan, actuellement en cours d'élaboration. Il s'agit d'une base de données, constituée à l'origine manuellement, par le dépouillage des divers corpus (littéraires, presse, etc.). Les listes extraites automatiquement ont permis l'enrichissement de cette base avec de nouvelles entrées ou de nouvelles informations ajoutées aux entrées existantes.
responsiblesTolone