Auteur(s) : Laurent KEVERS et Bastien KINDT (Université catholique de Louvain, Louvain-la-Neuve, Belgique)
Titre : Vers un lemmatiseur-concordanceur en ligne du grec ancien
Revue : L’Antiquité Classique
Volume
: 73
Date : 2004
Pages : 203-213


Résumé :
Les travaux du Projet de recherche en lexicologie grecque (Université catholique de Louvain, Louvain-la-Neuve, Belgique) visent à élaborer un dictionnaire général du grec ancien applicable aux logiciels de traitement automatique du langage naturel (TAL). Constitué de données lexicales produites par la lemmatisation systématique de sources patristiques et historiographiques d’époque byzantine, ce dictionnaire compte actuellement 174.758 « formes de mots » classées sous 33.874 lemmes accompagnés d’une indication de leur catégorie morpho-syntaxique. Les sources littéraires analysées et les données générées ont été adaptées par le CENTAL (Louvain-la-Neuve) à Unitex, un logiciel d’exploration lexicale et syntaxique des textes développé au Laboratoire d’Informatique de l’Institut Gaspard Monge (Paris). Une interface originale permet d’interroger en ligne un corpus expérimental, entièrement lemmatisé et désambiguïsé, limité pour l’instant aux lettres de Basile de Césarée (134.511 occurrences) mais susceptible de s’accroître dans un futur proche. Les requêtes peuvent être formulées sur base des lemmes et des formes ou à partir de motifs syntaxiques. Les réponses s’affichent à l’écran en grec polytonique Unicode sous forme de concordances. Un étiquetage des morphèmes constitutifs des lemmes permet de plus d’appeler les lemmes formellement apparentés à un même mot. Le résultat apparaît sous la forme d’une « arborescence dérivationnelle » rassemblant les dérivés et les composés du terme étudié.

Abstract :
Towards an on-line software of concordancing-lemmatising for Ancient Greek
One of the aims of the Research project in Greek lexicology (Université catholique de Louvain, Louvain-la-Neuve, Belgium) is to create an electronic dictionary of Ancient Greek useful for automated textual analysis softwares. The lexical data (174.758 word-types; 33.874 lemmas) of this lexicon come from the lemmatisation of patristical and historical sources of the byzantine period. The corpus and lexical material have been adapted by the CENTAL (Louvain-la-Neuve) to Unitex, a lexical and syntactical analysis software created in the Laboratoire d'Informatique de l’Institut Gaspard Monge (Paris). An original interface allows on-line explorations of an experimental corpus (Basil of Caesarea's Letters; 134.511 word-tokens), entirely lemmatised already. Other corpora are now planned. The queries take lemmas, word-types or syntactical figures into account. Answers appear on the screen as concordances in a polytonic Unicode Greek font. An other lexical tool allows the user to select lemmas with common morphemes; a listing of all lemmas coming from the same word, compounded or derived, may be visualised as a morphological tree.