Auteur(s) : Laurent
KEVERS et Bastien KINDT (Université catholique de Louvain, Louvain-la-Neuve,
Belgique)
Titre : Vers un lemmatiseur-concordanceur en ligne du grec
ancien
Revue : L’Antiquité Classique
Volume : 73
Date : 2004
Pages : 203-213
Résumé
:
Les travaux du Projet de recherche
en lexicologie grecque (Université catholique de Louvain, Louvain-la-Neuve,
Belgique) visent à élaborer un dictionnaire général
du grec ancien applicable aux logiciels de traitement automatique du langage
naturel (TAL). Constitué de données lexicales produites par la
lemmatisation systématique de sources patristiques et historiographiques
d’époque byzantine, ce dictionnaire compte actuellement 174.758
« formes de mots » classées sous 33.874 lemmes accompagnés
d’une indication de leur catégorie morpho-syntaxique. Les sources
littéraires analysées et les données générées
ont été adaptées par le CENTAL (Louvain-la-Neuve) à
Unitex, un logiciel d’exploration lexicale et syntaxique des textes développé
au Laboratoire d’Informatique de l’Institut Gaspard Monge
(Paris). Une interface originale permet d’interroger en ligne un corpus
expérimental, entièrement lemmatisé et désambiguïsé,
limité pour l’instant aux lettres de Basile de Césarée
(134.511 occurrences) mais susceptible de s’accroître dans un futur
proche. Les requêtes peuvent être formulées sur base des
lemmes et des formes ou à partir de motifs syntaxiques. Les réponses
s’affichent à l’écran en grec polytonique Unicode
sous forme de concordances. Un étiquetage des morphèmes constitutifs
des lemmes permet de plus d’appeler les lemmes formellement apparentés
à un même mot. Le résultat apparaît sous la forme
d’une « arborescence dérivationnelle » rassemblant
les dérivés et les composés du terme étudié.
Abstract :
Towards an on-line software of concordancing-lemmatising for Ancient Greek
One of the aims of the Research project in Greek lexicology (Université
catholique de Louvain, Louvain-la-Neuve, Belgium) is to create an electronic
dictionary of Ancient Greek useful for automated textual analysis softwares.
The lexical data (174.758 word-types; 33.874 lemmas) of this lexicon come from
the lemmatisation of patristical and historical sources of the byzantine period.
The corpus and lexical material have been adapted by the CENTAL (Louvain-la-Neuve)
to Unitex, a lexical and syntactical analysis software created in the Laboratoire
d'Informatique de l’Institut Gaspard Monge (Paris). An original interface
allows on-line explorations of an experimental corpus (Basil of Caesarea's Letters;
134.511 word-tokens), entirely lemmatised already. Other corpora are now planned.
The queries take lemmas, word-types or syntactical figures into account. Answers
appear on the screen as concordances in a polytonic Unicode Greek font. An other
lexical tool allows the user to select lemmas with common morphemes; a listing
of all lemmas coming from the same word, compounded or derived, may be visualised
as a morphological tree.