En 1998, le projet Frida était
lancé par le "Centre for English Corpus Linguistics" du Professeur
Sylviane Granger afin de rassembler un corpus de français - langue étrangère.
La "French Interlanguage Database" contient actuellement 200.000 mots.
Nous espérons, dans un avenir proche, atteindre 450.000 mots. Le corpus est
actuellement utilisé dans le projet européen FreeText (French in Context) dont le but est d'établir, sur la base des erreurs
d'apprenants observées dans Frida, un outil multimédia d'apprentissage du
français. A terme, ces recherches pourraient déboucher sur la conception d'un
correcteur automatique adapté aux utilisateurs non francophones.
Voici la carte d'identité de
Frida.
Intermédiaire
Entre 100 et 1.000 mots (par
texte).
Compositions libres : textes
descriptifs, argumentatifs, narratifs, courrier, journal.
Nous souhaitons rassembler des
écrits d'apprenants de langues maternelles très diverses (Europe, Asie,...).
Nous ne nous limitons pas à
encoder les textes que nous recevons, chacun d'eux est minutieusement analysé
et une fois toutes les erreurs répertoriées, nous les étiquetons. Le système
d'étiquetage des erreurs développé pour le français trouve son origine dans
celui qui fut, en son temps, établi pour l'anglais langue seconde (E. Dagneaux,
S. Denness & S. Granger, Computer- aided Error Analysis, System,
26, 1998, 163-174). Cependant, contrairement au système d'étiquetage anglais,
le système français a été implémenté en "eXtensible Markup Language,
un sous-ensemble de SGML qui permet au SGML générique d'être servi, reçu et
développé sur le Web de la même manière qu'il est aujourd'hi possible grâce
l'HTML.
L'emploi de la norme XML a rendu
possible la création d'un système d'étiquetage beaucoup plus flexible que celui
développé pour l'anglais.
Dans le système d'étiquetage
français, chaque erreur se voit attribuer trois balises : domaine
d'erreurs (grammaire, lexique, orthographe, etc.), catégorie d'erreurs (genre,
nombre, etc.) et catégorie grammaticale (nom, adjectif, etc.).
Nombreux sont les outils qui permettent
d'analyser des corpus électroniques. Un logiciel récent qui est à la fois
performant et convivial est WordSmith Tools
de Mike Scott (Oxford University Press).
On peut facilement obtenir des
listes de fréquence de tous les mots dans le corpus. Les listes de fréquences
se présentent de deux manières : par ordre alphabétique et par ordre de
fréquence.
Cette fonctionnalité permet de
comparer automatiquement la fréquence des mots dans des corpus différents et de
faire ressortir les mots soit beaucoup plus employés soit beaucoup moins dans
un des corpus.
Cette fonctionnalité permet de
visualiser toutes les occurrences d'un même mot en contexte et de manipuler ce
même contexte (tri à gauche, tri à droite, etc.).
Nous souhaitons élargir et
diversifier notre corpus de français langue étrangère et nous espérons que vous
serez nombreux à nous aider à atteindre ce but.
... en nous fournissant des
textes qui répondent à nos critères. Afin de clarifier les choses, nous
reproduisons ci-dessous un premier texte de niveau trop bas, un second de
niveau trop élevé et un dernier de niveau intermédiaire.
Belgique est un pays beau et
petit. Dans la Belgique il pleu bocoup. Per eaxmple, dans Mexique n'est jamais
pleu tous les jours, il fait chaud.
La Université de Louvaine est un
place qui ce intéressant pour le studiant pas que le nivel ce treu beau.
Ma faculté,IAG, ce est grand et
je aime l'personnes qui travail dans le departamant. les cours ici il n'pa
difficil, pas que au Mexique tout la semaine il a an class. Ici solatmant 3 ou
4 jours pour semaine. Belgique ce importan pour tout le mond pas que ce la
capital de l'comunite europa.
C'était le grand esprit Machiavel
qui a dit une fois : "On fait la guerre quand on veut, on la termine
quand on peut." Est-ce la volonté d'un seul homme puissant qui la fait
déclencher et est-ce le pouvoir d'un peuple qui la termine ?
Depuis son apparition sur le
globe terrestre, l'homme a fait la guerre. Centrons nos réflexions sur
l'histoire guerrière afin de relever quelques tendances caractéristiques à la
plupart des guerres.
Dans tout le monde, il y a plus
que plusieurs langues étrangères. Ce pour sa, qui parler ou connaître plusieurs
de langues est necessaire. Mais, je crois qui parler trois ou quattre langues
sont sufficents, parce qui n'est pas possible étudier tout le langues. Choisir
quelle langue étudier est très important. Le langue qui je vais utiliser dans
mon vie proffesionel, dans mon voyages ou le langue que mon mari va parler.
Tout texte que vous nous enverrez
vous sera renvoyé sous forme électronique ce qui vous permettra de les analyser
beaucoup plus rapidement grâce à des logiciels tel que WordSmith Tools (dont
vous pouvez télécharger la démo à l'adresse suivante : Oxford
University Press).
Si vous avez déjà des données au
format électronique, nous vous proposons un échange : vous nous envoyez un corpus
encodé et nous vous renvoyons un de nos corpus d'une importance équivalente.
1. Remplir et nous renvoyer le
formulaire intitulé Profil
de Corpus que vous trouverez en suivant le lien du même nom.
2. Nous envoyer un court extrait
significatif du corpus à l'adresse suivante :
Professeur Sylviane Granger
Centre for English Corpus Linguistics
Université catholique de Louvain
Place Blaise Pascal, 1
1348 Louvain-la-Neuve
Belgique
http://sites.uclouvain.be/cecl/projects/Frida/gateway.htm
3. Nous envoyer, si nous vous le
confirmons, par poste ou courrier électronique (selon le format des données) la
totalité du corpus. Chaque corpus doit être accompagné non seulement de son
profil mais également du profil de chaque étudiant dont vous trouverez une
version au format .doc en suivant le lien Profil
de l'apprenant.