Bref historique de Frida

En 1998, le projet Frida était lancé par le "Centre for English Corpus Linguistics" du Professeur Sylviane Granger afin de rassembler un corpus de français - langue étrangère. La "French Interlanguage Database" contient actuellement 200.000 mots. Nous espérons, dans un avenir proche, atteindre 450.000 mots. Le corpus est actuellement utilisé dans le projet européen FreeText (French in Context) dont le but est d'établir, sur la base des erreurs d'apprenants observées dans Frida, un outil multimédia d'apprentissage du français. A terme, ces recherches pourraient déboucher sur la conception d'un correcteur automatique adapté aux utilisateurs non francophones.

Quel type de données ?

Voici la carte d'identité de Frida.

Niveau d'apprentissage

Intermédiaire

Longueur approximative

Entre 100 et 1.000 mots (par texte).

Types d'écrit

Compositions libres : textes descriptifs, argumentatifs, narratifs, courrier, journal.

Langue maternelle

Nous souhaitons rassembler des écrits d'apprenants de langues maternelles très diverses (Europe, Asie,...).

Quid de l'encodage ?

Nous ne nous limitons pas à encoder les textes que nous recevons, chacun d'eux est minutieusement analysé et une fois toutes les erreurs répertoriées, nous les étiquetons. Le système d'étiquetage des erreurs développé pour le français trouve son origine dans celui qui fut, en son temps, établi pour l'anglais langue seconde (E. Dagneaux, S. Denness & S. Granger, Computer- aided Error Analysis, System, 26, 1998, 163-174). Cependant, contrairement au système d'étiquetage anglais, le système français a été implémenté en "eXtensible Markup Language, un sous-ensemble de SGML qui permet au SGML générique d'être servi, reçu et développé sur le Web de la même manière qu'il est aujourd'hi possible grâce l'HTML.

L'emploi de la norme XML a rendu possible la création d'un système d'étiquetage beaucoup plus flexible que celui développé pour l'anglais.

Dans le système d'étiquetage français, chaque erreur se voit attribuer trois balises : domaine d'erreurs (grammaire, lexique, orthographe, etc.), catégorie d'erreurs (genre, nombre, etc.) et catégorie grammaticale (nom, adjectif, etc.).

L'analyse des données

Quels types d'outils

Nombreux sont les outils qui permettent d'analyser des corpus électroniques. Un logiciel récent qui est à la fois performant et convivial est WordSmith Tools de Mike Scott (Oxford University Press).

Quels types de recherches

Listes fréquences

On peut facilement obtenir des listes de fréquence de tous les mots dans le corpus. Les listes de fréquences se présentent de deux manières : par ordre alphabétique et par ordre de fréquence.

Listes comparatives

Cette fonctionnalité permet de comparer automatiquement la fréquence des mots dans des corpus différents et de faire ressortir les mots soit beaucoup plus employés soit beaucoup moins dans un des corpus.

Concordances

Cette fonctionnalité permet de visualiser toutes les occurrences d'un même mot en contexte et de manipuler ce même contexte (tri à gauche, tri à droite, etc.).

... we need you !...

Nous souhaitons élargir et diversifier notre corpus de français langue étrangère et nous espérons que vous serez nombreux à nous aider à atteindre ce but.

Comment ?

... en nous fournissant des textes qui répondent à nos critères. Afin de clarifier les choses, nous reproduisons ci-dessous un premier texte de niveau trop bas, un second de niveau trop élevé et un dernier de niveau intermédiaire.

Trop Fautif

Belgique est un pays beau et petit. Dans la Belgique il pleu bocoup. Per eaxmple, dans Mexique n'est jamais pleu tous les jours, il fait chaud.

La Université de Louvaine est un place qui ce intéressant pour le studiant pas que le nivel ce treu beau.

Ma faculté,IAG, ce est grand et je aime l'personnes qui travail dans le departamant. les cours ici il n'pa difficil, pas que au Mexique tout la semaine il a an class. Ici solatmant 3 ou 4 jours pour semaine. Belgique ce importan pour tout le mond pas que ce la capital de l'comunite europa.

Pas assez fautif

C'était le grand esprit Machiavel qui a dit une fois : "On fait la guerre quand on veut, on la termine quand on peut." Est-ce la volonté d'un seul homme puissant qui la fait déclencher et est-ce le pouvoir d'un peuple qui la termine ?

Depuis son apparition sur le globe terrestre, l'homme a fait la guerre. Centrons nos réflexions sur l'histoire guerrière afin de relever quelques tendances caractéristiques à la plupart des guerres.

Niveau intermédiaire

Dans tout le monde, il y a plus que plusieurs langues étrangères. Ce pour sa, qui parler ou connaître plusieurs de langues est necessaire. Mais, je crois qui parler trois ou quattre langues sont sufficents, parce qui n'est pas possible étudier tout le langues. Choisir quelle langue étudier est très important. Le langue qui je vais utiliser dans mon vie proffesionel, dans mon voyages ou le langue que mon mari va parler.

Pourquoi ?

Tout texte que vous nous enverrez vous sera renvoyé sous forme électronique ce qui vous permettra de les analyser beaucoup plus rapidement grâce à des logiciels tel que WordSmith Tools (dont vous pouvez télécharger la démo à l'adresse suivante : Oxford University Press).

Si vous avez déjà des données au format électronique, nous vous proposons un échange : vous nous envoyez un corpus encodé et nous vous renvoyons un de nos corpus d'une importance équivalente.

Démarche à suivre

1. Remplir et nous renvoyer le formulaire intitulé Profil de Corpus que vous trouverez en suivant le lien du même nom.

2. Nous envoyer un court extrait significatif du corpus à l'adresse suivante :

Professeur Sylviane Granger
Centre for English Corpus Linguistics
Université catholique de Louvain
Place Blaise Pascal, 1
1348 Louvain-la-Neuve
Belgique

Sylviane Granger

http://sites.uclouvain.be/cecl/projects/Frida/gateway.htm

3. Nous envoyer, si nous vous le confirmons, par poste ou courrier électronique (selon le format des données) la totalité du corpus. Chaque corpus doit être accompagné non seulement de son profil mais également du profil de chaque étudiant dont vous trouverez une version au format .doc en suivant le lien Profil de l'apprenant.