Quid de l'encodage ?

 

        Nous ne nous limitons pas à encoder les textes que nous recevons, chacun d'eux est minutieusement analysé et une fois toutes les erreurs répertoriées, nous les étiquetons. Le système d'étiquetage des erreurs développé pour le français trouve son origine dans celui qui fut, en son temps, établi pour l'anglais langue seconde (E. Dagneaux, S. Denness & S. Granger, Computer-aided Error Analysis, System, 26, 1998, 163-174). Cependant, contrairement au système d’étiquetage anglais, le système français a été implémenté en « eXtensible Markup Language » (XML), un sous-ensemble de SGML qui permet au SGML générique d’être servi, reçu et développé sur le Web de la même manière qu’il est aujourd’hui possible grâce à l’HTML.

        L’emploi de la norme XML a rendu possible la création d’un système d’étiquetage beaucoup plus flexible que celui développé pour l’anglais.

        Dans le système d’étiquetage français, chaque erreur se voit attribuer trois balises : domaine d''erreurs (grammaire, lexique, orthographe, etc.), catégorie d'erreurs (genre, nombre, etc.) et catégorie grammaticale (nom, adj, etc.). Ce système peut être représenté schématiquement de la manière suivante :