Computational Linguistics

lingi2263  2019-2020  Louvain-la-Neuve

Computational Linguistics
Note du 29 juin 2020
Sans connaitre encore le temps que dureront les mesures de distances sociales liées à la pandémie de Covid-19, et quels que soient les changements qui ont dû être opérés dans l’évaluation de la session de juin 2020 par rapport à ce que prévoit la présente fiche descriptive, de nouvelles modalités d’évaluation des unités d’enseignement peuvent encore être adoptées par l’enseignant ; des précisions sur ces modalités ont été -ou seront-communiquées par les enseignant·es aux étudiant·es dans les plus brefs délais.
5 crédits
30.0 h + 15.0 h
Q1
Enseignants
Dupont Pierre; Fairon Cédrick;
Langue
d'enseignement
Anglais
Préalables
LINFO1121 Algorithmique et structures de données https://uclouvain.be/cours-linfo1121.html
Thèmes abordés
  • Concepts de base en phonologie, morphologie, syntaxe et sémantique
  • Ressources linguistiques
  • Etiquetage en partie du discours
  • Modélisation statistique de la langue (N-grams et modèles de Markov cachés)
  • Algorithmes d'analyse robuste, grammaires hors-contexte probabilistes
  • Applications de l'ingénierie linguistique telles que les logiciels de correction orthographique ou grammaticale, l'étiquetage en partie du discours ,l'indexation automatique de documents ou la catégorisation de textes
Acquis
d'apprentissage

A la fin de cette unité d’enseignement, l’étudiant est capable de :

1 Eu égard au référentiel AA du programme « Master ingénieur civil en informatique », ce cours contribue au développement, à l'acquisition et à l'évaluation des acquis d'apprentissage suivants :
  • INFO1.1-3
  • INFO2.3-4
  • INFO5.3-5
  • INFO6.1, INFO6.4
Eu égard au référentiel AA du programme « Master [120] en sciences informatiques », ce cours contribue au développement, à l'acquisition et à l'évaluation des acquis d'apprentissage suivants :
  • SINF1.M4
  • SINF2.3-4
  • SINF5.3-5
  • SINF6.1, SINF6.4
Les étudiants ayant suivi avec fruit ce cours seront capables de
  • décrire les concepts fondamentaux de la modélisation du langage naturel
  • maîtriser la méthodologie de l'utilisation de ressources linguistiques (corpus, dictionnaires, réseaux sémantiques, etc) et faire un choix argumenté entre les différentes ressources linguistiques
  • appliquer de manière pertinente les techniques statistiques de modélisation du langage
  • développer des applications en ingénierie linguistique
Les étudiants auront développé des compétences méthodologiques et opérationnelles.  En particulier, ils auront développé leur capacité à
  • s'intégrer dans une approche pluridisciplinaire à la frontière entre l'informatique et la linguistique, en utilisant à bon escient la terminologie et les outils de l'une ou l'autre discipline,
  • gérer au mieux le temps disponible pour mener à bien des mini-projets,
  • manipuler et exploiter de grandes quantités de données.
 

La contribution de cette UE au développement et à la maîtrise des compétences et acquis du (des) programme(s) est accessible à la fin de cette fiche, dans la partie « Programmes/formations proposant cette unité d’enseignement (UE) ».
Contenu
  • Bases en linguistique : morphologie, partie du discours, structures de phrase, sémantique et pragmatique
  • Analyse de corpus : formatage, tokenization, morphologie, marquage des données
  • Modélisation probabilistes du langage : N-grams, HMMs
  • Etiquetage en parties du discours
  • Grammaires hors-contexte probabilistes : estimation des paramètres et algorithmes d'analyse, utilisation de treebanks
  • Introduction à la traduction automatique
  • Sémantique lexicale
  • Extraction d'information
  • Examples d'applications : marquage de parties de texte, outils d'extraction d'information, parseurs probabilistes, ...
Méthodes d'enseignement
  • Cours magistraux
  • Mini-projets (de 2 à 3 semaines) implémentés, par défaut, en python et réalisés en groupes de 2 étudiants 
  • Séances de discussion sur les corrections des mini-projets
Modes d'évaluation
des acquis des étudiants
Les mini-projets valent pour 25 % de la note finale, 75 % pour l'examen final (à livre fermé).
Les mini-projets NE peuvent PAS être refaits en seconde session, les 25 % sont donc déjà fixés à la fin du quadrimestre et repris tels quels dans la note finale en seconde session.
L'examen final est, par défaut, un écrit (sur papier ou, le cas échéant, sur un ordinateur de l'UCLouvain).
Bibliographie
Support de cours
  • Les supports obligatoires sont constitués de l'ensemble des documents (transparents des cours magistraux, énoncés des travaux pratiques, compléments, ...) disponibles sur le site Moodle du cours.
  • Required teaching material include all documents (lecture slides, project assignments, complements, ...) available on the Moodle website for this course.
Faculté ou entité
en charge
INFO


Programmes / formations proposant cette unité d'enseignement (UE)

Intitulé du programme
Sigle
Crédits
Prérequis
Acquis
d'apprentissage
Master [120] : ingénieur civil en science des données

Master [120] : ingénieur civil en informatique

Master [120] en linguistique

Master [120] en sciences informatiques

Master [120] en science des données, orientation statistique

Master [120] en science des données, orientation technologies de l'information