<- Archives UCL - Programme d'études ->



Computational Linguistics [ LINGI2263 ]


5.0 crédits ECTS  30.0 h + 15.0 h   2q 

Enseignant(s) Fairon Cédrick ; Dupont Pierre (coordinateur) ;
Langue
d'enseignement:
Anglais
Lieu de l'activité Louvain-la-Neuve
Préalables
  • Algorithmique et de préférence des connaissances de base en apprentissage automatiques (tels que visés par les cours SINF1121 et INGI2262)
Thèmes abordés
  • Concepts de base en phonologie, morphologie, syntaxe et sémantique
  • Ressources linguistiques
  • Etiquetage en partie du discours
  • Modélisation statistique de la langue (N-grams et modèles de Markov cachés)
  • Algorithmes d'analyse robuste, grammaires hors-contexte probabilistes
  • Applications de l'ingénierie linguistique telles que les logiciels de correction orthographique ou grammaticale, l'étiquetage en partie du discours ,l'indexation automatique de documents ou la catégorisation de textes
Acquis
d'apprentissage

Les étudiants ayant suivi avec fruit ce cours seront capables de

  • décrire les concepts fondamentaux de la modélisation du langage naturel
  • maîtriser la méthodologie de l'utilisation de ressources linguistiques (corpus, dictionnaires, réseaux sémantiques, etc) et faire un choix argumenté entre les différentes ressources linguistiques
  • appliquer de manière pertinente les techniques statistiques de modélisation du langage
  • développer des applications en ingénierie linguistique

Les étudiants auront développé des compétences méthodologiques et opérationnelles.  En particulier, ils auront développé leur capacité à

  • s'intégrer dans une approche pluridisciplinaire à la frontière entre l'informatique et la linguistique, en utilisant à bon escient la terminologie et les outils de l'une ou l'autre discipline,
  • gérer au mieux le temps disponible pour mener à bien des mini-projets,
  • manipuler et exploiter de grandes quantités de données.
Modes d'évaluation
des acquis des étudiants
  • 25 % pour les trois miniprojets
  • 75 % pour l'examen final
Méthodes d'enseignement
  • 12 cours magistraux
  • 3 miniprojets
  • séance de discussion sur les corrections des miniprojets
Contenu
  • Bases en linguistique : morphologie, partie du discours, structures de phrase, sémantique et pragmatique
  • Rappels mathématiques : langages formels et éléments de la théorie de l'information
  • Analyse de corpus : formatage, tokenization, morphologie, marquage des données
  • N-grams : estimation par maximum de vraisemblance et lissage
  • Modèles de Markov Cachés : définitions, algorithmes de Baum-Welch et de Viterbi
  • Etiquetage en parties du discours
  • Grammaires hors-contexte probabilistes : estimation des paramètres et algorithmes d'analyse, utilisation de treebanks
  • Traduction automatique: méthodes classiques et statistiques (modèles IBM, modlèles basés sur la phrase), évaluation
  • Applications : prédicteur de mots pour SMS, marquage de parties de texte, outils d'extraction d'information
Bibliographie

Ouvrage principal

Ce livre est hautement recommandé mais n'est pas obligatoire pour suivre le cours.

Support obligatoire

Le matériel obligatoire pour ce cours est définie comme l'ensemble des documents et de diapositives disponibles sur le site icampus, ainsi que les communications orales et les exposés donnés chaque semaine . Aucun de ces documents ne peuvent être consultés lors de l'examen final (examen à livre fermé).

Ouvrages complémentaires

  • Foundations of Statistical Natural Language Processing, C. Manning and H. Schutze, MIT Press, 1999.
  • The Oxford Handbook of Computational Linguistics, Ruslan Mitkov (Editor), Oxford University Press, 2003.
  • Ingénierie des langues. Sous la dir. de J.M. Pierrel, Hermes Science Publications, 2000.
Cycle et année
d'étude
> Master [120] : ingénieur civil en informatique
> Master [120] en sciences informatiques
> Master [120] en linguistique
> Master [120] en statistiques, orientation générale
Faculté ou entité
en charge
> INFO


<<< Page précédente