Computational Linguistics [ LINGI2263 ]
5.0 crédits ECTS
30.0 h + 15.0 h
2q
Enseignant(s) |
Dupont Pierre ;
Fairon Cédrick ;
|
Langue d'enseignement: |
Anglais
|
Lieu de l'activité |
Louvain-la-Neuve
|
Préalables |
-
Algorithmique et de préférence des connaissances de base en apprentissage automatiques (tels que visés par les cours SINF1121 et INGI2262)
|
Thèmes abordés |
- Concepts de base en phonologie, morphologie, syntaxe et sémantique
- Ressources linguistiques
- Etiquetage en partie du discours
- Modélisation statistique de la langue (N-grams et modèles de Markov cachés)
- Algorithmes d'analyse robuste, grammaires hors-contexte probabilistes
- Applications de l'ingénierie linguistique telles que les logiciels de correction orthographique ou grammaticale, l'étiquetage en partie du discours ,l'indexation automatique de documents ou la catégorisation de textes
|
Acquis d'apprentissage |
Les étudiants ayant suivi avec fruit ce cours seront capables de
-
décrire les concepts fondamentaux de la modélisation du langage naturel
-
maîtriser la méthodologie de l'utilisation de ressources linguistiques (corpus, dictionnaires, réseaux sémantiques, etc) et faire un choix argumenté entre les différentes ressources linguistiques
-
appliquer de manière pertinente les techniques statistiques de modélisation du langage
-
développer des applications en ingénierie linguistique
Les étudiants auront développé des compétences méthodologiques et opérationnelles. En particulier, ils auront développé leur capacité à
-
s'intégrer dans une approche pluridisciplinaire à la frontière entre l'informatique et la linguistique, en utilisant à bon escient la terminologie et les outils de l'une ou l'autre discipline,
-
gérer au mieux le temps disponible pour mener à bien des mini-projets,
-
manipuler et exploiter de grandes quantités de données.
|
Modes d'évaluation des acquis des étudiants |
25 % pour les travaux pratiques + 75 % examen final (livre fermé)
Pas de possibilité de refaire les travaux en seconde session
|
Méthodes d'enseignement |
-
12 cours magistraux
-
3 miniprojets
-
séance de discussion sur les corrections des miniprojets
|
Contenu |
-
Bases en linguistique : morphologie, partie du discours, structures de phrase, sémantique et pragmatique
-
Rappels mathématiques : langages formels et éléments de la théorie de l'information
-
Analyse de corpus : formatage, tokenization, morphologie, marquage des données
-
N-grams : estimation par maximum de vraisemblance et lissage
-
Modèles de Markov Cachés : définitions, algorithmes de Baum-Welch et de Viterbi
-
Etiquetage en parties du discours
-
Grammaires hors-contexte probabilistes : estimation des paramètres et algorithmes d'analyse, utilisation de treebanks
-
Traduction automatique: méthodes classiques et statistiques (modèles IBM, modlèles basés sur la phrase), évaluation
-
Applications : prédicteur de mots pour SMS, marquage de parties de texte, outils d'extraction d'informationhttp://www.icampus.ucl.ac.be/claroline/course/index.php?cid=INGI2263
|
Bibliographie |
Slides obligatoires disponibles sur le site :
http://www.icampus.ucl.ac.be/claroline/course/index.php?cid=INGI2263
1 textbook conseillé :
|
Cycle et année d'étude |
> Master [120] en linguistique
> Master [120] : ingénieur civil en informatique
> Master [120] en sciences informatiques
> Master [120] en statistiques, orientation générale
|
Faculté ou entité en charge |
> INFO
|
<<< Page précédente
|