d'enseignement
en ligne
- Concepts de base en phonologie, morphologie, syntaxe et sémantique
- Ressources linguistiques
- Etiquetage en partie du discours
- Modélisation statistique de la langue (N-grams et modèles de Markov cachés)
- Algorithmes d'analyse robuste, grammaires hors-contexte probabilistes
- Applications de l'ingénierie linguistique telles que les logiciels de correction orthographique ou grammaticale, l'étiquetage en partie du discours ,l'indexation automatique de documents ou la catégorisation de textes
d'apprentissage
Eu égard au référentiel AA du programme « Master ingénieur civil en informatique », ce cours contribue au développement, à l'acquisition et à l'évaluation des acquis d'apprentissage suivants :
- INFO1.1-3
- INFO2.3-4
- INFO5.3-5
- INFO6.1, INFO6.4
Eu égard au référentiel AA du programme « Master [120] en sciences informatiques », ce cours contribue au développement, à l'acquisition et à l'évaluation des acquis d'apprentissage suivants :
- SINF1.M4
- SINF2.3-4
- SINF5.3-5
- SINF6.1, SINF6.4
Les étudiants ayant suivi avec fruit ce cours seront capables de
- décrire les concepts fondamentaux de la modélisation du langage naturel
- maîtriser la méthodologie de l'utilisation de ressources linguistiques (corpus, dictionnaires, réseaux sémantiques, etc) et faire un choix argumenté entre les différentes ressources linguistiques
- appliquer de manière pertinente les techniques statistiques de modélisation du langage
- développer des applications en ingénierie linguistique
Les étudiants auront développé des compétences méthodologiques et opérationnelles. En particulier, ils auront développé leur capacité à
- s'intégrer dans une approche pluridisciplinaire à la frontière entre l'informatique et la linguistique, en utilisant à bon escient la terminologie et les outils de l'une ou l'autre discipline,
- gérer au mieux le temps disponible pour mener à bien des mini-projets,
- manipuler et exploiter de grandes quantités de données.
La contribution de cette UE au développement et à la maîtrise des compétences et acquis du (des) programme(s) est accessible à la fin de cette fiche, dans la partie « Programmes/formations proposant cette unité d’enseignement (UE) ».
des acquis des étudiants
25 % pour les travaux pratiques + 75 % examen final (livre fermé)
Pas de possibilité de refaire les travaux en seconde session
- 12 cours magistraux
- 3 miniprojets
- séance de discussion sur les corrections des miniprojets
- Bases en linguistique : morphologie, partie du discours, structures de phrase, sémantique et pragmatique
- Rappels mathématiques : langages formels et éléments de la théorie de l'information
- Analyse de corpus : formatage, tokenization, morphologie, marquage des données
- N-grams : estimation par maximum de vraisemblance et lissage
- Modèles de Markov Cachés : définitions, algorithmes de Baum-Welch et de Viterbi
- Etiquetage en parties du discours
- Grammaires hors-contexte probabilistes : estimation des paramètres et algorithmes d'analyse, utilisation de treebanks
- Traduction automatique: méthodes classiques et statistiques (modèles IBM, modèles basés sur des segments de phrases), évaluation
-
Applications : prédicteur de mots pour SMS, marquage de parties de texte, outils d'extraction d'information
http://moodleucl.uclouvain.be/course/view.php?id=7865
Slides obligatoires disponibles sur le site :
http://moodleucl.uclouvain.be/course/view.php?id=7865
1 textbook conseillé :
Préalables:
- LSINF1121 : Algorithmique et structure de données
en charge