Ecole d'été : Intelligence artificielle pour le traitement de données textuelles en Python

[5 jours] - [débute le 13-07-2026 à 08:45] - [Français] - [Louvain-la-Neuve]

Vous avez déjà de bonnes notions de programmation ? Vous avez envie de réaliser un projet en text mining ? Vous comptez ensuite utiliser ces techniques de traitement automatique du langage dans un domaine spécifique ?

Découvrez ici la brochure de présentation de la formation.

Le Text Mining (fouille de textes) consiste à analyser des données textuelles à l’aide de techniques quantitatives. À la frontière entre la linguistique, l’informatique, les statistiques et l'intelligence artificielle, le Text Mining recouvre des techniques variées qui permettent, par exemple, d’automatiser la veille stratégique, d’analyser le style d’un auteur ou d’identifier les sentiments exprimés sur Internet à propos d'un événement, d'un produit, etc… Leur point commun est de permettre une analyse rapide de grandes quantités de données textuelles.

Le traitement automatique de la langue (TAL ; en anglais natural language processing – NLP) est une discipline qui se situe à l'intersection de la linguistique, de l'informatique et de l'intelligence artificielle. Il utilise un ensemble de technologies qui permettent aux ordinateurs de « comprendre », d'analyser et de générer du langage humain. Le moteur de recherche de Google, l’application Siri d’Apple ou chatGPT d’openAI montrent à quel point les résultats des recherches dans cette discipline font partie intégrante de notre quotidien. Qu’il s’agisse d’extraire des dates dans des courriels pour planifier un évènement ou d’identifier les actions à effectuer à la suite d’une commande vocale, la structuration de l’information et l’analyse du contenu sont essentiels.

Objectifs de la formation
Cette école d’été a pour objectif de vous familiariser au text mining, c’est-à-dire un ensemble de techniques qui reposent sur des algorithmes, ressources linguistiques et modèles de langue permettant de traiter les données textuelles stockées sur un support informatique. Vous en découvrirez de multiples usages au travers de différentes techniques issues de l’apprentissage automatique. Le programme est divisé en modules qui mêlent à la fois exposés théoriques et mises en situation pratique. L’ensemble offre une chaîne de traitement complète de text mining utilisant le langage de programmation Python.

Prérequis
La formation s'adresse à des personnes ayant une base correcte en programmation en Python et sera réalisée à l'aide de Google Colab, qui nécessite un compte Google. Une mise à niveau en Python est proposée en amont de la formation afin de la rendre accessible au plus grand nombre :
Initiation au langage Python

Contenu

La formation est organisée en modules, couvrant notamment :

Acquisition et prétraitement de données : collecte, normalisation, sélection d’éléments pertinents, enrichissement en métadonnées, exploration et visualisation, bases utiles pour l’utilisation de données dans des réseaux de neurones.
Similarité de documents : approches et modèles pour mesurer la similarité, avec des applications en recherche d’information, recommandation et clustering. Techniques abordées : topic modeling, Word2vec, fastText, transformers, sentence transformers, cross-encoders.
Génération augmentée de récupération (RAG) : mise en place d’un système permettant d’interroger sa propre collection de documents via des modèles génératifs.
Classification de documents : conception et évaluation de modèles, difficultés de définition/annotation des classes, principaux algorithmes (arbres de décision, SVM) et approches deep learning (perceptron multi-couches, transformers, mécanisme d’attention).
Étiquetage automatique : attribution de catégories linguistiques ou sémantiques à des séquences de mots, avec un focus sur des modèles séquentiels et une application type en reconnaissance d’entités nommées (personnes, lieux, organisations, etc.).

La formation se veut à la fois théorique et pratique, avec un accent sur des cas d’usage représentatifs du text mining moderne. Les méthodes présentées reposeront sur certaines approches statistiques encore très utilisées aujourd'hui, mais aussi sur les avancées plus récentes dans le domaine des réseaux de neurones et du deep learning.

Lieu
Louvain-la-Neuve : MDL SI 1 - Localiser l'endroit sur Google Maps
(Cette salle est climatisée. Prévoyez de quoi vous couvrir !)
- Voie du Roman Pays, 3A - Maison des langues, Niveau -1, MDL SI 1 -

Public
Cette école d'été est accessible à tous moyennant inscription et paiement préalables. Reconnue par l'IABE, l'école d'été donne lieu à des points CPD (7 / jour).

Le tarif de la formation est le suivant :

Jusqu'au 30 avril 2026 - Tarif early bird prolongé jusqu’au 15 mai :

Membre UCLouvain ou chercheur d'une autre Université : 550€
Personne externe à l'UCLouvain : 1300€

A partir du 30 avril 2026 - Tarif early bird prolongé jusqu’au 15 mai :

Membre UCLouvain ou chercheur d'une autre Université : 750€
Personne externe à l'UCLouvain : 1600€

Les frais d’inscription sont dus dès l’inscription et seront facturés dans leur intégralité en cas d’annulation par le participant après le 30 avril 2026. Si l’annulation est demandée par écrit avant cette date, seule une retenue de 150€ pour frais administratifs sera opérée.

Le maintien de l’école d'été est conditionné par l’inscription d’un nombre suffisant de participants. Les participants seront tenus informés d’une éventuelle annulation au plus tard le 31 mai. En cas d’annulation, le montant payé pour l’inscription sera reversé dans son intégralité.

Plage horaire de la formation
13-07-2026 de 08:45 à 18:30
14-07-2026 de 09:00 à 17:30
15-07-2026 de 09:00 à 17:30
16-07-2026 de 09:00 à 17:30
17-07-2026 de 09:00 à 17:30

Tarif
Membre UCLouvain, Facture honorée par une université, Etudiant, Chercheur, Membre SHS Namur : 750 euros
Entreprise, Membre des Cliniques UCLouvain, Particulier : 1600 euros

Aide financière
Cette formation est reconnue par l'IABE et permet de ce fait aux participant·es d'obtenir des points CPD.
(Ceci est d'ailleurs vrai pour l'entièreté de l'offre de formations du SMCS.)

en savoir plus (ouvrir)

Outils utilisés durant la formation
Python

Statistique descriptive
Text Mining

13 places disponibles.

Veuillez vous identifier pour vous inscrire à cette formation.