Vous avez déjà de bonnes notions de programmation ? Vous avez envie de réaliser un projet en text mining ? Vous comptez ensuite utiliser ces techniques de traitement automatique du langage dans un domaine spécifique ?
Le Text Mining (fouille de textes) consiste à analyser des données textuelles à l’aide de techniques quantitatives. A la frontière entre la linguistique, l’informatique et les statistiques, le Text Mining recouvre des techniques variées qui permettent, par exemple, d’automatiser la veille stratégique, d’analyser le style d’un auteur ou d’identifier les sentiments exprimés sur Internet à propos d'un événement, d'un produit, etc… Leur point commun est de permettre une analyse rapide de grandes quantités de données textuelles.
Le traitement automatique de la langue (TAL) et plus particulièrement le « Text Mining » font aujourd’hui partie intégrante de notre quotidien. Le moteur de recherche de Google, l’application Siri d’Apple ou l’assistant personnel intelligent Alexa d’Amazon sont autant d’exemples illustrant cette omniprésence. Au cœur de chacune de ces applications, la structuration de l’information est essentielle. Qu’il s’agisse d’extraire des dates ou des horaires dans des courriels pour planifier un événement ou d’identifier les actions à effectuer à la suite d’une commande vocale, l’analyse du contenu est au cœur de ce type d’applications.
Objectifs de la formation Notre formation a pour objectif de vous initier à cette analyse de contenu au travers d’exemples concrets, dans un cadre de veille économique. Ces exemples seront réalisés à l'aide du langage de programmation Python, qui devient la référence en data science. Pratiquement, nous avons divisé la formation en cinq modules distincts : prétraitement des données textuelles, étiquetage automatisé d’informations linguistiques, calculs de similarité entre documents, techniques de classification et extraction d’événements. Chacun de ces modules sera composé d’une partie théorique et d’une partie pratique ; l’ensemble offrira une chaîne de traitement complète de text mining.
Prérequis Les participants devront posséder une bonne connaissance de la programmation en général. Des connaissances de base en Python peuvent être utiles. Une mise à niveau en Python est proposée en amont de la formation afin de la rendre accessible au plus grand nombre :
Prétraitement des données : le participant apprendra comment acquérir et préparer des données textuelles. Il sera ainsi amené à collecter et à normaliser des documents, à identifier les éléments de contenu pertinents et à leur associer différentes métadonnées afin d'obtenir un corpus propre et documenté.
Étiquetage morpho-syntaxique et extraction d’entités nommées : le participant découvrira dans ce module des techniques essentielles d'étiquetage automatique des textes, en particulier l'attribution, à chaque mot du texte, d'une partie du discours (ex. verbe, nom, adjectif, etc.) et l'identification d'entités nommées (ex. noms d'organisation, de lieu, de personne, dates, etc.). Les méthodes présentées reposeront aussi bien sur des approches par règles que sur des approches statistiques.
Similarité textuelle : le participant apprendra comment mesurer la similarité entre documents à l'aide d'une représentation vectorielle (vector space model). Il aura aussi l'occasion d'aborder des techniques plus avancées, qui incluent notamment des méthodes à base de réseaux de neurones (ex. Word2Vec).
Classification : le participant sera confronté aux enjeux et défis des méthodes de classification appliquées à des données textuelles. Il pourra se rendre compte des difficultés liées à la définition et à l'annotation de classes, mais aussi à la création et à la manipulation d'un grand nombre de variables linguistiques. Le module présentera la méthodologie de conception et d'évaluation de modèles spécifiques au TAL.
Extraction d’évènements : le participant découvrira les concepts théoriques liés à l'analyse syntaxique et les appliquera à l'extraction et à la structuration d'événements financiers (ex. prise de participation, fusion, acquisition, etc.).
Tarif Cette formation est reconnue par l'IABE et permet de ce fait aux participant·es d'obtenir des points CPD. (Ceci est d'ailleurs vrai pour l'entièreté de l'offre de formations du SMCS.)