Données textuelles

L'analyse de données textuelles est une approche qui envisage les textes comme des données et permet d'explorer et de visualiser les recueils de textes divers. Elle concerne aussi bien des textes brefs (comme des commentaires ou des tweets) que des textes plus longs (comme des articles, des rapports ou des livres).

Aujourd'hui, l'équipe du SMCS a développé une certaine expertise pour ce qui est des données textuelles et peut dès lors vous accompagner dans l'exploration des logiciels R, Python, Orange, et l'utilisation de méthodes spécifiques, comme :

Web scraping : extraction de données depuis des sites web

Text mining : extraction de l'information utile et de schémas à partir de données textuelles non structurées, en utilisant des techniques de traitement automatique du langage, machine learning ou statistiques
- Wordcloud : visualisation des mots les plus fréquemment utilisés dans un corpus
- Topic modeling : classification de textes en groupes thématiques déterminés automatiquement
- Analyse de sentiments : classification des textes en fonction de leur tonalité (positive, neutre, négative), par exemple sur des tweets ou des avis clients
- Détection de similarité : regroupement de textes similaires, détection de plagiat ou d’opinions proches

Traitement automatique du langage (TAL ou, en anglais, NLP (natural language processing))* : utilisation d'un ensemble de techniques et méthodes pour permettre à une machine de comprendre, interpréter et générer du langage humain - le TAL combine des domaines tels que la linguistique, l'informatique et l'intelligence artificielle

(*) Dans le domaine du traitement automatique du langage (TAL), le SMCS bénéficie de la grande expertise du CENTAL, une autre plateforme de l'UCLouvain, avec laquelle une belle collaboration existe depuis de nombreuses années.

Formations liées

Initiation au langage Python, pour ceux qui ne le connaissent pas encore
Introducing Python, formation équivalente à la première, en anglais
Introduction à la visualisation et à l'analyse de données en Python
Introduction to data analysis with Python
Text mining en Python
Du traitement des données au déploiementd'un modèle prédictif dans le cloud : Intelligence Artificelle et Machine Learning en Python, proposée régulièrement sous la forme d'une école d'hiver d'une durée d'une semaine