Logo smcs Bandeau smcs
UCLouvain > Plate-forme SMCS
NEWSLETTER
connexion
EN | FR

Données textuelles


L'analyse de données textuelles est une approche qui envisage les textes comme des données et permet d'explorer et de visualiser les recueils de textes divers. Elle concerne aussi bien des textes brefs (comme des commentaires ou des tweets) que des textes plus longs (comme des articles, des rapports ou des livres).

Aujourd'hui, l'équipe du SMCS a développé une certaine expertise pour ce qui est des données textuelles et peut dès lors vous accompagner dans l'exploration des logiciels R, Python, Orange, et l'utilisation de méthodes spécifiques, comme :
  • Web scraping : extraction de données depuis des sites web
  • Text mining : extraction de l'information utile et de schémas à partir de données textuelles non structurées, en utilisant des techniques de traitement automatique du langage, machine learning ou statistiques
    • Wordcloud : visualisation des mots les plus fréquemment utilisés dans un corpus
    • Topic modeling : classification de textes en groupes thématiques déterminés automatiquement
    • Analyse de sentiments : classification des textes en fonction de leur tonalité (positive, neutre, négative), par exemple sur des tweets ou des avis clients
    • Détection de similarité : regroupement de textes similaires, détection de plagiat ou d’opinions proches
  • Traitement automatique du langage (TAL ou, en anglais, NLP (natural language processing))* : utilisation d'un ensemble de techniques et méthodes pour permettre à une machine de comprendre, interpréter et générer du langage humain - le TAL combine des domaines tels que la linguistique, l'informatique et l'intelligence artificielle
(*) Dans le domaine du traitement automatique du langage (TAL), le SMCS bénéficie de la grande expertise du CENTAL, une autre plateforme de l'UCLouvain, avec laquelle une belle collaboration existe depuis de nombreuses années.


Projets de consultance passés Formations liées