Date : 29 avril 2021
Horaire : 14h00 – 15h00
Site web : Séminaires du CENTAL
Rémi Cardon, STL – CNRS / Université de Lille
Abstract :
La simplification automatique de textes est un domaine du traitement automatique des langues (TAL) qui vise à traiter des textes difficiles à lire pour un public donné de façon à les rendre plus accessibles. Notre objectif consiste à simplifier automatiquement les textes médicaux et de santé. Nous présentons l’ensemble de notre travail surcette question, qui va de la collecte et analyse de corpus jusqu’aux expériences en simplification automatique. Nous commençons par la collecte d’un corpus comparable de textes médicaux. À partir du corpus comparable, nous mettons en place une méthode pour en extraire un corpus parallèle, c’est-à-dire un corpus comprenant des couples de phrases qui ont le même sens mais diffèrent par leur degré de difficulté. Afin de valoriser ce corpus parallèle, nous créons également un corpus de paires de phrases annotées selon leur similarité sémantique, avec des scores allant de 0 (sémantique indépendante) à 5 (même sémantique). Les deux corpus sont disponibles pour la recherche. Enfin, nous présentons une série d’expériences en simplification automatique de textes médicaux en français. Ainsi, nous mettons à l’œuvre une méthode neuronale issue de la traduction automatique.
Lieu : Afin de respecter les mesures sanitaires en vigueur, la conférence se tiendra en visioconférence. Elle est accessible au lien suivant : Conférence Teams – Rémi Cardon. Si vous rencontrez des problèmes pour vous connecter, n’hésitez pas à nous contacter (erika.lombart@uclouvain.be ; eva.rolin@uclouvain.be).