𝗗𝗲𝘀 𝗺𝗶𝗹𝗹𝗶𝗲𝗿𝘀 𝗱’𝗮𝗿𝘁𝗶𝗰𝗹𝗲𝘀 𝗥𝗧𝗕𝗙 𝗮̀ 𝗱𝗶𝘀𝗽𝗼𝘀𝗶𝘁𝗶𝗼𝗻 𝗱𝗲𝘀 𝘀𝗰𝗶𝗲𝗻𝘁𝗶𝗳𝗶𝗾𝘂𝗲𝘀

Le CENTAL (Centre de Traitement Automatique du Langage) et l’ORM (Observatoire de Recherche sur les Médias et le Journalisme) de l’UCLouvain sont heureux de vous annoncer la mise à disposition du Corpus RTBF, un corpus de plus de 750 000 articles de presse publiés par le média de service public belge francophone de 2008 à 2021.

Grâce à une collaboration scientifique avec la RTBF, l’UCLouvain a obtenu de pouvoir mettre à disposition de la communauté académique l’ensemble des articles publiés sur leur site web jusqu’à fin 2021.

Le corpus contient un total de 214 millions de mots. Différentes métadonnées liées à chaque article sont disponibles : ID, titre, date de publication, signature, source, catégorie et mot-clé. Plus de détails sur le corpus sont disponibles dans l’article qui accompagne les données.

La RTBF (Radio-télévision belge de la Communauté française) est l’organisme de radiodiffusion de service public de la communauté francophone de Belgique. En tant que média de service public, elle est financée directement par le gouvernement belge et possède trois missions principales : informer, éduquer et divertir le public le plus large possible au sein de la communauté francophone belge. En plus de gérer des chaînes de télévision et des stations de radio, la RTBF exploite également un site web d’actualités depuis 2008, sur lequel des articles de presse exclusivement en ligne sont publiés quotidiennement.

➡️ Veuillez consulter et accepter les termes d’utilisation avant de télécharger le corpus. Le Corpus RTBF est accessible librement aux formats JSON, CSV et EXCEL via ce lien.

Related Posts

Begin typing your search term above and press enter to search. Press ESC to cancel.

Back To Top