Data Mining

4.00 crédits

15.0 h + 15.0 h

Enseignants

Van Oirbeek Robin;

Langue
d'enseignement

Anglais

Préalables

Concepts et outils équivalents à ceux enseignés dans les UEs

LSTAT2020	Logiciels et programmation statistique de base
LSTAT2120	Linear models
LSTAT2110	Analyse des données
LSTAT2100	Modèles linéaires généralisés et données discrêtes

Thèmes abordés

- Domaines d'application du data mining. - Etapes types de la méthodologie du data mining. - Echantillonnage et partitionnement de la base de données. - Prétraitement et validation des données. - Exploration, réduction et transformation des variables. - Outils de modélisation et de classification du data mining (présentation générale). - Arbres de décision. - Réseaux de neurones. - Outils de validation du modèle. - Etudes de cas.

Acquis
d'apprentissage

A la fin de cette unité d’enseignement, l’étudiant est capable de :
1	A. Eu égard au référentiel AA du programme de master en statistique, orientation générale, cette activité contribue au développement et à l'acquisition des AA suivants : de manière prioritaire : 1.2, 1.3, 2.1, 2.2, 2.3, 2.5, 3.1, 3.3, 5.5, 6.3, 6.4 de manière secondaire : 2.4, 3.4, 5.1, 5.2 Eu égard au référentiel AA du programme de master en statistique, orientation biostatistique, cette activité contribue au développement et à l'acquisition des AA suivants : de manière prioritaire : 1.2, 1.3, 2.1, 2.2, 2.3, 2.5, 3.1, 3.3, 6.1, 6.2. de manière secondaire : 2.4. B. Au terme du cours l'étudiant aura acquis des connaissances de base sur la méthodologie et les outils du data mining pour le traitement de grandes bases de données d'entreprises. Il aura conscience des spécificités et de l'apport du data mining par rapport à la statistique classique et sera capable de traiter des études de cas avec un logiciel dédicacé.

Contenu

Introduction au data mining

Data et systèmes du data mining
Domaines d'application du data mining
Processus et méthodologie du data mining
Data mining dans le domaine du Customer Relationship Management (CRM)
Statistique classique et data mining

Préparation des données pour data mining

Principales étapes dans la préparation des données
Spécification des données pour le data mining
Extraction et agrégation des données
Audit et exploration des données
Pré-traitement des données

Modélisation prédictive

Arbres de décision
Réseaux de neurones
Validation et choix de modèles

Modélisation descriptive

Clustering
K-means
Kohonen Self-Organising Map

Etudes de cas

Bibliographie

1. Berry M. and G. Linoff (2000), "Matering Data Mining, The Art and Science of Customer Relationship Management", John Wiley.
2. Bishop, C.M. (1995), Neural Networks for Pattern Recognition, Oxford.
3. Breiman, L., Friedman, J.H., Olshen, R.A., and Stone, C.J. (1984), "Classification and Regression Trees", Wadsworth, Inc., Belmont, California.
4. Han J. and M. Kamber (2000), "Data Mining: Concepts and Techniques", Morgan Kaufmann,.
5. Hastie Tr., R. Tibshirani and J. Friedman (2001), "The Elements of Statistical Learning -Data Mining, Inference and Prdiction", Springer.
6. Haykin S., "Neural Networks: A comprehensive Foundation", Prentice Hall, 1999
7. Kohonen T. (1995), "Self-Organizing Maps", Springer Series in Information Sciences, Oxford University Press.
8. Piatetsky-Shapiro G. and W. J. Frawley (1991), "Knowledge Discovery in Databases", AAAI/MIT Press.
9. Piatetsky-Shapiro G., U. Fayyad, and P. Smith (1996). "From data mining to knowledge discovery: An overview", In U.M. Fayyad, et al. (eds.), Advances in Knowledge Discovery and Data Mining, 1-35. AAAI/MIT Press,.
10. Pyle D. (2000), "Data Prepation for Data Mining", Morgan Kaufman.
11. Richard O. Dula, Pete E. Hart and David G. Stork (2000), "Pattern Classification", John Wiley, Second edition.
12. Van Hulle M. (2000), "Faithful Representations and Topographic Maps: From Distortion- to Information-Based Self-Organization", John Willey

Faculté ou entité
en charge

LSBA

Programmes / formations proposant cette unité d'enseignement (UE)

Intitulé du programme

Sigle

Crédits

Prérequis

Acquis
d'apprentissage

Master [120] en science des données, orientation statistique

DATS2M

Master [120] en statistique, orientation biostatistiques

BSTA2M

Master [120] en linguistique

LING2M

Master [120] : bioingénieur en sciences et technologies de l'environnement

BIRE2M

Master de spécialisation en méthodes quantitatives en sciences sociales

LMQS2MC

Master [120] en sciences actuarielles

ACTU2M

Master [120] en statistique, orientation générale

STAT2M

Master [120] : bioingénieur en chimie et bioindustries

BIRC2M

Master [120] : ingénieur civil en mathématiques appliquées

MAP2M

Certificat d'université : Statistique et science des données (15/30 crédits)

STAT2FC