Statistiques et science des données

lepl1109  2022-2023  Louvain-la-Neuve

Statistiques et science des données
5.00 crédits
30.0 h + 30.0 h
Q1
Enseignants
. SOMEBODY; Hainaut Donatien; Jacques Laurent;
Langue
d'enseignement
Français
Préalables
Ce cours suppose acquises des notions de base en probabilités telles qu'enseignées dans les cours LEPL1108 ou LBIR1212.
Thèmes abordés
Le cours présente les concepts fondamentaux des statistiques dans un contexte d'ingénierie (analyse exploratoire, inférence, simulation) ainsi que les méthodes de base d'analyse de données multivariées (comme la régression linéaire, l'analyse en composantes principales ou la classification).
Acquis
d'apprentissage

A la fin de cette unité d’enseignement, l’étudiant est capable de :

1
  • Explorer des données en petit et grand nombre, et en petite et grande dimension ;
  • Induire des caractéristiques d'une population de données à partir d'un échantillon en utilisant des techniques d'inférence, d'estimation, de calcul d'intervalles de confiance, et de tests statistiques ;
  • Relier l'approche déductive de la théorie des probabilités et l'approche inductive de la statistique, en identifiant clairement les modèles probabilistes qui seront soumis à l'inférence statistique ;
  • Reformuler l'énoncé textuel d'un problème d'inférence statistique dans un formalisme mathématique et statistique précis, en identifiant les modèles adéquats et les méthodes d'estimation correspondantes ;
  • Résoudre un problème appliqué en suivant une approche logique basée sur l'utilisation correcte des modèles et de l'inférence statistique ;
  • Utiliser des techniques de simulation Monte-Carlo, de validation croisée et de bootstrap à des fins d'estimation et de validation de résultats ;
  • Analyser des données multivariées avec des techniques fondamentales de régression linéaire, d'analyse en composantes principales et de classification/clustering ;
  • Utiliser des outils d'analyse statistique pour valider les conclusions de modèles (par exemple la régression linéaire) ;
  • Faire le lien entre les objectifs mathématiques d'une méthode d'analyse de données et ses objectifs applicatifs.
 
Contenu
- Analyse exploratoire et échantillonnage
- Introduction à l'analyse de données multivariées
- Estimation paramétrique (méthodes des moments et de maximum de vraisemblance) et  propriétés des estimateurs (biais, variance, erreur quadratique moyenne)
- Inférence statistique (intervalles de confiance et tests d'hypothèses) : comparaison de moyennes de deux et plusieurs populations normales, proportions, tests sur les variances
- Régression linéaire, y compris l'analyse des coefficients et les tests d'hypothèses
- Panorama des techniques d'apprentissage: apprentissage supervisé et non-supervisé
- Lien entre les objectifs des méthodes d'analyse de données et leur formulation mathématique
- Regression et méthode de classification (tels que modèles linéaires, k plus proches voisins, régression logistique)
- Erreur d'apprentissage, de test et de généralisation, le compromis biais-variance, et éléments de théorie de la décision statistique
- Techniques de rééchantillonnage pour la sélection/évaluation de modèles (ensemble de validation, validation croisée)
- Apprentissage non-supervisé: reduction de dimension (analyse en composantes principales) et méthode de partitionement (K-means).
Méthodes d'enseignement
Le cours est constitué de :- 10 cours magistraux sur les sujets énumérés dans le contenu du cours;
- 7 séances pratiques, à la fois classiques et numériques (sur Python);
- 4 hackathons associés à de petits projets Python réalisés en groupe sur des sujets découverts en cours et au travers des séances pratique.
Modes d'évaluation
des acquis des étudiants
  • Examen écrit individuel (en session) pour évaluer la compréhension des concepts et techniques (théorie et exercices, sous forme d'exercices à choix multiples et de questions ouvertes). Cet examen représente 14 points (sur 20) de la note finale du cours.
  • Les hackathons sont évalués durant le semestre (hors session) et la moyenne de leur cotes intervient pour 6 points (sur 20) de la note finale du cours. La note obtenue pour les hackathons est acquise pour toutes les sessions de l'année académique.
Les enseignants se réservent le droit d'interroger l'étudiant.e oralement tant sur les réponses à son examen que sur les hackathons.
Autres infos
Pour suivre ce cours, les étudiants doivent avoir une connaissance basique des probabilités, tels qu'enseignés dans le cours LEPL1108 ou LBIR1212. Le planning des cours est sujet à modification en raison des conditions sanitaires. Merci de consulter le site Moodle pour plus de détails.
Ressources
en ligne
La totalité des supports de cours (slides et programmes) sont disponibles sur le site internet moodle du cours. Veuillez consulter celui-ci pour plus d'informations.
Faculté ou entité
en charge
EPL


Programmes / formations proposant cette unité d'enseignement (UE)

Intitulé du programme
Sigle
Crédits
Prérequis
Acquis
d'apprentissage
Bachelier en sciences de l'ingénieur, orientation ingénieur civil

Master [120] en sciences et gestion de l'environnement

Bachelier en sciences informatiques