Statistics and data sciences

lepl1109  2020-2021  Louvain-la-Neuve

Statistics and data sciences
En raison de la crise du COVID-19, les informations ci-dessous sont susceptibles d’être modifiées, notamment celles qui concernent le mode d’enseignement (en présentiel, en distanciel ou sous un format comodal ou hybride).
5 crédits
30.0 h + 30.0 h
Q1
Enseignants
Hainaut Donatien; Jacques Laurent; SOMEBODY;
Langue
d'enseignement
Anglais
Préalables
Ce cours suppose acquises des notions de base en probabilités telles qu'enseignées dans les cours LEPL1108 ou LBIR1212.

Le(s) prérequis de cette Unité d’enseignement (UE) sont précisés à la fin de cette fiche, en regard des programmes/formations qui proposent cette UE.
Thèmes abordés
Le cours présente les concepts fondamentaux des statistiques dans un contexte d'ingénierie (analyse exploratoire, inférence, simulation) ainsi que les méthodes de base d'analyse de données multivariées (comme la régression linéaire, l'analyse en composantes principales ou la classification).
Acquis
d'apprentissage

A la fin de cette unité d’enseignement, l’étudiant est capable de :

1
  • Explorer des données en petit et grand nombre, et en petite et grande dimension ;
  • Induire des caractéristiques d'une population de données à partir d'un échantillon en utilisant des techniques d'inférence, d'estimation, de calcul d'intervalles de confiance, et de tests statistiques ;
  • Relier l'approche déductive de la théorie des probabilités et l'approche inductive de la statistique, en identifiant clairement les modèles probabilistes qui seront soumis à l'inférence statistique ;
  • Reformuler l'énoncé textuel d'un problème d'inférence statistique dans un formalisme mathématique et statistique précis, en identifiant les modèles adéquats et les méthodes d'estimation correspondantes ;
  • Résoudre un problème appliqué en suivant une approche logique basée sur l'utilisation correcte des modèles et de l'inférence statistique ;
  • Utiliser des techniques de simulation Monte-Carlo, de validation croisée et de bootstrap à des fins d'estimation et de validation de résultats ;
  • Analyser des données multivariées avec des techniques fondamentales de régression linéaire, d'analyse en composantes principales et de classification/clustering ;
  • Utiliser des outils d'analyse statistique pour valider les conclusions de modèles (par exemple la régression linéaire) ;
  • Faire le lien entre les objectifs mathématiques d'une méthode d'analyse de données et ses objectifs applicatifs.
 
Contenu
- Analyse exploratoire et échantillonnage
- Introduction à l'analyse de données multivariées
- Estimation paramétrique (méthodes des moments et de maximum de vraisemblance) et  propriétés des estimateurs (biais, variance, erreur quadratique moyenne)
- Inférence statistique (intervalles de confiance et tests d'hypothèses) : comparaison de moyennes de deux et plusieurs populations normales, proportions, tests sur les variances
- Régression linéaire, y compris l'analyse des coefficients et les tests d'hypothèses
- Panorama des techniques d'apprentissage: apprentissage supervisé et non-supervisé
- Lien entre les objectifs des méthodes d'analyse de données et leur formulation mathématique
- Regression et méthode de classification (tels que modèles linéaires, k plus proches voisins, régression logistique)
- Erreur d'apprentissage, de test et de généralisation, le compromis bias-variance, et éléments de théorie de la décision statistique
- Resampling techniques for model selection/evaluation (e.g., ensemble de validation, principe de la validation croisée, bootstrap)
- Apprentissage non-supervisé: reduction de dimension (analyse en composantes principales) et méthode de partitionement (K-means).
Méthodes d'enseignement

En raison de la crise du COVID-19, les informations de cette rubrique sont particulièrement susceptibles d’être modifiées.

Le cours est constitué de :
- 9 cours magistraux sur les sujets énumérés dans le contenu du cours;
- 7 séances pratiques, à la fois classiques et numériques (sur Python);
- 4 hackathons, représentant 2 x 2 heures chacun, associés à de petits projets Python réalisés en groupe sur des sujets découverts en cours et au travers des séances pratique.
Modes d'évaluation
des acquis des étudiants

En raison de la crise du COVID-19, les informations de cette rubrique sont particulièrement susceptibles d’être modifiées.

Examen écrit individuel pour évaluer la compréhension des concepts et techniques (théorie et exercices, sous forme d'exercices à choix multiples et de questions ouvertes). Les hackathons interviennent pour 20% de la note finale. Les enseignants se réserve le droit d'interroger l'étudiant oralement tant sur les réponses à son examen que sur les hackathons.
Autres infos
Pour suivre ce cours, les étudiants doivent avoir une connaissance basique des probabilités, tels qu'enseignés dans le cours LEPL1108 ou LBIR1212. Le planning des cours est sujet à modification en raison des conditions sanitaires. Merci de consulter le site Moodle pour plus de détails.
Ressources
en ligne
La totalité des supports de cours (slides et programmes) sont disponibles sur la plateforme Moodle via ce lien
Faculté ou entité
en charge
EPL
Force majeure
Méthodes d'enseignement
- les cours magistraux, les travaux pratiques ainsi que les hackathons sont organisés en distanciel
Modes d'évaluation
des acquis des étudiants
L'évaluation se base d'une part sur le contrôle continu et sur un examen écrit, comptant respectivement pour 20% et 80% de la note finale. Si les conditions sanitaires le permettent, l’examen écrit sera à livre fermé et organisé en présentiel pendant la session. A défaut, l’examen sera organisé à distance et à livre ouvert.


Programmes / formations proposant cette unité d'enseignement (UE)

Intitulé du programme
Sigle
Crédits
Prérequis
Acquis
d'apprentissage
Bachelier en sciences informatiques

Bachelier en sciences de l'ingénieur, orientation ingénieur civil

Master [120] en sciences et gestion de l'environnement