SAE Data

RéférentAppliquer et évaluer des algorithmes d’apprentissage automatique et discuter de leurs pertinences pour un contexte donné.

ECTS2

CM / TD / TP4 / 0 / 2

Typematiere

Viable

Viable100%

Complète86%

Manque pour « complète »

○ But du cours
○ Version EN relue

Acquis d'apprentissage visés

Traiter des données massives à l’aide des techniques d’intelligence artificielle

Prérequis

Enseignant des matières liées à l’UE DATA et des outils pour l’ingénieur

Professionnels de l’analyse de données

Programme

La société OcéanData Consulting, cabinet de conseil en valorisation des données basé à La Réunion, accompagne des entreprises locales dans leur transformation numérique. Elle vous confie une mission d’analyse et de modélisation sur un jeu de données massif issu d’un de ses clients — au choix parmi les secteurs suivants : environnement, tourisme et mobilité, santé publique, ou énergie et environnement. Le volume et la nature des données imposent la mise en place d’une architecture distribuée adaptée, depuis l’ingestion jusqu’à la restitution des résultats.

Conception de l’architecture Big Data : choisir et justifier les technologies retenues (stockage distribué, framework de calcul, orchestration) en adéquation avec les contraintes de volume, de vélocité et de variété des données.

Traitement et modélisation : mettre en œuvre une ou plusieurs méthodes d’analyse parmi les suivantes, selon les objectifs du cahier des charges :

Fouille de données et extraction de connaissances (pattern mining, règles d’association)

Classification supervisée (arbres de décision, SVM, forêts aléatoires, réseaux de neurones)

Classification non supervisée / clustering (k-means, DBSCAN, classification hiérarchique)

Restitution et valorisation : présenter les résultats de manière claire et exploitable pour un interlocuteur non technique, en justifiant les choix méthodologiques effectués.

Modalités d'évaluation

Les compétences seront évaluées à partir des éléments fournis dans le livrable, et précisés en amont aux élèves ingénieurs.

Bibliographie

Un dépôt Git documenté contenant l’ensemble du code source, les notebooks d’analyse et les scripts de déploiement de l’architecture.

Un rapport technique structuré comprenant :

La description et la justification de l’architecture retenue (schéma d’architecture inclus)

La description du jeu de données : provenance, volumétrie, qualité, étapes de prétraitement

La méthodologie d’analyse appliquée, les paramètres retenus et leur justification

Les résultats obtenus, leur interprétation et leurs limites

Le respect des bonnes pratiques : qualité du code, reproductibilité, gestion des versions

Un tableau de bord de visualisation des résultats (Jupyter Notebook, Streamlit ou équivalent)

Une présentation orale de 20 minutes devant jury, incluant une démonstration live du pipeline et des résultats

Supports

Ensemble des documents utilisés à l’occasion des enseignements des ressources mobilisées. Si besoin, de nouvelles références documentaires seront fournies.