ESIROI · Maquettes Connexion
AccueilITS6 · UE6-DATA
DAT602

Fouille de données

FR EN ⬇ PDF
RéférentKévin HOARAU  [kevin.hoarau@univ-reunion.fr](kevin.hoarau@univ-reunion.fr)
ECTS1
CM / TD / TP4 / 10 / 6
Typematiere

Viable
Viable100%
Complète93%
Manque pour « complète »
  • Version EN relue

But du cours

Ce cours a pour objectif de permettre aux étudiants d’identifier les possibilités offertes par le data-mining et d’explorer ses principaux domaines d’application. Il introduit les notions théoriques nécessaires pour comprendre les algorithmes de fouille de données et présente les modalités pratiques de mise en œuvre de ces techniques sur des jeux de données réels.

Acquis d'apprentissage visés

  • Exploiter des données massives à l’aide des techniques de fouilles de données
  • Visualiser des données
  • Concevoir et interroger efficacement une base de données

Prérequis

  • Probabilités et variables aléatoires
  • Processus stochastiques
  • Cours de l’UE DATA du S5

Programme

Mesure de proximité

  • Propriétés de base des métriques.
  • Mesures et cas particuliers - distance euclidienne, distance de Manhattan.
  • Utilisation des scores et des classements ; caractéristiques souhaitables des scores et des classements.
  • Normalisation des données pour favoriser la comparaison.
  • Métriques impliquant du texte
  • Coefficient de corrélation pour les séquences de données.
  • Métriques de similarité de relations dans les graphes (e.g. simrank).
  • Métriques sur les graphes.
  • Similarité des séries temporelles (e.g. DTW)

Préparation des données

  • La collecte de données, sa relation avec la résolution de problèmes, l’importance des connaissances spécialisées et de l’ouverture aux avis des experts
  • Sources de données, y compris bases de données, Internet des objets, photographies et vidéos, sources d’informations en ligne; adéquation des données aux objectifs
  • Considérations éthiques concernant l’obtention et l’utilisation de données ; privacy
  • Identifier les biais potentiels dans les données
  • Munging data - traiter les erreurs dans les données, les lacunes dans les données, nettoyer les données, valider les données, transformer les données ;
  • Méthodes de traitement des problèmes d’ensemble de données tels que le déséquilibre, l’insuffisance d’attributs et les attributs externes; approches automatisées et manuelles et compromis entre ces dernières
  • Le concept de feature ; extraction et représentation de features ; sélection des fonctionnalités et génération de fonctionnalités

Extraction d’informations

  • Identifier les applications où l’extraction d’informations joue un rôle utile.
  • Extraction d’entités et de relations.
  • Les approches d’extraction d’informations basées sur des règles et leurs applications.
  • Les approches d’extraction d’informations basées sur les statistiques et leurs applications.
  • Les problèmes possibles dans les données extraites.

Analyse par clusters

  • Identification de la mesure de similarité appropriée pour l’activité de clustering.
  • Évaluation de la qualité du clustering.
  • Algorithme de clustering k-means, y compris les considérations relatives aux itérations.
  • Les algorithmes basés sur la densité.
  • Applications du clustering.

Classification et régression

  • Considérations concernant la sélection des fonctionnalités pour la classification
  • Méthodes basées sur des instances telles que K-Nearest Neighbor (KNN)
  • Méthodes d’arbre de décision
  • Modèles probabilistes, Naïve Bayes

Recherche de motifs

  • Le concept d’exploration de motifs d’association.
  • Considérations relatives à la complexité informatique.
  • L’exploration de règles d’association ; les algorithmes d’Apriori et de croissance de motifs fréquents (FP).
  • L’exploration de motifs séquentiels ; les algorithmes GSP.
  • Algorithmes efficaces et parallèles pour l’exploration de motifs.
  • Domaines d’application

Détection de valeurs aberrantes

  • Concept de valeur aberrante.
  • Approche générale - élaborer un modèle des données, puis constater qu’un point de données ne correspond pas
  • Méthodes paramétriques, telles que le z-score pour identifier les valeurs aberrantes numériques en 1-D.
  • Utilisation des fonctions de distribution de probabilité.
  • Utilisation des approches de profondeur première - après avoir identifié la coque convexe attendue d’un ensemble de points, est-elle à l’intérieur ou à l’extérieur ; utilisation d’approches graphiques connexes.

Séries temporelles

  • La nature des données de séries temporelles, y compris la comparaison avec les données temporelles séquentielles.
  • Transformation des données - suppression du bruit, normalisation des données de séries temporelles.
  • Les séries temporelles stationnaires et non stationnaires.
  • La conversion des données de séries temporelles en données de séquences discrètes.
  • Prévision de séries chronologiques - prédire les valeurs futures sur la base des valeurs passées.
  • Motifs de séries temporelles - motifs fréquemment rencontrés dans les données de séries temporelles.
  • Le regroupement et la classification des séries temporelles.
  • Détection des aberrations dans les séries temporelles - aberrations ponctuelles et aberrations de forme.

Modalités d'évaluation

contrôles continus et évaluations pratiques.

Bibliographie

Aggarwal, C. C. (2015). Data mining: the textbook (Vol. 1). New York: springer.

Supports

Diaporamas, fiches de travaux dirigés et de travaux pratiques, plateformes d'apprentissage en ligne.