Accueil › IT › S6 · UE6-DATA

DAT602

Fouille de données

FR EN ⬇ PDF

RéférentKévin HOARAU [kevin.hoarau@univ-reunion.fr](kevin.hoarau@univ-reunion.fr)

ECTS1

CM / TD / TP4 / 10 / 6

Typematiere

Viable

Viable100%

Complète93%

Manque pour « complète »

○ Version EN relue

But du cours

Ce cours a pour objectif de permettre aux étudiants d’identifier les possibilités offertes par le data-mining et d’explorer ses principaux domaines d’application. Il introduit les notions théoriques nécessaires pour comprendre les algorithmes de fouille de données et présente les modalités pratiques de mise en œuvre de ces techniques sur des jeux de données réels.

Acquis d'apprentissage visés

Exploiter des données massives à l’aide des techniques de fouilles de données

Visualiser des données

Concevoir et interroger efficacement une base de données

Prérequis

Probabilités et variables aléatoires

Processus stochastiques

Cours de l’UE DATA du S5

Programme

Mesure de proximité

Propriétés de base des métriques.

Mesures et cas particuliers - distance euclidienne, distance de Manhattan.

Utilisation des scores et des classements ; caractéristiques souhaitables des scores et des classements.

Normalisation des données pour favoriser la comparaison.

Métriques impliquant du texte

Coefficient de corrélation pour les séquences de données.

Métriques de similarité de relations dans les graphes (e.g. simrank).

Métriques sur les graphes.

Similarité des séries temporelles (e.g. DTW)

Préparation des données

La collecte de données, sa relation avec la résolution de problèmes, l’importance des connaissances spécialisées et de l’ouverture aux avis des experts

Sources de données, y compris bases de données, Internet des objets, photographies et vidéos, sources d’informations en ligne; adéquation des données aux objectifs

Considérations éthiques concernant l’obtention et l’utilisation de données ; privacy

Identifier les biais potentiels dans les données

Munging data - traiter les erreurs dans les données, les lacunes dans les données, nettoyer les données, valider les données, transformer les données ;

Méthodes de traitement des problèmes d’ensemble de données tels que le déséquilibre, l’insuffisance d’attributs et les attributs externes; approches automatisées et manuelles et compromis entre ces dernières

Le concept de feature ; extraction et représentation de features ; sélection des fonctionnalités et génération de fonctionnalités

Extraction d’informations

Identifier les applications où l’extraction d’informations joue un rôle utile.

Extraction d’entités et de relations.

Les approches d’extraction d’informations basées sur des règles et leurs applications.

Les approches d’extraction d’informations basées sur les statistiques et leurs applications.

Les problèmes possibles dans les données extraites.

Analyse par clusters

Identification de la mesure de similarité appropriée pour l’activité de clustering.

Évaluation de la qualité du clustering.

Algorithme de clustering k-means, y compris les considérations relatives aux itérations.

Les algorithmes basés sur la densité.

Applications du clustering.

Classification et régression

Considérations concernant la sélection des fonctionnalités pour la classification

Méthodes basées sur des instances telles que K-Nearest Neighbor (KNN)

Méthodes d’arbre de décision

Modèles probabilistes, Naïve Bayes

Recherche de motifs

Le concept d’exploration de motifs d’association.

Considérations relatives à la complexité informatique.

L’exploration de règles d’association ; les algorithmes d’Apriori et de croissance de motifs fréquents (FP).

L’exploration de motifs séquentiels ; les algorithmes GSP.

Algorithmes efficaces et parallèles pour l’exploration de motifs.

Domaines d’application

Détection de valeurs aberrantes

Concept de valeur aberrante.

Approche générale - élaborer un modèle des données, puis constater qu’un point de données ne correspond pas

Méthodes paramétriques, telles que le z-score pour identifier les valeurs aberrantes numériques en 1-D.

Utilisation des fonctions de distribution de probabilité.

Utilisation des approches de profondeur première - après avoir identifié la coque convexe attendue d’un ensemble de points, est-elle à l’intérieur ou à l’extérieur ; utilisation d’approches graphiques connexes.

Séries temporelles

La nature des données de séries temporelles, y compris la comparaison avec les données temporelles séquentielles.

Transformation des données - suppression du bruit, normalisation des données de séries temporelles.

Les séries temporelles stationnaires et non stationnaires.

La conversion des données de séries temporelles en données de séquences discrètes.

Prévision de séries chronologiques - prédire les valeurs futures sur la base des valeurs passées.

Motifs de séries temporelles - motifs fréquemment rencontrés dans les données de séries temporelles.

Le regroupement et la classification des séries temporelles.

Détection des aberrations dans les séries temporelles - aberrations ponctuelles et aberrations de forme.

Modalités d'évaluation

contrôles continus et évaluations pratiques.

Bibliographie

Aggarwal, C. C. (2015). Data mining: the textbook (Vol. 1). New York: springer.

Supports

Diaporamas, fiches de travaux dirigés et de travaux pratiques, plateformes d'apprentissage en ligne.