But du cours
Présenter des données sous une forme appropriée est une entreprise difficile mais importante. Pour le scientifique des données, cela leur permet fondamentalement d'afficher les données sous une forme attrayante, facilement et correctement compréhensibles pour les utilisateurs, mais est également potentiellement d'une grande valeur pour fournir des informations pertinentes et la structure sous-jacente aux données. Ce cours vise à décrire les outils, moyens et bonnes pratiques pour extraire de l'information et la visualiser, que ce soit dans le cadre d'analyse exploratoire ou de description de résultats aboutis.
Acquis d'apprentissage visés
Réaliser une analyse exploratoire de données Visualiser des données
Prérequis
- Notion de python.
- DATA 051 : Base de données.
- DEV 052 : Programmation web
Programme
Approches de visualisation adaptées aux types de données
Le rôle de la visualisation dans la science des données. Illustrations, y compris des exemples historiques et contemporains, de la visualisation. Caractéristiques d’une visualisation efficace. Adéquation de différentes techniques pour diffrentes données et pour différents utilisateurs. Tableaux de bord et visualisation interactive. Outils logiciels pour la visualisation. Inférence basée sur la visualisation. Préparation de la visualisation - mise à l’échelle, rôle de la couleur. Types de graphiques - tableaux, diagrammes de dispersion, camemberts, histogrammes, graphiques, cartes de données, y compris les représentations à base de pixels, de glyphes, de graphiques et de cartes.
Travailler avec différents types de données
Représentation des données : nombres, texte, images, précision des données. Traitement des données textuelles : sac de mots, comptage de mots, TF-IDF, n-grammes, analyse lexicale, analyse syntaxique, analyse sémantique, filtrage des mots vides, radicalisation, applications de base. Traitement d’images : représentation des données : matrices multidimensionnelles d’entiers, traits, opérateurs d’images, opérateurs vidéo. Reconnaissance d’objets. Extraction de caractéristiques d’ordre supérieur.
Extraction d’informations
L’extraction d’informations (IE) est la tâche consistant à extraire automatiquement des informations structurées à partir de documents lisibles par machine non structurés et/ou semi-structurés. documents non structurés et/ou semi-structurés lisibles par machine. Il s’agit d’une technique importante pour d’acquérir des données à partir de documents, de pages Web et même de supports multimédias.
Transformation des données
Pipeline de transformation de données. Méthodes simples de transformation de fonctions et leurs applications. Normalisation des données et ses applications. Normalisation des données et ses applications. Approches d’encodage des données et leurs applications. Approches de lissage des données et leurs applications.
Nettoyage des données
Les dimensions de la qualité des données. Les approches visant à améliorer la qualité des données. Les algorithmes de nettoyage des données, notamment la résolution des entités, la découverte de vérités, le nettoyage des données basé sur des règles. nettoyage. Différentes formes pour les règles de qualité des données telles que les dépendances fonctionnelles (FD), les dépendances conditionnelles. fonctionnelles conditionnelles (CFD), les dépendances d’inclusion conditionnelles (CIND), et les dépendances de correspondance (MD).
Modalités d'évaluation
Contrôles continus et travaux pratiques évalués.
Supports
Diaporamas et fiches de travaux dirigés.