ESI-SPI-CI-IN4-S8-UE1-EC2
Administration Système : Stockage et Surveillance des Infrastructures
FR EN ⬇ PDFBut du cours
Acquérir les compétences opérationnelles nécessaires à l'exploitation, à la surveillance et à la maintenance d'une infrastructure système en production. Ce cours couvre deux axes complémentaires : la conception d'architectures de stockage haute disponibilité (SAN, NAS, stockage distribué) et la mise en place d'une supervision complète du système d'information, permettant la détection proactive des anomalies et la garantie de la continuité de service.
Acquis d'apprentissage visés
- Concevoir et déployer une architecture de stockage adaptée aux contraintes de performance, de disponibilité et de coût d’une infrastructure de production
- Évaluer et optimiser les performances d’un réseau de stockage haute disponibilité (iSCSI, NFS, SAN) à l’aide d’outils de benchmarking et d’analyse des I/O
- Mettre en œuvre une solution de surveillance complète d’un système d’information : collecte de métriques, alerting, journalisation centralisée et tableaux de bord
- Identifier et diagnostiquer les anomalies d’une infrastructure système à partir des métriques et des journaux collectés, et proposer des actions correctives
- Comparer et choisir une solution de virtualisation ou de conteneurisation adaptée à un besoin opérationnel en tenant compte des avantages et des limites de chaque approche
- Appréhender les paradigmes de l’informatique en nuage (IaaS, PaaS, SaaS) et identifier les cas d’usage justifiant un déploiement cloud
Prérequis
- SR052 / SYSRES 502 - Système d’exploitation et langage de commande (S5) : administration Linux, gestion des processus, systèmes de fichiers, scripting Bash.
- SR062 / SYSRES 602 - Administration systèmes 1 (S6) : services systèmes, gestion des utilisateurs, introduction à la supervision.
- SR702 / SYSRES 702 - Administration systèmes 2 (S7) : orchestration, conteneurs, services cloud, LDAP, DNS — prérequis direct.
- Compétences transversales attendues :
- Administration Linux avancée : systemd, réseau, stockage, LVM
- Scripting Bash et Python pour l’automatisation
- Compréhension des architectures réseau TCP/IP
- Lecture de documentation technique en anglais
Programme
- Architectures de stockage :
- Rappels sur les types de stockage : DAS, NAS, SAN — cas d’usage et critères de choix.
- Protocoles de stockage réseau : iSCSI, NFS, SMB/CIFS, Fibre Channel.
- Haute disponibilité du stockage : RAID, réplication synchrone/asynchrone, failover.
- Stockage distribué : introduction à Ceph et GlusterFS — architecture et cas d’usage.
- Évaluation des performances : IOPS, débit, latence ; outils de benchmarking (fio, iozone).
- Stratégies de sauvegarde et de restauration : règle 3-2-1, outils (Bacula, Restic, Veeam).
- Virtualisation et conteneurisation — panorama opérationnel :
- Rappels sur les hyperviseurs de Type 1 et Type 2 ; comparaison avec la conteneurisation.
- Avantages et inconvénients opérationnels des serveurs virtualisés : densité, isolation, portabilité, surcoût.
- Comparaison des solutions : Proxmox VE, VMware ESXi, KVM, Docker, Kubernetes.
- Critères de choix selon le contexte : contraintes de sécurité, de performance, de budget.
- Paradigmes du cloud computing :
- Modèles de service : IaaS, PaaS, SaaS, FaaS — définitions et cas d’usage.
- Modèles de déploiement : cloud public, privé, hybride, multi-cloud.
- Principaux fournisseurs cloud : AWS, Azure, GCP — panorama des services.
- Responsabilité partagée en matière de sécurité dans le cloud.
- Supervision et surveillance du système d’information :
- Enjeux de la supervision : disponibilité, performance, sécurité, conformité.
- Collecte de métriques systèmes et réseau : CPU, mémoire, disque, bande passante.
- Outils de supervision : Prometheus, Grafana, Zabbix, Nagios, Netdata.
- Alerting : définition de seuils, escalade, gestion des astreintes (PagerDuty, Alertmanager).
- Journalisation centralisée : collecte et agrégation des logs (Syslog, journald, ELK Stack, Loki).
- Tableaux de bord opérationnels : conception et bonnes pratiques.
- Détection d’anomalies et maintenance préventive :
- Identification des indicateurs de dégradation : saturation, latence anormale, erreurs récurrentes.
- Corrélation d’événements et diagnostic d’incidents à partir des logs et des métriques.
- Maintenance préventive : planification des mises à jour, gestion des correctifs, tests de charge.
- Gestion des incidents : procédures d’escalade, post-mortem, amélioration continue.
Modalités d'évaluation
Contrôles continus et compte rendu de travaux pratiques.
Bibliographie
- Evi Nemeth et al. - UNIX and Linux System Administration Handbook - Addison-Wesley, 5^(e) éd., 2017
- The SysAdmin Handbook - Simple Talk Publishing, 2010
- Documentation Prometheus : <https://prometheus.io/docs/>
- Documentation Grafana : <https://grafana.com/docs/>
- Documentation Zabbix : <https://www.zabbix.com/documentation/>
- Documentation Elastic Stack (ELK) : <https://www.elastic.co/guide/>
- Documentation Ceph : <https://docs.ceph.com>
- ANSSI - Recommandations pour la journalisation des systèmes d’information : <https://www.ssi.gouv.fr/guide/>
Supports
Diaporamas et fiches de travaux dirigés et de travaux pratiques.