Aller au contenu

Traitement de données en tables

Le but de cette séquence est de vous préparer à l’utilisation de bases de données, notamment pour celles et ceux qui choisiront la spécialité NSI en Terminale.

  • Importer une table depuis un fichier CSV ou un fichier texte tabulé.
  • Rechercher des lignes au sein de cette table.
  • Trier et à filtrer les données d'une colonne du tableau.
  • Fusionner : construire une nouvelle table en combinant les données de deux tables.

Nous allons définir ce qu’est une donnée et la notion de protection des données, car on ne peut pas faire n’importe quoi avec les données.

1) Généralités sur les données

1.1) Définition et cycle de vie

Donnée

Une donnée (data en anglais) est une valeur attribuée à une entité pour la décrire. Cette entité peut être un objet, une personne, un événement, etc.

Ces données ne sont cependant pas permanentes et possèdent un cycle de vie bien défini comme le montre la figure suivante :

image

  1. Collecte :Il faut commencer par recueillir les données. 2. Traitement et Partage :Étant donné la grande quantité de données, il est indispensable de les traiter et de les partager aux différents acteurs afin de préparer leur analyse.
  2. Analyse :L’analyse permet de donner du sens aux données afin de mettre en place des actions. A l’issue de cette phase, on parle d’informations.
  3. Sauvegarde :Il est nécessaire de sauvegarder les données pour pouvoir les restaurer à l’identique en cas de panne ou de perte d’un support de stockage.
  4. Archivage :Les données doivent être conservées uniquement pour la durée nécessaire à l’opération pour laquelle elles ont été recueillies et traitées.
  5. Destruction :Les données sont détruites lorsqu’elles deviennent obsolètes.

Typiquement en entreprise on utilise le cloud pour effectuer les différentes opérations sur les données.

Le cloud computing

Le cloud computing est la fourniture de services informatiques (notamment les serveurs, le stockage, les bases de données, la gestion réseau, les logiciels, les outils d’analyse et la veille) via Internet (le cloud).

1.2) Données personnelles et protection

Donnée personnelle

Une donnée personnelle est une donnée qui identifie directement ou indirectement une personne physique.

Les données personnelles sont protégées dans tous les états membres de l’Union Européenne par une loi Informatique et libertés. En effet, depuis 2018, le Règlement Général de la Protection des Données (RGPD) oblige tout organisme qui collecte des données à prouver la nécessité de cette collecte, à protéger les données recueillies et à être plus transparent sur leurs utilisations. En France, l’autorité compétente est la Commission Nationale de l’Informatique et des Libertés (CNIL). Elle est chargée de veiller à la protection de l’identité humaine, des droits de l’homme, de la vie privée et des libertés individuelles.

En particulier pour garantir la confidentialité des données sensibles comme les numéro de sécurité sociale, il convient de chiffrer ces données.

Hachage et chiffrement des données

Différence entre hachage et chiffrement :

  • Hachage : prend en entrée une donnée et retourne un hash / haché (en français) d’une certaine taille : 256 bits : SHA-256 ou 512 bits : SHA-512. Conçu par la NSA (National Security Agency). On ne peut pas (en principe) récupérer la donnée d’origine : fait pour fonctionner dans un seul sens.
  • Chiffrement : peut être inversé : déchiffrement pour récupérer message d’origine

Algorithmes de hachage et chiffrement répandus :

  • SHA(Secure Hash Algorithms)-256, SHA-512. Hachage cryptographique.. Permet de vérifier que les données correspondent bien aux données d’origine, de rendre une donnée impossible (ou quasiment impossible) à lire : par exemple un mot de passe. Cas d’utilisation connu : par exemple dans la blockchain : un haché du bloc précédent est utilisé pour calculer le haché du bloc courant

    image

  • AES (Advanced Encryption Standard)- 256 : Chiffrement symétrique, c'est-à-dire même clé utilisée pour chiffrer et déchiffrer les données. Dans le cas de AES-256 : la taille de la clé est de 256 bits. Cas d’utilisation : chiffrer des sauvegardes de bases de données.

Pour assurer la persistance des données, ces dernières sont stockées dans des fichiers. Il en existe une multitude (JSON, XML, YAML, …). Nous allons étudier les fichiers CSV dans ce cours.

2) Le format CSV (Comma-Separated Value)

On représente souvent présente souvent sous forme de tables dont les colonnes représentent les descripteurs et les lignes représentent les données.

Dans un fichier au format CSV les données sont présentées dans un fichier texte et séparées en général par des points virgules ou des virgules, voire par des tabulations.

On peut ouvrir ce type de fichier avec un tableur comme LibreOffice Calc ou Excel.

ID,NAME,AGE
"23434","Norris, Chuck","24"
"34343","Bond, James","57"

Lors du prochain TP, nous allons nous intéresser aux traitements que l’on peut effectuer sur ces données : rechercher, trier, fusionner. Mais avant cela nous devons importer les données.