Don Nees

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 11

SNT

Les données structurées et


leur traitement

I- Introduction

Les données constituent la matière première de toute activité numérique. Afin de permettre leur
réutilisation, il est nécessaire de les conserver de manière persistante.

Elles peuvent être de différents types : et peuvent être traitées différemment :


- valeurs numériques - calcul
- textes - tri
- dates… - affichage…

Les données comme les métadonnées peuvent être capturées et enregistrées par un dispositif matériel
(capteurs, internet …) ou bien renseignées par un humain (création d’un fichier client, enregistrement
de contacts dans un Smartphone…).

Lorsqu’elles sont structurées, c'est-à-dire rangées et mises en forme, elles sont plus facilement
exploitables pour produire de l’information. Cependant, les données non structurées peuvent aussi
être exploitées.

II- Structuration des données

Lecture de la vidéo « Données, comment les manipuler »

Synthèse de la vidéo :

Objet : Descripteurs :
Client Nom, prénom, adresse, âge..

Collection :
Ensemble de mes clients

On peut représenter les données sous forme de tableaux ou de tables.


Une table peut représenter une collection :
- objets en ligne
- descripteurs en colonnes
- données à l’intersection d’une ligne et d’une colonne.
Les données sont alors dites structurées.

1
Certaines collections typiques sont utilisées dans des applications et des formats standardisés leur sont
associés : par exemple le format ouvert vCard (extension .vfc) pour une collection de contacts.
Une base de données regroupe plusieurs collections de données reliées entre elles. Par exemple, la
base de données d’une bibliothèque conserve les données sur les livres, les abonnés et les emprunts
effectués.

III- Traitement des données


Les données peuvent être traitées à l’aide de programmes appelés tableurs.
Réalisez l’activité n°1

Activité 1 : Utilisation d’un tableur LibreOffice Calc pour trier des données

Démarrez le programme « LibreOffice Calc » et ouvrez le fichier Foot.ods


Vous allez obtenir un tableau appelé «Liste des joueurs»
Ce tableau est scindé en Lignes numérotées avec des chiffres et en colonnes repérées avec des
lettres.

1- Quels sont les descripteurs de cette collection ?

2- Filtrez les données de façon à faire apparaître la liste des défenseurs uniquement en
cliquant sur « Données » puis « Autofiltre »

3- Faites apparaître la liste des attaquants de Bordeaux.

4- En allant sur internet, recherchez le nom et le poste d’un joueur d’un autre club (chaque
groupe de travail ajoutera à sa liste un joueur différent).

5- Nous avons, maintenant, tous un fichier différent. Pour créer une base de données qui
contient tous les joueurs (ceux déjà rentrés et ceux que nous avons tous rajoutés),
Comment peut-on faire ?

6- Trier les données suivant les noms des joueurs dans l’ordre alphabétique. Pour cela,
vous sélectionnerez la collection et vous irez dans Données, Trier et vous définirez les
critères suivants :

7- Complétez la fiche du joueur Benoît COSTIL en allant sur le site des Girondins de
Bordeaux.

2
8- Créez une fiche pour un autre joueur de la même équipe. (la photo pourra être prise avec
le logiciel de capture d’image de Windows)

Pour cela, faites un clic de droite sur le bandeau du bas

Et cliquez sur insérez un feuille

Cliquez sur « Après la feuille


active »

Donnez-lui le nom du joueur.

Puis cliquez sur OK

9- Cette opération étant longue, on pourrait la raccourcir en faisant un « Copier/Coller ».


Créez une Nouvelle feuille au nom de Khadija SHAW, joueuse de l’équipe féminine.
Allez dans la première fiche et faites un clic de Gauche sur le bouton suivant

Aller sur Édition puis Copier.


Allez sur la feuille crée pour Khadidja SHAW , sélectionner la première cellule en haut
à gauche et cliquez sur Coller. La mise en forme sera faite automatiquement et il ne
reste plus qu’à modifier le contenu.

10- Modification d’une donnée. À la place de « Milieu », je souhaite marquer « Milieu de


terrain » pour le poste des joueurs et joueuses. Comment peut-on faire ?

Vous venez de voir, dans l’activité précédente, que la modification de données peut être très
longue et fastidieuse lorsque ces données sont utilisées dans plusieurs collections. Pour cela il
existe des bases de données qui facilitent ce travail.

Lorsque l’on utilise des tableurs, il est également possible de faire des calculs, comme par
exemple, une somme de valeurs, une moyenne, le calcul du nombre de données….

3
Réalisez l’activité n°2

Activité 2 : Ouvrez le fichier nommé « Activité2.ods ».

Sur la première feuille nommée « Première approche », effectuez les calculs


demandés. Sur la deuxième feuille nommée « ABC Pareto », faire un tri suivant le
« Sous-ensemble », puis compléter le tableau nommé « Tableau 2 ».
Faire le graphe représentant le % cumulé en fonction des sous-ensembles.

IV- Formats de données :


Pour assurer la persistance des données, ces dernières sont stockées dans des fichiers. Il y a deux
types de formats de fichiers dont voici les principaux :

 ceux lisibles par des traitements de texte comme Notepad++, (on dit alors "de type texte") qui
ne contiennent que des caractères alphanumériques : CSV, XML, JSON et vCard
(extension .vcf) pour une collection de contacts. Les caractères sont codés en mémoire en
respectant une norme d'encodage, telle que le Latin1 (spécialisé pour coder efficacement les
caractères latins) ou l'UTF-8.
 les autres que les traitements de texte ne pourront pas lire correctement (on dit "de type
binaire"). Ce sont principalement les formats des tableurs (LibreOffice Calc, OpenOffice Calc,
Microsoft Office Excel) : ODS, XLS, XLSX ... et ceux des logiciels de gestion de bases de
données : DBF ...

1- Format CSV
Le sigle CSV signifie Comma-Separated Values et désigne un fichier informatique dont
les valeurs sont séparées par des virgules.
Ce type de format convient pour écrire des valeurs venant de tableaux (LibreOffice Calc,
Excel…) de façon à les transporter d’un type de logiciel à l’autre.
C’est un format dit ouvert.
Par exemple, le tableau ci-dessous exporté en format CSV

donnera le fichier suivant lorsqu’on le lit avec un logiciel tel que Notepad ou le Bloc-
note de Windows (la première ligne correspond à la liste des descripteurs):

Descripteurs

Une ligne par objet


Chaque donnée
est notée entre
virgules.
Réaliser l’activité n°3

Activité 3 : Export au format .CSV d’un fichier LibreOffice Calc

4
1- Ouvrez le fichier Foot.ods utilisé plus haut, sur la feuille Liste des joueurs. Faites les
commandes suivantes :
Fichier, Enregistrer sous
Sélectionnez votre répertoire pour l’enregistrement
Entrez le Nom du fichier et le Type de fichier comme ci dessous

Cliquez sur Enregistrer


Ouvrez le fichier à l’aide du Bloc-note et regardez la structure du fichier.
Fermez le fichier Foot.ods
Faites un clic de droite sur le fichier Foot CSV.csv dans le répertoire dans lequel vous
l’avez sauvegardé.
Cliquez sur Ouvrir avec et sélectionner LibreofficeCalc.
Comparez le fichier au fichier de départ.

2- Format XML
XML (eXtensible Markup Language) est un langage dit de description qui permet de
structurer des données sous forme de texte de façon à les utiliser lors d’échanges avec des
personnes ou entre applications (via internet, par exemple).
Ce langage utilise des balises, c’est à dire des étiquettes de façon à « ranger » les
informations.
- Une Balise est représentée entre deux symboles <balise>
- On peut donner le nom que l’on souhaite à nos balises <MonNom>
- Pour ranger des données, on ouvre une balise (qui correspond à un descripteur), on
indique les données qui s’y rapportent, et on referme notre balise. On parle de
balises par paires :
<Nom du joueur> Ouverture de la balise
Contenu
</Nom du joueur> Fermeture de la balise

- Le contenu entre deux balises peut être une valeur simple (texte, nombre) ou une
autre balise par paires :
<Nom du joueur> Ouverture de la première balise
Mbape Donnée de la première balise
<Club> Ouverture de la deuxième balise
PSG Donnée de la deuxième balise
</Club> Fermeture de la deuxième balise
</Nom du joueur> Fermeture de la première balise

5
L’enregistrement des
différents objets est situé
entre les balises <Client>.

Les balises <Nom>,


<Age>… Correspondent aux
descripteurs des objets.
Balises Racine, qui
délimite le début et la
fin de la collection.

Réaliser l’activité n°4

Activité 4 : Création d’un fichier contenant des informations sur les joueurs de football au
format XML

1- Ouvrez le fichier Foot.ods utilisé plus haut sur la feuille Liste des joueurs.
2- Créez un fichier à l’aide du BlocNote.
3- Dans ce fichier, entrez la ligne suivante :
<?xml version = "1.0" encoding="UTF-8" standalone="yes" ?>
Cela signifie que nous avons créé un fichier XML version 1.0, encodé en UTF-8 qui est
un codage de texte englobant les codes ASCII mais comprenant également d’autres
caractères. L’UTF-8 est fréquemment utilisé pour les documents échangés sur internet.
Standalone signifie qu’aucun autre document ne lui est attaché.
4- Entrez les données relatives aux 5 premiers joueurs de la liste du tableur.
Pour cela :
- la balise racine s’appellera Liste_joueurs
- déterminez pour chaque joueur les balises qui devront être créées.
- complétez-le fichier
- enregistrez-le sur votre répertoire au format UTF-8 et avec
l’extension .xml

3- Format JSON
Le format JSON (JavaScript Object Notation) est similaire au XML. Il est pris en charge
par de nombreux logiciels de programmation.

- Un tableau est noté entre Crochets […] ;


- Chaque objet de la collection est délimité par des accolades {…} ;
- Les enregistrements sont séparés par des virgules ;

6
- Les descripteurs et les données sont notés entre guillemets “…”. Ils sont séparés par
le symbole « : »

4- Format Vcard :
C’est un format qui permet d’échanger des données personnelles et notamment de créer
des carnets d’adresse ou des cartes de visite. (Vcard signifie Visit Card)
Les fichiers Vcard sont éditables à l’aide d’un éditeur de texte du type BlocNote et
enregistrés avec l’extension .vcf

Activité 5: Choisir un véhicule suivant son taux d'émission de CO2 dans l'atmosphère

Nous allons utiliser des données numériques ouvertes pour effectuer un classement de tous les
véhicules commercialisés en France suivant ce critère.

1- Aller sur le site www.data.gouv.fr et dans le champ de recherche de ce site taper les mots :
« véhicule CO2 »

2- Télécharger le jeu de données sur les émissions de CO 2 et de polluants des véhicules


commercialisés en France en 2014.

3- Télécharger également le dictionnaire des variables.

4- Décompresser ce fichier carlab-mars-2014-complete au format zip dans votre répertoire de


travail (clic droit > Extraire ...).
5- Quel est le format du fichier extrait mars-2014-complete? Quel est le séparateur ?

6- Quel est le format du fichier de l'annuaire des variables ?

7- Nous souhaitons trier les véhicules suivant leur taux d'émission de CO2.

7
7.1- Importer dans LibreOffice Calc le fichier "mars-2014-complete.csv" en tenant compte du
séparateur.

7.2-Ouvrir avec LibreOffice Calc le fichier "carlab-annuaire-variable.xlsx"


7.3- Quel est le descripteur de la collection des voitures commercialisées en France indiquant le
type de carburant ?

7.4- Quelle est la donnée indiquant que le véhicule fonctionne à l'essence sans plomb ?

7.5- Filtrer les entrées pour que seules les voitures à moteur seulement essence s'affichent.

7.6- Trier les voitures à moteur seulement essence par ordre croissant d'émissions de CO2 dans
l'atmosphère.
7.8- D'après notre étude, de quelle marque sont les deux voitures à moteur essence
commercialisées en France émettant le moins de CO2

Activité 6: Croisement de données

Nous allons utiliser le site de l'INSEE, pour sélectionner et récupérer des données sur les communes,
départements et régions françaises

L'Institut national de la statistique et des études économiques (INSEE) est chargé de la production,
de l'analyse et de la publication des statistiques officielles en France : comptabilité nationale
annuelle et trimestrielle, évaluation de la démographie nationale, du taux de chômage, etc. Le site
web de l'INSEE fournit quantité de données ouvertes que tout citoyen peut récupérer et traiter
suivant ses besoins. Il est par contre parfois nécessaire de récupérer les données de plusieurs
fichiers pour obtenir l'information désirée.

1- Données sur les régions de France


Voici comment télécharger le fichier des données sur le découpage de la France en régions.
1.1- Dans un navigateur, taper l'URL du site web de l'INSEE.
1.2- Naviguer dans le site en suivant le chemin suivant :
Accueil > Définitions méthodes et qualités >Géographie administrative et d'étude
>Téléchargement>Code officiel géographique (COG)

1.3- Cliquer sur "Téléchargement des fichiers" du dernier millésime.

Pour ce module, on travaillera avec les données 2018.

1.4- Dans le sommaire, cliquer sur le lien "Liste des régions".

8
On arrive sur cela :

Ce qu'il y a entre parenthèses indique le format du fichier ainsi que sa taille. Choisir le fichier
txt et enregistrez le fichier reg2018-txt.zip.
Attention : Décompresser les fichiers au format zip avant de les utiliser.
Il est donc impératif de décompresser le fichier zip avant de modifier les données.
Pour cela, faire un clic droit sur l'icône du fichier zip téléchargé et choisir "Extraire tout ...".

1.5- Télécharger les fichiers comsimp2018-txt.zip et depts2018-txt.zip sur les communes et les
départements français.

1.6- Importer des fichiers sur les communes et régions dans un classeur LibreOffice Calc

2- On ne va d'abord utiliser les fichiers comsimp2018-txt.zip, reg2018-txt.zip.


2.1- Décompressez ces trois fichiers dans un répertoire de travail (clic droit sur les icônes et
choisir "Extraire tout ...".
Ces fichiers ayant pour extension ".txt", mais qui sont en fait au format CSV avec pour
séparateur des tabulations : on parle de format TSV.
2.2- Ouvrez un classeur vide avec LibreOffice Calc puis sauvegardez-le au format ODS
avec le nom "Activité 1".

2.3- Pour importer le fichier reg2018.txt dans LibreOffice Calc :


- Cliquez dans la zone à droite de "Feuille1 en bas de la feuille de calcul.

- Dans la fenêtre "Insérer une feuille" qui vient d'apparaître, choisissez "A partir d'un
fichier" puis cliquez sur "Parcourir".

- Allez chercher dans votre répertoire de travail le fichier reg2018.txt.


ATTENTION : dans la fenêtre "Import de texte", il y a des réglages à faire : le jeu
de caractères et les options de séparateur.
- Choisir le même jeu de caractères que celui utilisé par l'INSEE pour coder ce fichier :
ISO 8859-1, appelé aussi Latin-1 pour que les caractères accentués s'affichent bien,
- Dans les options de séparateur, cocher seulement "Tabulation".
Vérifier que l'apparence des premières lignes du fichier est correct (on voit bien les
différentes colonnes et tous les caractères s'affichent bien), puis appuyer sur le bouton
OK.
- Faites un clic droit en bas de la feuille sur le nom "reg2018" et renommez-le en
"régions".

9
Importer de la même manière dans le classeur "Activité 1" le fichier "comsimp2018.txt" ; renommez
la feuille "comsimp2018" en "communes" puis sauvegarder l'ensemble.

Traitement : ajout des noms des régions à la collection des communes

1. Aller dans la feuille "communes" du classeur "Activité 1.odt" et tapez dans la cellule M1 le
mot NREG (pour Nom Région)
2. Dans la cellule M2 de la feuille "communes", tapez l'instruction :
=RECHERCHEV(C2;$régions.$A$2:$D$19;4;0)
(attention à ce que le mot "régions" corresponde bien au nom de la deuxième feuille de
calculs)
Explication de la formule :
Cette instruction effectue une recherche du contenu de la cellule C2 (c'est à dire 84) dans les
cellules A2 à A19 de la feuille "régions". Elle trouve cette valeur 84 à la cellule A17. Elle
affecte alors à la cellule M2 le contenu de la cellule D17, c'est à dire AUVERGNE-RHONE-
ALPES, situé dans la 4ème colonne de la zone de recherche .$A$2:$D$19 (d'où le "4" dans la
formule). Le nom AUVERGNE-RHONE-ALPES devrait donc apparaître dans la cellule M2
si vous avez tapé correctement cette formule. Le dernier paramètre, 0, spécifie que la colonne
A dans laquelle la recherche se fait n'est pas triée par ordre croissant.
3. copier/coller la formule de la cellule M2 dans les cellules M3 à M35358 de façon à ce que le
nom des régions de chaque commune soit renseigné.
Fondamental
Vous avez ainsi réussi à ajouter le descripteur NREG (nom des régions) à la collection des
communes de France à partir de celle des régions. Ceci a été possible car les deux collections
avaient le descripteur donnant le numéro des régions (appelé REG pour l'un et REGION pour
l'autre) en commun.

Application d'un filtre pour voir le résultat du traitement

Voir la liste des noms de chefs-lieux de régions


On souhaite appliquer un filtre pour ne voir que les chefs-lieux de régions dans la feuille
"communes" du fichier "Activité 1.ods".
On suppose que vous avez déjà ajouté les noms des régions à ce fichier (voir travaux précédents).
Pour cela, on se base sur la description ci-dessous récupérée sur le site de l'INSEE du descripteur
CHEFLIEU :

On voit donc qu'une commune chef-lieu de région doit avoir le nombre 4 comme donnée du
descripteur CHEFLIEU.
Le principe va donc consister à appliquer un filtre sur la table "communes" afin que seules les
communes ayant 4 dans la colonne CHEFLIEU apparaissent.
1. Ouvrir avec LibreOffice Calc le fichier "Activité 1.ods" et cliquer sur l'onglet "communes"
pour voir la liste des communes de France.
2. Dans le menu "Données", cliquer sur "AutoFiltre". Cela fait apparaître des petites flèches à
côté des noms des descripteurs de la table.
3. Cliquer sur la flèche de CHEFLIEU et ne laisser coché que la valeur 4 puis appuyez sur le
bouton OK.

10
Lire les nouvelles données obtenues
En utilisant le filtre appliqué sur les chefs-lieux de région, écrire en majuscule les noms de chef-lieux
des régions suivantes.
Le chef-lieu de la région Guyane est .
Le chef-lieu de la région Nouvelle-Aquitaine est .

Affichage des communes qui sont chefs-lieux de département avec le nom de leur département
Mettez en pratique ce que vous avez appris pour :
1. ajouter à la feuille "communes" le descripteur NDEP qui correspond au nom du département
auquel appartient la commune.
On effectuera pour cela un croisement des données avec la collection des départements
(fichier dep2018.txt à importer dans le classeur Activité 1.ods) en utilisant le descripteur DEP
qu'elle partage avec la collection des communes,
2. faire afficher grâce à l'application d'un filtre uniquement les communes qui sont chefs-lieux de
département avec le nom de leur département.

11

Vous aimerez peut-être aussi

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy