Don Nees
Don Nees
Don Nees
I- Introduction
Les données constituent la matière première de toute activité numérique. Afin de permettre leur
réutilisation, il est nécessaire de les conserver de manière persistante.
Les données comme les métadonnées peuvent être capturées et enregistrées par un dispositif matériel
(capteurs, internet …) ou bien renseignées par un humain (création d’un fichier client, enregistrement
de contacts dans un Smartphone…).
Lorsqu’elles sont structurées, c'est-à-dire rangées et mises en forme, elles sont plus facilement
exploitables pour produire de l’information. Cependant, les données non structurées peuvent aussi
être exploitées.
Synthèse de la vidéo :
Objet : Descripteurs :
Client Nom, prénom, adresse, âge..
Collection :
Ensemble de mes clients
1
Certaines collections typiques sont utilisées dans des applications et des formats standardisés leur sont
associés : par exemple le format ouvert vCard (extension .vfc) pour une collection de contacts.
Une base de données regroupe plusieurs collections de données reliées entre elles. Par exemple, la
base de données d’une bibliothèque conserve les données sur les livres, les abonnés et les emprunts
effectués.
Activité 1 : Utilisation d’un tableur LibreOffice Calc pour trier des données
2- Filtrez les données de façon à faire apparaître la liste des défenseurs uniquement en
cliquant sur « Données » puis « Autofiltre »
4- En allant sur internet, recherchez le nom et le poste d’un joueur d’un autre club (chaque
groupe de travail ajoutera à sa liste un joueur différent).
5- Nous avons, maintenant, tous un fichier différent. Pour créer une base de données qui
contient tous les joueurs (ceux déjà rentrés et ceux que nous avons tous rajoutés),
Comment peut-on faire ?
6- Trier les données suivant les noms des joueurs dans l’ordre alphabétique. Pour cela,
vous sélectionnerez la collection et vous irez dans Données, Trier et vous définirez les
critères suivants :
7- Complétez la fiche du joueur Benoît COSTIL en allant sur le site des Girondins de
Bordeaux.
2
8- Créez une fiche pour un autre joueur de la même équipe. (la photo pourra être prise avec
le logiciel de capture d’image de Windows)
Vous venez de voir, dans l’activité précédente, que la modification de données peut être très
longue et fastidieuse lorsque ces données sont utilisées dans plusieurs collections. Pour cela il
existe des bases de données qui facilitent ce travail.
Lorsque l’on utilise des tableurs, il est également possible de faire des calculs, comme par
exemple, une somme de valeurs, une moyenne, le calcul du nombre de données….
3
Réalisez l’activité n°2
ceux lisibles par des traitements de texte comme Notepad++, (on dit alors "de type texte") qui
ne contiennent que des caractères alphanumériques : CSV, XML, JSON et vCard
(extension .vcf) pour une collection de contacts. Les caractères sont codés en mémoire en
respectant une norme d'encodage, telle que le Latin1 (spécialisé pour coder efficacement les
caractères latins) ou l'UTF-8.
les autres que les traitements de texte ne pourront pas lire correctement (on dit "de type
binaire"). Ce sont principalement les formats des tableurs (LibreOffice Calc, OpenOffice Calc,
Microsoft Office Excel) : ODS, XLS, XLSX ... et ceux des logiciels de gestion de bases de
données : DBF ...
1- Format CSV
Le sigle CSV signifie Comma-Separated Values et désigne un fichier informatique dont
les valeurs sont séparées par des virgules.
Ce type de format convient pour écrire des valeurs venant de tableaux (LibreOffice Calc,
Excel…) de façon à les transporter d’un type de logiciel à l’autre.
C’est un format dit ouvert.
Par exemple, le tableau ci-dessous exporté en format CSV
donnera le fichier suivant lorsqu’on le lit avec un logiciel tel que Notepad ou le Bloc-
note de Windows (la première ligne correspond à la liste des descripteurs):
Descripteurs
4
1- Ouvrez le fichier Foot.ods utilisé plus haut, sur la feuille Liste des joueurs. Faites les
commandes suivantes :
Fichier, Enregistrer sous
Sélectionnez votre répertoire pour l’enregistrement
Entrez le Nom du fichier et le Type de fichier comme ci dessous
2- Format XML
XML (eXtensible Markup Language) est un langage dit de description qui permet de
structurer des données sous forme de texte de façon à les utiliser lors d’échanges avec des
personnes ou entre applications (via internet, par exemple).
Ce langage utilise des balises, c’est à dire des étiquettes de façon à « ranger » les
informations.
- Une Balise est représentée entre deux symboles <balise>
- On peut donner le nom que l’on souhaite à nos balises <MonNom>
- Pour ranger des données, on ouvre une balise (qui correspond à un descripteur), on
indique les données qui s’y rapportent, et on referme notre balise. On parle de
balises par paires :
<Nom du joueur> Ouverture de la balise
Contenu
</Nom du joueur> Fermeture de la balise
- Le contenu entre deux balises peut être une valeur simple (texte, nombre) ou une
autre balise par paires :
<Nom du joueur> Ouverture de la première balise
Mbape Donnée de la première balise
<Club> Ouverture de la deuxième balise
PSG Donnée de la deuxième balise
</Club> Fermeture de la deuxième balise
</Nom du joueur> Fermeture de la première balise
5
L’enregistrement des
différents objets est situé
entre les balises <Client>.
Activité 4 : Création d’un fichier contenant des informations sur les joueurs de football au
format XML
1- Ouvrez le fichier Foot.ods utilisé plus haut sur la feuille Liste des joueurs.
2- Créez un fichier à l’aide du BlocNote.
3- Dans ce fichier, entrez la ligne suivante :
<?xml version = "1.0" encoding="UTF-8" standalone="yes" ?>
Cela signifie que nous avons créé un fichier XML version 1.0, encodé en UTF-8 qui est
un codage de texte englobant les codes ASCII mais comprenant également d’autres
caractères. L’UTF-8 est fréquemment utilisé pour les documents échangés sur internet.
Standalone signifie qu’aucun autre document ne lui est attaché.
4- Entrez les données relatives aux 5 premiers joueurs de la liste du tableur.
Pour cela :
- la balise racine s’appellera Liste_joueurs
- déterminez pour chaque joueur les balises qui devront être créées.
- complétez-le fichier
- enregistrez-le sur votre répertoire au format UTF-8 et avec
l’extension .xml
3- Format JSON
Le format JSON (JavaScript Object Notation) est similaire au XML. Il est pris en charge
par de nombreux logiciels de programmation.
6
- Les descripteurs et les données sont notés entre guillemets “…”. Ils sont séparés par
le symbole « : »
4- Format Vcard :
C’est un format qui permet d’échanger des données personnelles et notamment de créer
des carnets d’adresse ou des cartes de visite. (Vcard signifie Visit Card)
Les fichiers Vcard sont éditables à l’aide d’un éditeur de texte du type BlocNote et
enregistrés avec l’extension .vcf
Activité 5: Choisir un véhicule suivant son taux d'émission de CO2 dans l'atmosphère
Nous allons utiliser des données numériques ouvertes pour effectuer un classement de tous les
véhicules commercialisés en France suivant ce critère.
1- Aller sur le site www.data.gouv.fr et dans le champ de recherche de ce site taper les mots :
« véhicule CO2 »
7- Nous souhaitons trier les véhicules suivant leur taux d'émission de CO2.
7
7.1- Importer dans LibreOffice Calc le fichier "mars-2014-complete.csv" en tenant compte du
séparateur.
7.4- Quelle est la donnée indiquant que le véhicule fonctionne à l'essence sans plomb ?
7.5- Filtrer les entrées pour que seules les voitures à moteur seulement essence s'affichent.
7.6- Trier les voitures à moteur seulement essence par ordre croissant d'émissions de CO2 dans
l'atmosphère.
7.8- D'après notre étude, de quelle marque sont les deux voitures à moteur essence
commercialisées en France émettant le moins de CO2
Nous allons utiliser le site de l'INSEE, pour sélectionner et récupérer des données sur les communes,
départements et régions françaises
L'Institut national de la statistique et des études économiques (INSEE) est chargé de la production,
de l'analyse et de la publication des statistiques officielles en France : comptabilité nationale
annuelle et trimestrielle, évaluation de la démographie nationale, du taux de chômage, etc. Le site
web de l'INSEE fournit quantité de données ouvertes que tout citoyen peut récupérer et traiter
suivant ses besoins. Il est par contre parfois nécessaire de récupérer les données de plusieurs
fichiers pour obtenir l'information désirée.
8
On arrive sur cela :
Ce qu'il y a entre parenthèses indique le format du fichier ainsi que sa taille. Choisir le fichier
txt et enregistrez le fichier reg2018-txt.zip.
Attention : Décompresser les fichiers au format zip avant de les utiliser.
Il est donc impératif de décompresser le fichier zip avant de modifier les données.
Pour cela, faire un clic droit sur l'icône du fichier zip téléchargé et choisir "Extraire tout ...".
1.5- Télécharger les fichiers comsimp2018-txt.zip et depts2018-txt.zip sur les communes et les
départements français.
1.6- Importer des fichiers sur les communes et régions dans un classeur LibreOffice Calc
- Dans la fenêtre "Insérer une feuille" qui vient d'apparaître, choisissez "A partir d'un
fichier" puis cliquez sur "Parcourir".
9
Importer de la même manière dans le classeur "Activité 1" le fichier "comsimp2018.txt" ; renommez
la feuille "comsimp2018" en "communes" puis sauvegarder l'ensemble.
1. Aller dans la feuille "communes" du classeur "Activité 1.odt" et tapez dans la cellule M1 le
mot NREG (pour Nom Région)
2. Dans la cellule M2 de la feuille "communes", tapez l'instruction :
=RECHERCHEV(C2;$régions.$A$2:$D$19;4;0)
(attention à ce que le mot "régions" corresponde bien au nom de la deuxième feuille de
calculs)
Explication de la formule :
Cette instruction effectue une recherche du contenu de la cellule C2 (c'est à dire 84) dans les
cellules A2 à A19 de la feuille "régions". Elle trouve cette valeur 84 à la cellule A17. Elle
affecte alors à la cellule M2 le contenu de la cellule D17, c'est à dire AUVERGNE-RHONE-
ALPES, situé dans la 4ème colonne de la zone de recherche .$A$2:$D$19 (d'où le "4" dans la
formule). Le nom AUVERGNE-RHONE-ALPES devrait donc apparaître dans la cellule M2
si vous avez tapé correctement cette formule. Le dernier paramètre, 0, spécifie que la colonne
A dans laquelle la recherche se fait n'est pas triée par ordre croissant.
3. copier/coller la formule de la cellule M2 dans les cellules M3 à M35358 de façon à ce que le
nom des régions de chaque commune soit renseigné.
Fondamental
Vous avez ainsi réussi à ajouter le descripteur NREG (nom des régions) à la collection des
communes de France à partir de celle des régions. Ceci a été possible car les deux collections
avaient le descripteur donnant le numéro des régions (appelé REG pour l'un et REGION pour
l'autre) en commun.
On voit donc qu'une commune chef-lieu de région doit avoir le nombre 4 comme donnée du
descripteur CHEFLIEU.
Le principe va donc consister à appliquer un filtre sur la table "communes" afin que seules les
communes ayant 4 dans la colonne CHEFLIEU apparaissent.
1. Ouvrir avec LibreOffice Calc le fichier "Activité 1.ods" et cliquer sur l'onglet "communes"
pour voir la liste des communes de France.
2. Dans le menu "Données", cliquer sur "AutoFiltre". Cela fait apparaître des petites flèches à
côté des noms des descripteurs de la table.
3. Cliquer sur la flèche de CHEFLIEU et ne laisser coché que la valeur 4 puis appuyez sur le
bouton OK.
10
Lire les nouvelles données obtenues
En utilisant le filtre appliqué sur les chefs-lieux de région, écrire en majuscule les noms de chef-lieux
des régions suivantes.
Le chef-lieu de la région Guyane est .
Le chef-lieu de la région Nouvelle-Aquitaine est .
Affichage des communes qui sont chefs-lieux de département avec le nom de leur département
Mettez en pratique ce que vous avez appris pour :
1. ajouter à la feuille "communes" le descripteur NDEP qui correspond au nom du département
auquel appartient la commune.
On effectuera pour cela un croisement des données avec la collection des départements
(fichier dep2018.txt à importer dans le classeur Activité 1.ods) en utilisant le descripteur DEP
qu'elle partage avec la collection des communes,
2. faire afficher grâce à l'application d'un filtre uniquement les communes qui sont chefs-lieux de
département avec le nom de leur département.
11