Pandas

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 3

Ministre de l’Enseignement Supérieur Langage de Programmation Evolué

Et de la Recherche Scientifique 3ème LBC-BI/ LBC-EB


Université de Monastir 2022-2023
Institut Supérieur d’Informatique de Mahdia I.Toumia

Module Pandas

Le module pandas a été conçu pour l’analyse de données. Il est particulièrement puissant pour
manipuler des données structurées sous forme de tableau.
 Pour charger pandas dans la mémoire de Python, on utilise la commande import, Pandas est
souvent chargé avec un nom raccourci :

1. Series
Le premier type de données apporté par pandas est la series, qui correspond à un vecteur à une
dimension.

Avec pandas, chaque élément de la série de données possède une étiquette qui permet d’appeler les
éléments. Ainsi, pour appeler le premier élément de la série, on peut utiliser son index, comme pour
une liste (0 pour le premier élément) ou son étiquette (ici, "a") :

Bien sûr, on peut extraire plusieurs éléments, par leurs indices ou leurs étiquettes :

Les étiquettes permettent de modifier et d’ajouter des éléments :

Page | 1
Ministre de l’Enseignement Supérieur Langage de Programmation Evolué
Et de la Recherche Scientifique 3ème LBC-BI/ LBC-EB
Université de Monastir 2022-2023
Institut Supérieur d’Informatique de Mahdia I.Toumia

On peut filtrer une partie de la series :

2. Dataframes
La Dataframe est une structure de données qui organise les données en lignes et en colonnes, ce qui en
fait une structure de données bidimensionnelle. Vous pouvez l’imaginer comme une feuille de calcul
ou une table SQL, ou encore un dictionnaire d’objets Series. C’est généralement l’objet pandas le plus
utilisé. Comme une série, une Dataframe peut être construite à partir de nombreux types différents :

 Un dict de ndarrays 1D, listes, dicts, ou Series ;


 Un numpy.ndarray bidimensionnelle ;
 Un ndarray strucuré ;
 Une série ;
 Ou encore une autre Dataframe.

La méthode de base pour créer une Dataframe est la suivante :

df= pd.Dataframe(data, index=index, columns=columns)


Ici, l’index représente l’ensemble des étiquettes de lignes et columns l’ensemble des étiquettes de
colonnes.
La Dataframe Pandas est puissante car :

 Elle peut facilement charger des données provenant de différentes sources de données et de
différents formats de données ;
 Elle vous permet de réaliser facilement des statistiques et répondre à des questions sur les
données, telles que : Quelle est la moyenne, la médiane, le maximum ou le minimum de
chaque colonne ? Y a-t-il une corrélation entre la colonne A et la colonne B ? À quoi
ressemble la distribution des données de la colonne C ? ;
 Elle facilite également le nettoyage les données en supprimant les valeurs manquantes et en
filtrant les lignes ou les colonnes selon certains critères
 Elle permet de visualiser les données avec l’aide de Matplotlib. Tracez des barres, des lignes,
des histogrammes, des bulles, etc. ;
 Elle permet de stocker les données nettoyées et transformées dans un CSV, un autre fichier ou
une base de données.

Page | 2
Ministre de l’Enseignement Supérieur Langage de Programmation Evolué
Et de la Recherche Scientifique 3ème LBC-BI/ LBC-EB
Université de Monastir 2022-2023
Institut Supérieur d’Informatique de Mahdia I.Toumia

 Vous pouvez définir vos propres fonctions Python pour certaines tâches de calcul et les
appliquez aux données de vos Dataframes.

Page | 3

Vous aimerez peut-être aussi

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy