Python PANDAS
Python PANDAS
Python PANDAS
pandas
pandas es un paquete de Python que proporciona estructuras de datos similares a
los dataframes de R. Pandas depende de Numpy, la librería que añade un potente
tipo matricial a Python. Los principales tipos de datos que pueden representarse
con pandas son:
Datos tabulares con columnas de tipo heterogéneo con etiquetas en
columnas y filas.
Series temporales.
Pandas proporciona herramientas que permiten:
leer y escribir datos en diferentes formatos: CSV, Microsoft Excel, bases
SQL y formato HDF5
seleccionar y filtrar de manera sencilla tablas de datos en función de
posición, valor o etiquetas
fusionar y unir datos
transformar datos aplicando funciones tanto en global como por ventanas
manipulación de series temporales
hacer gráficas
En pandas existen tres tipos básicos de objetos todos ellos basados a su vez en
Numpy:
Series (listas, 1D),
DataFrame (tablas, 2D) y
Panels (tablas 3D).
Nosotros vamos a ver el uso básico de los dos primeros tipos de objetos, para un
mayor detalle puedes consultar su manual.
pandas tiene una documentación muy completa y diversos tutoriales.
Series
Las Series se pueden crear tanto a partir de listas como de diccionarios. De
manera opcional podemos especificar una lista con las etiquetas de las filas.
Primero necesitamos cargar la librería correspondiente:
DataFrame
Los DataFrame se pueden crear de diferentes maneras, una forma común de
crearlos es partir de listas o diccionarios de listas, de diccionarios o de Series. En
los DataFrame tenemos la opción de especificar tanto el index (el nombre de las
filas) como columns (el nombre de las columnas).
Extraer y filtrar datos
Para seleccionar datos usamos los métodos loc, iloc e ix. loc permite seleccionar
dato usando las etiquetas de filas y columnas, iloc basándose en posición
e ix basándose tanto en etiquetas como posición. En el caso de una Serie,
devuelve un único valor y en el caso de los DataFrame puede devolver tanto una
Serie si sólo se indica la posición de fila, o un valor único si se indican fila y
columna.
Fusionar datos
concat permite concatenar Series y DataFrame. Mediante la opción axis, podemos
controlar si la unión se debe hacer por filas o por columnas.
Métodos de interés
Existen múltiples métodos que nos permiten visualizar y modificar los datos
almacenados en Series y DataFrame. Aquí vamos a ver sólo unos cuantos
ejemplos de métodos que pueden ser de utilidad: