Introducción a pandas de Python
El lenguaje de programación Python es comúnmente utilizado en aplicaciones que manejan grandes cantidades de datos, cuya mejor representación es de manera tabular. Para visualizar este tipo de datos, se usa la librería pandas.
Esta librería de Python es una herramienta de análisis de datos open source construida sobre NumPy, una librería de Python con fines de operaciones científicas. Su nombre viene de “panel data”, un término en econometría y estadística para referirse a conjuntos de datos multidimensionales. [1]
En pandas existen dos estructuras de datos principales: Series y DataFrame. Un DataFrame es una estructura que guarda datos de dos dimensiones; es similar a tablas en una base de datos SQL o a una hoja de cálculo [2]. Tanto las columnas como las filas tienen etiquetas en un DataFrame, siendo la etiqueta de las filas comúnmente el ID de cada registro de datos.
Las Series, por otro lado, son conjuntos de datos de una dimensión, cada dato con su propia etiqueta. En realidad, cada columna de un DataFrame es una Serie, y para unir las Series en un mismo DataFrame se alinean usando la etiqueta de cada renglón.
El objetivo de usar pandas normalmente es para analizar y visualizar los datos para posteriormente manipularlos uniformemente, preparándolos para alimentarlos a algún modelo. Dicho esto, hay muchas maneras de usar pandas, y a continuación se presenta una lista con algunas de ellas: [3]
· Limpieza de datos, cambiando valores faltantes o eliminando registros
· Conversión de formatos para tener el mismo formato a lo largo de todos los registros. También se puede cambiar un formato dado para adaptarlo mejor a otro proceso
· Crear visualizaciones diferentes de los mismos datos, mejorando su comprensión y presentabilidad
· Unir DataFrames para juntar datos de diferentes fuentes, o agregar más datos a registros existentes
Es recomendable visitar el sitio oficial de pandas (aquí) para conocer más al respecto de la librería, incluyendo su historia, una guía para empezar a usarla y la documentación para comprender el funcionamiento de cada elemento.
Lic. Luis Roberto Bustos Vargas
Fuentes
[1] McKinney, W. (2011). pandas: a foundational Python library for data analysis and statistics. Python for High Performance and Scientific Computing, 14(9), 1-9.
[2] Stojiljković, M. (s.f.). The Pandas DataFrame: Make Working With Data Delightful. Obtenido de Real Python: https://realpython.com/pandas-dataframe/
[3] Groenendijk, M., Rao, Y., & Madhavan, S. (28 de Febrero de 2020). Data analysis in Python using pandas. Obtenido de IBM Developer: https://developer.ibm.com/technologies/analytics/tutorials/data-analysis-in-python-using-pandas/