Introducció
Pandas és una biblioteca essencial per a la manipulació i anàlisi de dades en Python. Proporciona estructures de dades fàcils d'utilitzar i eines de manipulació de dades eficients. En aquest tema, aprendrem a utilitzar Pandas per carregar, manipular i analitzar dades.
Continguts
- Instal·lació de Pandas
- Estructures de Dades en Pandas
- Carregar Dades amb Pandas
- Manipulació de Dades
- Agrupació i Agregació
- Tractament de Valors Nuls
- Exercicis Pràctics
- Instal·lació de Pandas
Per instal·lar Pandas, pots utilitzar pip:
- Estructures de Dades en Pandas
Pandas proporciona dues estructures de dades principals:
- Series: Una sèrie és una estructura de dades unidimensional que pot contenir qualsevol tipus de dades.
- DataFrame: Un DataFrame és una estructura de dades bidimensional amb etiquetes d'eix (files i columnes).
Exemple de Series
Exemple de DataFrame
data = { 'Nom': ['Anna', 'Bernat', 'Carla'], 'Edat': [23, 35, 45], 'Ciutat': ['Barcelona', 'Madrid', 'València'] } df = pd.DataFrame(data) print(df)
- Carregar Dades amb Pandas
Pandas pot carregar dades de diversos formats, com ara CSV, Excel, SQL, etc.
Carregar un fitxer CSV
Carregar un fitxer Excel
- Manipulació de Dades
Selecció de Dades
- Seleccionar una columna:
- Seleccionar múltiples columnes:
- Seleccionar files per índex:
- Seleccionar files per condició:
Modificar Dades
- Afegir una nova columna:
- Modificar valors:
Eliminar Dades
- Eliminar una columna:
- Eliminar files:
- Agrupació i Agregació
Pandas permet agrupar dades i aplicar funcions d'agregació com sum, mean, count, etc.
Agrupar per una columna i calcular la mitjana
Agrupar per múltiples columnes
- Tractament de Valors Nuls
Identificar valors nuls
Eliminar valors nuls
Omplir valors nuls
- Exercicis Pràctics
Exercici 1
Carrega un fitxer CSV anomenat empleats.csv
que conté les següents columnes: Nom
, Edat
, Departament
, Salari
. Mostra les primeres 5 files.
Solució
Exercici 2
Selecciona només les columnes Nom
i Salari
del DataFrame df
.
Solució
Exercici 3
Agrupa les dades per Departament
i calcula la mitjana de Salari
per cada departament.
Solució
Exercici 4
Identifica i elimina les files que contenen valors nuls en qualsevol columna.
Solució
Exercici 5
Afegeix una nova columna Bonus
al DataFrame df
amb un valor de 5000 per a tots els empleats.
Solució
Conclusió
En aquesta secció, hem après a utilitzar la biblioteca Pandas per carregar, manipular i analitzar dades. Hem vist com treballar amb les estructures de dades Series i DataFrame, com carregar dades des de diferents formats, i com realitzar operacions de manipulació i agregació. Els exercicis pràctics proporcionats ajuden a consolidar els conceptes apresos. En el proper tema, explorarem la visualització de dades amb Matplotlib.
Curs de Programació en Python
Mòdul 1: Introducció a Python
- Introducció a Python
- Configuració de l'Entorn de Desenvolupament
- Sintaxi de Python i Tipus de Dades Bàsics
- Variables i Constants
- Entrada i Sortida Bàsiques
Mòdul 2: Estructures de Control
Mòdul 3: Funcions i Mòduls
- Definició de Funcions
- Arguments de Funció
- Funcions Lambda
- Mòduls i Paquets
- Visió General de la Biblioteca Estàndard
Mòdul 4: Estructures de Dades
Mòdul 5: Programació Orientada a Objectes
Mòdul 6: Gestió de Fitxers
- Lectura i Escriptura de Fitxers
- Treballant amb Fitxers CSV
- Gestió de Dades JSON
- Operacions amb Fitxers i Directoris
Mòdul 7: Gestió d'Errors i Excepcions
Mòdul 8: Temes Avançats
- Decoradors
- Generadors
- Gestors de Context
- Concurrència: Fils i Processos
- Asyncio per a Programació Asíncrona
Mòdul 9: Proves i Depuració
- Introducció a les Proves
- Proves Unitàries amb unittest
- Desenvolupament Guiat per Proves
- Tècniques de Depuració
- Ús de pdb per a la Depuració
Mòdul 10: Desenvolupament Web amb Python
- Introducció al Desenvolupament Web
- Conceptes Bàsics del Framework Flask
- Construcció d'APIs REST amb Flask
- Introducció a Django
- Construcció d'Aplicacions Web amb Django
Mòdul 11: Ciència de Dades amb Python
- Introducció a la Ciència de Dades
- NumPy per al Càlcul Numèric
- Pandas per a la Manipulació de Dades
- Matplotlib per a la Visualització de Dades
- Introducció al Machine Learning amb scikit-learn