La representació gràfica de dades és una eina fonamental en estadística que permet visualitzar la distribució, les tendències i les relacions dins d'un conjunt de dades. Aquest mòdul cobreix els diferents tipus de gràfics i com utilitzar-los adequadament.
Objectius del Mòdul
- Comprendre la importància de la representació gràfica de dades.
- Aprendre a crear i interpretar diferents tipus de gràfics.
- Saber seleccionar el tipus de gràfic adequat segons el tipus de dades i l'objectiu de l'anàlisi.
Tipus de Gràfics
- Gràfic de Barres
Els gràfics de barres són útils per comparar diferents categories entre si.
Característiques:
- Cada barra representa una categoria.
- L'alçada o longitud de la barra és proporcional al valor que representa.
Exemple:
import matplotlib.pyplot as plt categories = ['A', 'B', 'C', 'D'] valors = [23, 45, 56, 78] plt.bar(categories, valors) plt.xlabel('Categories') plt.ylabel('Valors') plt.title('Gràfic de Barres') plt.show()
Explicació:
categories
és una llista de les categories.valors
és una llista dels valors corresponents a cada categoria.plt.bar()
crea el gràfic de barres.plt.xlabel()
,plt.ylabel()
, iplt.title()
afegeixen etiquetes i títol al gràfic.
- Gràfic de Línies
Els gràfics de línies són ideals per mostrar dades que canvien al llarg del temps.
Característiques:
- Els punts de dades estan connectats per línies.
- S'utilitzen per mostrar tendències.
Exemple:
import matplotlib.pyplot as plt temps = [1, 2, 3, 4, 5] valors = [10, 20, 15, 25, 30] plt.plot(temps, valors, marker='o') plt.xlabel('Temps') plt.ylabel('Valors') plt.title('Gràfic de Línies') plt.show()
Explicació:
temps
és una llista dels punts de temps.valors
és una llista dels valors corresponents a cada punt de temps.plt.plot()
crea el gràfic de línies.marker='o'
afegeix marcadors als punts de dades.
- Gràfic de Sectors (Pastís)
Els gràfics de sectors són útils per mostrar la proporció de cada categoria respecte al total.
Característiques:
- Cada sector representa una categoria.
- La mida de cada sector és proporcional al valor que representa.
Exemple:
import matplotlib.pyplot as plt categories = ['A', 'B', 'C', 'D'] valors = [23, 45, 56, 78] plt.pie(valors, labels=categories, autopct='%1.1f%%') plt.title('Gràfic de Sectors') plt.show()
Explicació:
plt.pie()
crea el gràfic de sectors.labels=categories
afegeix etiquetes als sectors.autopct='%1.1f%%'
mostra els percentatges de cada sector.
- Histograma
Els histogrames són utilitzats per mostrar la distribució d'un conjunt de dades contínues.
Característiques:
- Les dades es divideixen en intervals (bins).
- L'alçada de cada barra representa la freqüència de dades dins de cada interval.
Exemple:
import matplotlib.pyplot as plt dades = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 5] plt.hist(dades, bins=5, edgecolor='black') plt.xlabel('Valors') plt.ylabel('Frequència') plt.title('Histograma') plt.show()
Explicació:
dades
és una llista de dades contínues.plt.hist()
crea l'histograma.bins=5
especifica el nombre d'intervals.edgecolor='black'
afegeix un contorn negre a les barres.
- Diagrama de Dispersió
Els diagrames de dispersió són utilitzats per mostrar la relació entre dues variables contínues.
Característiques:
- Cada punt representa una observació.
- S'utilitzen per identificar correlacions.
Exemple:
import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [2, 3, 5, 7, 11] plt.scatter(x, y) plt.xlabel('Variable X') plt.ylabel('Variable Y') plt.title('Diagrama de Dispersió') plt.show()
Explicació:
x
és una llista de valors de la primera variable.y
és una llista de valors de la segona variable.plt.scatter()
crea el diagrama de dispersió.
Exercicis Pràctics
Exercici 1: Crear un Gràfic de Barres
Crea un gràfic de barres utilitzant les següents dades:
- Categories: ['E', 'F', 'G', 'H']
- Valors: [34, 23, 54, 67]
Solució:
import matplotlib.pyplot as plt categories = ['E', 'F', 'G', 'H'] valors = [34, 23, 54, 67] plt.bar(categories, valors) plt.xlabel('Categories') plt.ylabel('Valors') plt.title('Gràfic de Barres') plt.show()
Exercici 2: Crear un Histograma
Crea un histograma utilitzant les següents dades:
- Dades: [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 5, 6, 6, 6, 7, 7, 8]
Solució:
import matplotlib.pyplot as plt dades = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 5, 6, 6, 6, 7, 7, 8] plt.hist(dades, bins=7, edgecolor='black') plt.xlabel('Valors') plt.ylabel('Frequència') plt.title('Histograma') plt.show()
Errors Comuns i Consells
Errors Comuns:
- Seleccionar el tipus de gràfic incorrecte: Assegura't de triar el tipus de gràfic que millor s'adapti a les teves dades i l'objectiu de l'anàlisi.
- No etiquetar els eixos: Sempre etiqueta els eixos per clarificar què representen.
- No afegir un títol: Un títol ajuda a entendre ràpidament de què tracta el gràfic.
Consells:
- Utilitza colors contrastants: Això ajuda a diferenciar clarament les categories o les sèries de dades.
- Mantén el gràfic simple: Evita afegir elements innecessaris que puguin distreure de la informació principal.
- Revisa la llegibilitat: Assegura't que les etiquetes, els títols i les llegendes siguin fàcils de llegir.
Resum
En aquest mòdul, hem après sobre diferents tipus de gràfics i com utilitzar-los per representar dades de manera efectiva. Hem vist exemples pràctics de com crear gràfics de barres, línies, sectors, histogrames i diagrames de dispersió utilitzant Python. També hem practicat amb exercicis per reforçar els conceptes apresos. La representació gràfica de dades és una eina poderosa per comunicar informació de manera clara i visual, i és essencial per qualsevol anàlisi estadística.