En aquest estudi de cas, aplicarem els coneixements adquirits al llarg del curs per realitzar una anàlisi de dades completa. Utilitzarem un conjunt de dades real per explorar, netejar, manipular i visualitzar la informació, i finalment, extreure conclusions significatives.

Objectius de l'Estudi de Cas

  1. Importació de Dades: Importar el conjunt de dades en R.
  2. Exploració de Dades: Realitzar una exploració inicial per entendre la seva estructura i contingut.
  3. Neteja de Dades: Identificar i tractar valors perduts, duplicats i errors.
  4. Manipulació de Dades: Transformar i reorganitzar les dades segons les necessitats de l'anàlisi.
  5. Visualització de Dades: Crear gràfics per visualitzar les dades i les seves relacions.
  6. Anàlisi Estadística: Aplicar tècniques estadístiques per extreure conclusions.

Conjunt de Dades

Per aquest estudi de cas, utilitzarem el conjunt de dades "Iris", que és un clàssic en l'anàlisi de dades. Aquest conjunt de dades conté mesures de diferents característiques de flors de tres espècies d'iris.

Descripció del Conjunt de Dades

  • Sepal.Length: Longitud del sèpal (cm)
  • Sepal.Width: Amplada del sèpal (cm)
  • Petal.Length: Longitud del pètal (cm)
  • Petal.Width: Amplada del pètal (cm)
  • Species: Espècie de l'iris (setosa, versicolor, virginica)

  1. Importació de Dades

Comencem per importar el conjunt de dades "Iris" en R.

# Carregar el conjunt de dades Iris
data(iris)
# Mostrar les primeres files del conjunt de dades
head(iris)

  1. Exploració de Dades

Explorem el conjunt de dades per entendre la seva estructura i contingut.

# Resum del conjunt de dades
summary(iris)

# Estructura del conjunt de dades
str(iris)

# Dimensions del conjunt de dades
dim(iris)

  1. Neteja de Dades

Verifiquem si hi ha valors perduts o duplicats i els tractem adequadament.

# Comprovar valors perduts
sum(is.na(iris))

# Comprovar duplicats
sum(duplicated(iris))

# Eliminar duplicats si n'hi ha
iris <- iris[!duplicated(iris), ]

  1. Manipulació de Dades

Transformem i reorganitzem les dades segons les necessitats de l'anàlisi.

# Afegir una nova columna amb la relació entre la longitud i l'amplada del sèpal
iris$Sepal.Ratio <- iris$Sepal.Length / iris$Sepal.Width

# Mostrar les primeres files del conjunt de dades modificat
head(iris)

  1. Visualització de Dades

Creem gràfics per visualitzar les dades i les seves relacions.

# Carregar la llibreria ggplot2
library(ggplot2)

# Gràfic de dispersió de la longitud i l'amplada del sèpal
ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width, color = Species)) +
  geom_point() +
  labs(title = "Relació entre la Longitud i l'Amplada del Sèpal",
       x = "Longitud del Sèpal (cm)",
       y = "Amplada del Sèpal (cm)")

# Gràfic de caixa de la longitud del pètal per espècie
ggplot(iris, aes(x = Species, y = Petal.Length, fill = Species)) +
  geom_boxplot() +
  labs(title = "Distribució de la Longitud del Pètal per Espècie",
       x = "Espècie",
       y = "Longitud del Pètal (cm)")

  1. Anàlisi Estadística

Apliquem tècniques estadístiques per extreure conclusions.

# Comparar la longitud del sèpal entre espècies utilitzant ANOVA
anova_result <- aov(Sepal.Length ~ Species, data = iris)
summary(anova_result)

# Test de correlació entre la longitud del sèpal i la longitud del pètal
correlation <- cor(iris$Sepal.Length, iris$Petal.Length)
correlation

Conclusió

En aquest estudi de cas, hem aplicat diverses tècniques d'anàlisi de dades per explorar, netejar, manipular i visualitzar el conjunt de dades "Iris". Hem après a identificar i tractar valors perduts i duplicats, a transformar les dades segons les necessitats de l'anàlisi, i a utilitzar tècniques estadístiques per extreure conclusions significatives. Aquest procés ens ha permès obtenir una comprensió més profunda de les dades i les seves relacions.

Resum dels Conceptes Apresos

  • Importació i exploració de dades.
  • Neteja de dades per tractar valors perduts i duplicats.
  • Manipulació de dades per transformar i reorganitzar la informació.
  • Visualització de dades per identificar patrons i relacions.
  • Aplicació de tècniques estadístiques per extreure conclusions.

Aquest estudi de cas ens prepara per abordar anàlisis de dades més complexes i ens proporciona una base sòlida per aplicar els coneixements adquirits en situacions reals.

Programació en R: De Principiant a Avançat

Mòdul 1: Introducció a R

Mòdul 2: Manipulació de Dades

Mòdul 3: Visualització de Dades

Mòdul 4: Anàlisi Estadística

Mòdul 5: Gestió Avançada de Dades

Mòdul 6: Conceptes Avançats de Programació

Mòdul 7: Aprenentatge Automàtic amb R

Mòdul 8: Temes Especialitzats

Mòdul 9: Projecte i Estudis de Cas

© Copyright 2024. Tots els drets reservats