Mejores Universidades del Mundo

INTRODUCCIÓN

Ya que todos nosotros estamos a punto de acabar la etapa universitaria, no se me ha ocurrido mejor idea que hacer un análisis de las mejores universidades del mundo. Para ello he obtenido en Kaggle un ranking de las mejores universidades del mundo del año 2023, los datos se pueden ver aquí

Cargamos y arreglamos los datos en la memoria de de R/RStudio de esta forma:

Código

#instalamos los paquetes necesarios
library("tidyverse")
library("dplyr")
library("ggplot2")
library("sf")
#install.packages("ggwordcloud")
library("ggwordcloud")
#install.packages("treemapify")
library("treemapify")
#install.packages("ggrepel")
library("ggrepel")


# crear una carpeta llamada datos

fs::dir_create("datos")

# los datos son importados de la pagina web de Kaggle de un dataset sobre coches

my_url <- "https://www.kaggle.com/api/v1/datasets/download/alitaqi000/world-university-rankings-2023"

# definir la ruta

my_destino <- "./datos/unis.csv"

# descargamos el archivo, al ser de kaggle se descarga ya como csv

curl::curl_download(my_url, my_destino)

# importar los datos a un df

df <- readr::read_csv("./datos/unis.csv") 

# vemos la estructura del DF

str(df)
#> spc_tbl_ [2,341 × 13] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
#>  $ University Rank            : chr [1:2341] "1" "2" "3" "3" ...
#>  $ Name of University         : chr [1:2341] "University of Oxford" "Harvard University" "University of Cambridge" "Stanford University" ...
#>  $ Location                   : chr [1:2341] "United Kingdom" "United States" "United Kingdom" "United States" ...
#>  $ No of student              : num [1:2341] 20965 21887 20185 16164 11415 ...
#>  $ No of student per staff    : num [1:2341] 10.6 9.6 11.3 7.1 8.2 6.2 8 18.4 5.9 11.2 ...
#>  $ International Student      : chr [1:2341] "42%" "25%" "39%" "24%" ...
#>  $ Female:Male Ratio          : chr [1:2341] "48 : 52" "50 : 50" "47 : 53" "46 : 54" ...
#>  $ OverAll Score              : chr [1:2341] "96.4" "95.2" "94.8" "94.8" ...
#>  $ Teaching Score             : chr [1:2341] "92.3" "94.8" "90.9" "94.2" ...
#>  $ Research Score             : chr [1:2341] "99.7" "99.0" "99.5" "96.7" ...
#>  $ Citations Score            : chr [1:2341] "99.0" "99.3" "97.0" "99.8" ...
#>  $ Industry Income Score      : chr [1:2341] "74.9" "49.5" "54.2" "65.0" ...
#>  $ International Outlook Score: chr [1:2341] "96.2" "80.5" "95.8" "79.8" ...
#>  - attr(*, "spec")=
#>   .. cols(
#>   ..   `University Rank` = col_character(),
#>   ..   `Name of University` = col_character(),
#>   ..   Location = col_character(),
#>   ..   `No of student` = col_number(),
#>   ..   `No of student per staff` = col_double(),
#>   ..   `International Student` = col_character(),
#>   ..   `Female:Male Ratio` = col_character(),
#>   ..   `OverAll Score` = col_character(),
#>   ..   `Teaching Score` = col_character(),
#>   ..   `Research Score` = col_character(),
#>   ..   `Citations Score` = col_character(),
#>   ..   `Industry Income Score` = col_character(),
#>   ..   `International Outlook Score` = col_character()
#>   .. )
#>  - attr(*, "problems")=<externalptr>


#Como vemos en la estructura, hay variables numericas que se estan concebidas como character por lo que las cambiamos a numeric
#Uso drop_na para simplificar la muestra a 200 observaciones ya que habian muchas universidades en un rango de puestos del ranking 

df_1 <- df %>%
    mutate(across(c(1, 8:13), as.numeric)) %>%
    drop_na("University Rank") 

#tenemos una columna que nos da una ratio .:. sobre el porcentaje de mujeres y hombres. Para pasarlo a numeric, 
#tenemos que quitar esa estructura con la funcion separate y crear dos columnas con ambos valores de los porcentajes

df_sin_porcent_1 <- df_1 %>% 
    separate("Female:Male Ratio", into = c("Porcentaje_Muj", "Porcentaje_Hombr"), sep = " : ") %>%
    mutate(across(c(Porcentaje_Muj, Porcentaje_Hombr), as.numeric))

#para finalizar de arreglar nuestras columnas, tenemos que suprimir el simbolo de porcentaje (%) de la columna international student
#utilizaremos la funcionn gsub para quitarlo y convertimos la columna a numerico

df_sin_porcent_2 <- df_sin_porcent_1 %>%
    rename("prcnt_est_int" = "International Student") %>% 
    mutate(prcnt_est_int = as.numeric(gsub("%", "", prcnt_est_int))) 

#renombramos lo que no nos interesa para el analisis

str(df_sin_porcent_2)
#> tibble [199 × 14] (S3: tbl_df/tbl/data.frame)
#>  $ University Rank            : num [1:199] 1 2 3 3 5 6 7 8 9 10 ...
#>  $ Name of University         : chr [1:199] "University of Oxford" "Harvard University" "University of Cambridge" "Stanford University" ...
#>  $ Location                   : chr [1:199] "United Kingdom" "United States" "United Kingdom" "United States" ...
#>  $ No of student              : num [1:199] 20965 21887 20185 16164 11415 ...
#>  $ No of student per staff    : num [1:199] 10.6 9.6 11.3 7.1 8.2 6.2 8 18.4 5.9 11.2 ...
#>  $ prcnt_est_int              : num [1:199] 42 25 39 24 33 34 23 24 21 61 ...
#>  $ Porcentaje_Muj             : num [1:199] 48 50 47 46 40 37 46 52 52 40 ...
#>  $ Porcentaje_Hombr           : num [1:199] 52 50 53 54 60 63 54 48 48 60 ...
#>  $ OverAll Score              : num [1:199] 96.4 95.2 94.8 94.8 94.2 94.1 92.4 92.1 91.4 90.4 ...
#>  $ Teaching Score             : num [1:199] 92.3 94.8 90.9 94.2 90.7 90.9 87.6 86.4 92.6 82.8 ...
#>  $ Research Score             : num [1:199] 99.7 99 99.5 96.7 93.6 97 95.9 95.8 92.7 90.8 ...
#>  $ Citations Score            : num [1:199] 99 99.3 97 99.8 99.8 97.3 99.1 99 97 98.3 ...
#>  $ Industry Income Score      : num [1:199] 74.9 49.5 54.2 65 90.9 89.8 66 76.8 55 59.8 ...
#>  $ International Outlook Score: num [1:199] 96.2 80.5 95.8 79.8 89.3 83.6 80.3 78.4 70.9 97.5 ...

df_FINAL <- df_sin_porcent_2 %>% 
            rename (PUNTUACION_DE_LA_UNIVERSIDAD = "OverAll Score")%>% 
            rename (NOMBRE_DE_LA_UNI = "Name of University")%>%
            rename (PAIS = "Location")%>% 
            rename (NUMERO_DE_ESTUDIANTES = "No of student")%>% 
            rename (PORCENTAJE_DE_INTERNACIONALES = prcnt_est_int) %>% 
            rename (PORCENTAJE_MUJERES = Porcentaje_Muj) %>% 
            rename (PORCENTAJE_HOMBRES = Porcentaje_Hombr) %>%  
            select (-"No of student per staff",
                   -"Teaching Score",
                   -"Research Score",
                   -"Citations Score",
                   -"Industry Income Score",
                   -"International Outlook Score",
                   -"University Rank")

#borramos lo que no nos interesa del Global
rm(list = ls()[ls() != "df_FINAL"])

El dataset final contiene 7 variables con 199 observaciones. Haremos el análisis sobre este conjunto de datos final.

Top 15 Univeridades del mundo

El gráfico presenta el Top 15 de las mejores universidades del mundo en 2023, liderado por la University of Oxford con una puntuación de 96.4. Se observa una competitividad extrema, ya que la diferencia entre el primer y el decimoquinto puesto es de apenas 7.6 puntos. Predominan los centros anglosajones, destacando también la presencia europea con el ETH Zurich.

Código

df_analisis_1 <- df_FINAL %>%
            arrange(PUNTUACION_DE_LA_UNIVERSIDAD) %>%
            slice_max(PUNTUACION_DE_LA_UNIVERSIDAD, n = 15)

p1 <- ggplot(df_analisis_1, aes(x = PUNTUACION_DE_LA_UNIVERSIDAD, y = reorder(NOMBRE_DE_LA_UNI, PUNTUACION_DE_LA_UNIVERSIDAD),              fill = PUNTUACION_DE_LA_UNIVERSIDAD)) +
      geom_col() +
      geom_text(aes(label = PUNTUACION_DE_LA_UNIVERSIDAD), hjust = 2, size = 3.5, color = "black") +
      scale_fill_gradient(low = "#D5D5D5", high = "#98D688")+ 
      labs(title = "Gráfico 1: Mejores Universidades del mundo",
           subtitle = "Se muestra la puntuación de cada unversidad",
           caption = "Fuente: Kaggle - World University Rankings 2023",
           x = "Puntuación media",
           y = "") +
      scale_x_continuous(limits = c(0, 100), 
                     breaks = seq(0, 100, 10)) +
      theme_minimal() +
      theme(legend.position = "none",
        plot.title = element_text(face = "bold", size = 12),
        plot.subtitle = element_text(face = NULL ,size = 10))

p1

Las 30 Universidades con más estudiantes del mundo

Para continuar, vamos a hacer un análisis de las 30 Universidades con más estudiantes del mundo mostrando el número de estudiantes de cada una. El gráfico revela que la University of Toronto lidera la lista con una cifra impresionante de 77.468 alumnos, seguida por la University of Bologna con 69.831. Se observa una gran diversidad geográfica en las instituciones de alta densidad, incluyendo centros de EE. UU., Europa y China, como la Wuhan University.

Código

df_analisis_2 <- df_FINAL %>%
  arrange(NUMERO_DE_ESTUDIANTES) %>%
  slice_max(NUMERO_DE_ESTUDIANTES, n = 30)

p2 <- ggplot(df_analisis_2, aes(x = NUMERO_DE_ESTUDIANTES, y = reorder(NOMBRE_DE_LA_UNI, NUMERO_DE_ESTUDIANTES), fill =                    NUMERO_DE_ESTUDIANTES)) +
  geom_col() +
  geom_text(aes(label = NUMERO_DE_ESTUDIANTES), hjust = 2, size = 2, color = "black") +
  scale_fill_gradient(low = "#D5D5D5", high = "#98D688")+ 
  labs(title = "Gráfico 2: Las 30 Universidades con más\nestudiantes del mundo",
       subtitle = "Se muestra en cada barra el número de\nestudiantes de cada unversidad",
       caption = "Fuente: Kaggle - World University Rankings 2023",
       x = "Número de estudiantes",
       y = "") +
  scale_x_continuous(limits = c(0, 80000), 
                     breaks = seq(0, 80000, 10000)) +
  theme_minimal() +
  theme(legend.position = "none",
        plot.title = element_text(face = "bold", size = 12),
        plot.subtitle = element_text(face = NULL ,size = 10,))

p2

Los países con mayor número de Universidades en el Ranking

En este apartado, identificamos los países con mayor presencia de universidades en el ranking mundial mediante una nube de palabras (wordcloud). El gráfico destaca visualmente el dominio de Estados Unidos, Reino Unido y Alemania, cuyos nombres aparecen con mayor tamaño debido a su alto volumen de instituciones clasificadas. También se observa una representación significativa de naciones como Australia, China, Países Bajos y España, lo que refleja un ecosistema educativo global diverso. Esta visualización permite comprender rápidamente qué regiones concentran el mayor prestigio académico internacional.

Código

df_analisis_3 <- df_FINAL %>% 
  filter(!is.na(PAIS)) %>%
  group_by(PAIS) %>% 
  summarise(Numero_de_unis = n()) %>%
  arrange(desc(Numero_de_unis)) 

set.seed(1)
p3 <- ggplot(df_analisis_3, aes(label = PAIS, size = Numero_de_unis, color = Numero_de_unis)) +
      geom_text_wordcloud() +
      scale_size_area(max_size = 25) +
      scale_color_gradient(low = "#727D84", high = "#49525E")+
      labs(title = "Gráfico 3: Los países con mayor número de\nUniversidades en el Ranking",
           caption = "Fuente: Kaggle - World University Rankings 2023") +
      theme_minimal() +
      theme(legend.position = "none",
            plot.title = element_text(face = "bold", size = 16, hjust = 0.5))
p3

Universidades con mayor número de estudiantes internacionales

En este nivel de análisis, exploramos las 40 universidades con mayor número de estudiantes internacionales, representadas en un gráfico de rectángulos o treemap. Instituciones como la University of Toronto, The University of Sydney y UCL destacan por sus grandes áreas, reflejando su enorme capacidad de atracción de talento global.

Código

df_analisis_4 <- df_FINAL %>% 
                 filter(!is.na(PORCENTAJE_DE_INTERNACIONALES)) %>%
                 mutate(NUM_INTERACIONALES = PORCENTAJE_DE_INTERNACIONALES*NUMERO_DE_ESTUDIANTES/100,.after =                                         PORCENTAJE_DE_INTERNACIONALES)%>%
                 select(NUM_INTERACIONALES,NOMBRE_DE_LA_UNI)%>%
                 slice_max(order_by = NUM_INTERACIONALES, n = 40)


p4 <- ggplot(df_analisis_4, aes(area = NUM_INTERACIONALES, fill = NUM_INTERACIONALES, label =                                              stringr::str_wrap(NOMBRE_DE_LA_UNI, width = 15)))+
       geom_treemap(colour = "black", size = 0.5) +
       geom_treemap_text(colour = "black",
                    place = "centre",
                    size = 10) +
       scale_fill_gradient(low = "#D5D5D5", high = "#98D688") +
       labs(title = "Gráfico 4: Las 40 Universidades con mayor\nnúmero de estudiantes internacionales",
            caption = "Fuente: Kaggle - World University Rankings 2023") +
       theme_minimal() +
       theme(legend.position = "none",
             plot.title = element_text(face = "bold", size = 12, hjust = 0.5))
p4

Se observa una fuerte presencia de universidades australianas y británicas, que tradicionalmente lideran en diversidad cultural. Esta visualización permite identificar rápidamente qué centros actúan como verdaderos nodos de intercambio académico mundial.

Cantidad de hombres y mujeres de las universidades con mayor número estudiantes

Para concluir, examinamos la cantidad de hombres y mujeres en las 30 universidades con mayor número de estudiantes mediante un gráfico de dispersión. Se observa una distribución variada, donde instituciones como la University of Toronto y la University of Bologna muestran un volumen elevado en ambos géneros, superando los 30,000 estudiantes por categoría.

Código


df_analisis_5 <- df_FINAL %>%
                 mutate(NUMERO_HOMBRES = (PORCENTAJE_HOMBRES * NUMERO_DE_ESTUDIANTES)/100,.before = PORCENTAJE_HOMBRES) %>%
                 mutate(NUMERO_MUJERES = NUMERO_DE_ESTUDIANTES-NUMERO_HOMBRES, .before = PORCENTAJE_MUJERES)%>%
                 filter(!is.na(NUMERO_MUJERES),!is.na(NUMERO_HOMBRES))%>%
                 select(NOMBRE_DE_LA_UNI,NUMERO_MUJERES,NUMERO_HOMBRES,NUMERO_DE_ESTUDIANTES)%>%
                 slice_max(order_by = NUMERO_DE_ESTUDIANTES, n = 30)  



p5 <- ggplot(df_analisis_5, aes(x = NUMERO_MUJERES, y = NUMERO_HOMBRES, label = NOMBRE_DE_LA_UNI)) +
            geom_point(color = "#98D688", size = 2) +
            geom_label_repel(size = 1.5,
                             max.overlaps = Inf,
                             box.padding = 0.7,
                             segment.size = 0.1,
                             fill = "#F4FAF2",
                             alpha = 0.7) +
           scale_x_continuous(limits = c(11000, 45000), 
                              breaks = seq(11000, 45000, 3500)) +
           scale_y_continuous(limits = c(11000, 35000), 
                              breaks = seq(11000, 35000, 2000)) +
           labs(title = "Gráfico 5: Cantidad de hombres y mujeres de\nlas 30 universidades con mas estudiantes",
                caption = "Fuente: Kaggle - World University Rankings 2023",
                x = "Cantidad de Mujeres",
                y = "Cantidad de Hombres") +
           theme_minimal() +
           theme(legend.position = "none",
                 plot.title = element_text(face = "bold", size = 12, hjust = 0.5))

p5

El gráfico permite identificar correlaciones interesantes, como la posición de Texas A&M University, que destaca por una de las mayores poblaciones masculinas del grupo. Esta visualización es clave para entender el equilibrio demográfico y la escala de diversidad en los centros educativos más grandes del mundo.

Con esto acabo mi trabajo para BigData!! Agradecimientos a mi novia <3

Información sobre la sesión

Abajo muestro mi entorno de trabajo y paquetes utilizados

current session info


─ Session info ───────────────────────────────────────────────────────────────
 setting  value
 version  R version 4.5.2 (2025-10-31)
 os       macOS Tahoe 26.1
 system   aarch64, darwin20
 ui       X11
 language (EN)
 collate  en_US.UTF-8
 ctype    en_US.UTF-8
 tz       Europe/Madrid
 date     2026-01-06
 pandoc   3.6.3 @ /Applications/RStudio.app/Contents/Resources/app/quarto/bin/tools/aarch64/ (via rmarkdown)
 quarto   1.8.24 @ /usr/local/bin/quarto

─ Packages ───────────────────────────────────────────────────────────────────
 package      * version date (UTC) lib source
 bit            4.6.0   2025-03-06 [1] CRAN (R 4.5.0)
 bit64          4.6.0-1 2025-01-16 [1] CRAN (R 4.5.0)
 class          7.3-23  2025-01-01 [1] CRAN (R 4.5.2)
 classInt       0.4-11  2025-01-08 [1] CRAN (R 4.5.0)
 cli            3.6.5   2025-04-23 [1] CRAN (R 4.5.0)
 clipr          0.8.0   2022-02-22 [1] CRAN (R 4.5.0)
 colorspace     2.1-2   2025-09-22 [1] CRAN (R 4.5.0)
 commonmark     2.0.0   2025-07-07 [1] CRAN (R 4.5.0)
 crayon         1.5.3   2024-06-20 [1] CRAN (R 4.5.0)
 curl           7.0.0   2025-08-19 [1] CRAN (R 4.5.0)
 DBI            1.2.3   2024-06-02 [1] CRAN (R 4.5.0)
 desc           1.4.3   2023-12-10 [1] CRAN (R 4.5.0)
 details        0.4.0   2025-02-09 [1] CRAN (R 4.5.0)
 digest         0.6.39  2025-11-19 [1] CRAN (R 4.5.2)
 dplyr        * 1.1.4   2023-11-17 [1] CRAN (R 4.5.0)
 e1071          1.7-16  2024-09-16 [1] CRAN (R 4.5.0)
 evaluate       1.0.5   2025-08-27 [1] CRAN (R 4.5.0)
 farver         2.1.2   2024-05-13 [1] CRAN (R 4.5.0)
 fastmap        1.2.0   2024-05-15 [1] CRAN (R 4.5.0)
 forcats      * 1.0.1   2025-09-25 [1] CRAN (R 4.5.0)
 fs             1.6.6   2025-04-12 [1] CRAN (R 4.5.0)
 generics       0.1.4   2025-05-09 [1] CRAN (R 4.5.0)
 ggfittext      0.10.3  2025-12-13 [1] CRAN (R 4.5.2)
 ggplot2      * 4.0.1   2025-11-14 [1] CRAN (R 4.5.2)
 ggrepel      * 0.9.6   2024-09-07 [1] CRAN (R 4.5.0)
 ggwordcloud  * 0.6.2   2024-05-30 [1] CRAN (R 4.5.0)
 glue           1.8.0   2024-09-30 [1] CRAN (R 4.5.0)
 gridtext       0.1.5   2022-09-16 [1] CRAN (R 4.5.0)
 gtable         0.3.6   2024-10-25 [1] CRAN (R 4.5.0)
 hms            1.1.4   2025-10-17 [1] CRAN (R 4.5.0)
 htmltools      0.5.8.1 2024-04-04 [1] CRAN (R 4.5.0)
 htmlwidgets    1.6.4   2023-12-06 [1] CRAN (R 4.5.0)
 httr           1.4.7   2023-08-15 [1] CRAN (R 4.5.0)
 jsonlite       2.0.0   2025-03-27 [1] CRAN (R 4.5.0)
 KernSmooth     2.23-26 2025-01-01 [1] CRAN (R 4.5.2)
 knitr          1.50    2025-03-16 [1] CRAN (R 4.5.0)
 labeling       0.4.3   2023-08-29 [1] CRAN (R 4.5.0)
 lifecycle      1.0.4   2023-11-07 [1] CRAN (R 4.5.0)
 litedown       0.8     2025-11-02 [1] CRAN (R 4.5.0)
 lubridate    * 1.9.4   2024-12-08 [1] CRAN (R 4.5.0)
 magrittr       2.0.4   2025-09-12 [1] CRAN (R 4.5.0)
 markdown       2.0     2025-03-23 [1] CRAN (R 4.5.0)
 pillar         1.11.1  2025-09-17 [1] CRAN (R 4.5.0)
 pkgconfig      2.0.3   2019-09-22 [1] CRAN (R 4.5.0)
 png            0.1-8   2022-11-29 [1] CRAN (R 4.5.0)
 proxy          0.4-27  2022-06-09 [1] CRAN (R 4.5.0)
 purrr        * 1.2.0   2025-11-04 [1] CRAN (R 4.5.0)
 R6             2.6.1   2025-02-15 [1] CRAN (R 4.5.0)
 RColorBrewer   1.1-3   2022-04-03 [1] CRAN (R 4.5.0)
 Rcpp           1.1.0   2025-07-02 [1] CRAN (R 4.5.0)
 readr        * 2.1.6   2025-11-14 [1] CRAN (R 4.5.2)
 rlang          1.1.6   2025-04-11 [1] CRAN (R 4.5.0)
 rmarkdown      2.30    2025-09-28 [1] CRAN (R 4.5.0)
 rstudioapi     0.17.1  2024-10-22 [1] CRAN (R 4.5.0)
 S7             0.2.1   2025-11-14 [1] CRAN (R 4.5.2)
 scales         1.4.0   2025-04-24 [1] CRAN (R 4.5.0)
 sessioninfo    1.2.3   2025-02-05 [1] CRAN (R 4.5.0)
 sf           * 1.0-23  2025-11-28 [1] CRAN (R 4.5.2)
 stringi        1.8.7   2025-03-27 [1] CRAN (R 4.5.0)
 stringr      * 1.6.0   2025-11-04 [1] CRAN (R 4.5.0)
 svglite        2.2.2   2025-10-21 [1] CRAN (R 4.5.0)
 systemfonts    1.3.1   2025-10-01 [1] CRAN (R 4.5.0)
 textshaping    1.0.4   2025-10-10 [1] CRAN (R 4.5.0)
 tibble       * 3.3.0   2025-06-08 [1] CRAN (R 4.5.0)
 tidyr        * 1.3.1   2024-01-24 [1] CRAN (R 4.5.0)
 tidyselect     1.2.1   2024-03-11 [1] CRAN (R 4.5.0)
 tidyverse    * 2.0.0   2023-02-22 [1] CRAN (R 4.5.0)
 timechange     0.3.0   2024-01-18 [1] CRAN (R 4.5.0)
 treemapify   * 2.6.0   2025-12-14 [1] CRAN (R 4.5.2)
 tzdb           0.5.0   2025-03-15 [1] CRAN (R 4.5.0)
 units          1.0-0   2025-10-09 [1] CRAN (R 4.5.0)
 vctrs          0.6.5   2023-12-01 [1] CRAN (R 4.5.0)
 vroom          1.6.6   2025-09-19 [1] CRAN (R 4.5.0)
 withr          3.0.2   2024-10-28 [1] CRAN (R 4.5.0)
 xfun           0.54    2025-10-30 [1] CRAN (R 4.5.0)
 xml2           1.5.0   2025-11-17 [1] CRAN (R 4.5.2)
 yaml           2.3.10  2024-07-26 [1] CRAN (R 4.5.0)

 [1] /Library/Frameworks/R.framework/Versions/4.5-arm64/Resources/library
 * ── Packages attached to the search path.

──────────────────────────────────────────────────────────────────────────────

Reutilizar

CC BY 4.0