Durante años, las predicciones sobre quién levantaría la Copa del Mundo estuvieron dominadas por métodos “mágicos” como las hojas de té, los videntes o incluso animales convertidos en celebridades, como el recordado Pulpo Paul.No obstante, hoy la ciencia de datos y la inteligencia artificial ofrecen herramientas mucho más sofisticadas para anticipar el desenlace del torneo.Un equipo internacional de estadísticos liderado por Achim Zeileis, profesor de Estadística de la Universidad de Innsbruck (Austria), desarrolló un modelo basado en aprendizaje automático que simuló el Mundial en 100.000 ocasiones para estimar qué selección tiene más probabilidades de convertirse en campeona.Según los resultados, España aparece como la principal favorita para quedarse con el título, con una probabilidad de victoria de 14,5%. Pese al empate inaugural ante Cabo Verde, la selección hispana sería el candidato a levantar la copa.Según las estadísticas, le siguen Inglaterra y Francia, ambas con un 12,4%, mientras que Alemania alcanza un 11,2%.Los investigadores explican que las opciones están más repartidas que en ediciones anteriores debido al nuevo formato del campeonato, que ahora cuenta con 48 equipos y más rondas eliminatorias.

Esto hace que incluso otras selecciones consideradas favoritas tengan porcentajes relativamente bajos. Por ejemplo, Portugal (8,9%) y Argentina (8,2%) figuran entre los principales aspirantes al trofeo.Pero ¿cómo funciona exactamente este sistema?El modelo se construye en dos etapas.

Primero, combina modelos estadísticos con información proveniente de casas de apuestas y mercados de fichajes para estimar la fortaleza de cada selección y de sus jugadores. Luego, un algoritmo de aprendizaje automático determina la mejor forma de integrar esos datos junto con otros factores relevantes.A partir de ello se genera una predicción probabilística para cada partido.

Los investigadores comparan el proceso con lanzar dados trucados: cada equipo tiene distintas probabilidades de marcar determinada cantidad de goles, según su nivel y las características de su rival.Con esas probabilidades, el sistema reproduce virtualmente todos los encuentros del torneo respetando el calendario oficial y las reglas de la FIFA, incluido el tiempo extra y las tandas de penales. Al repetir el proceso 100.000 veces, es posible calcular qué resultados aparecen con mayor frecuencia.¿Qué información se ocupa en el algoritmo?Se consideran todos los partidos de selecciones nacionales disputados durante los últimos ocho años, las cuotas de apuestas internacionales, las valoraciones individuales de los futbolistas y sus valores de mercado estimados por Transfermarkt.Asimismo, el modelo incorpora variables adicionales relacionadas con cada selección.Por ejemplo, su posición en el ranking FIFA, la cantidad de jugadores presentes en instancias decisivas de la Champions League e incluso factores socioeconómicos de sus países de origen, entre ellos el PIB per cápita.Para procesar toda esa información, los investigadores utilizaron un sistema conocido como “bosque aleatorio”, una técnica de aprendizaje automático que combina múltiples árboles de decisión entrenados con datos históricos de los principales torneos internacionales desde el Mundial de 2006.Los autores reconocen que ninguna predicción puede garantizar un resultado con certeza absoluta.

Después de todo, el fútbol sigue siendo uno de los deportes más impredecibles del mundo. No obstante, sostienen que un modelo construido con millones de datos y miles de simulaciones probablemente tenga más posibilidades de acertar que cualquier oráculo improvisado o que un molusco convertido en celebridad mundial.