Prediciendo la tabla final de Primera División

Este es el primer post de esta nueva sección de Goles Son Amores. El objetivo es mostrar algunas de las cosas que se pueden obtener con nuestra Base de Datos y como podemos estrujar los números.

El primer post lo vamos a dedicar a predecir resultados, en específico a predecir el final de la tabla de posiciones. A partir del crítico momento que vive la U, donde actualmente se encuentra en zona de descenso surge una pregunta interesante: ¿cuáles son las posibilidades de la U (o de cualquier otro equipo) de descender a final de temporada? De igual forma, nos podemos preguntar cuáles son las posibilidades de los equipos de arriba de obtener el título o de clasificar a copas internacionales. Un enfoque simple es confiar en nuestro conocimientos e intuición futbolística, otro enfoque es calcular las probabilidades de que eso ocurra. Para eso necesitamos dos cosas básicas: datos estadísticos y un modelo matemático que nos entregue las probabilidades a partir de dicha data. Los datos ya los tenemos en este sitio web, por lo que en esta serie de posts trataremos de construir un modelo y entregaremos sus resultados.

Para utilizar los datos estadísticos disponibles necesitamos establecer ciertos parámetros que influyen en el resultado de un partido, identificar cómo esos parámetros influyen (por ejemplo, si la localía influye, en qué porcentaje lo hace), entregarle cierta ponderación a cada uno de ellos comparados con el resto y finalmente utilizar todo esto para obtener las probabilidades de los partidos futuros. La primera parte es una hipótesis, es decir, es algo que definimos arbitrariamente al comienzo (aunque la decisión puede ser en base a conocimientos futbolísticos), por lo que para no discutir demasiado ni hacer complicado el modelo, vamos a utilizar parámetros relativamente obvios y simples de calcular:

  1. Influencia de la Localía.
  2. Influencia del historial entre ambos clubes.
  3. Influencia de la posición actual de los equipos en la tabla.
  4. Influencia de la forma en que llegan los equipos (resultados en últimos cinco partidos).

Es cierto que existen muchos otros factores que influyen que se nos pueden ocurrir (edad promedio de plantilla, altitud de estadio, clima del partido, etc.), pero trabajaremos con estos cuatro porque son simples y los podemos obtener de nuestra base de datos. Esto va a ser un poco largo, así que para que sea más fácil de leer, lo dividiremos en tres partes. Primero analizaremos los tres primeros factores, que son además los más simples de calcular. Luego, analizaremos el factor de la posición en la tabla y finalmente veremos la ponderación de dichos factores en las probabilidades finales. Antes de empezar, una aclaración importante, yo no me especializo en estadísticas ni matemáticas, por lo que puede haber errores en este modelo, tanto de metodología como de nomenclatura. Si es lo primero, favor indicármelo en los comentarios, si es lo segundo, no importa mucho, ya que este es un post para público general, por lo que es importante que cualquiera lo entienda más que seguir un purismo académico. Sin más que agregar, vamos al trabajo.

Localía

Es indesmentible que la localía influye a favor del local. Las razones no las tengo muy claras. Se esgrime que puede ser por presión de hinchada local, menor distancia en el traslado, mejor conocimiento de la cancha, factor sicológico por el simple hecho que se piensa que la localía influye, etc. Independiente de las razones, las estadísticas deberían ratificarlo. Si analizamos los resultados de la primera división chilena por temporada, esta influencia de la localía es evidente, como se ve en el siguiente gráfico.

Porcentaje de partidos ganados por el local, empatados y ganados por la visita, a lo largo de las temporadas del fútbol chileno.

En general, el equipo que juega de local gana entre un 40-50% los partidos, aunque en los últimos años ha sufrido una lenta declinación hasta acercarse al 40%. Lo interesante ocurre con los empates y victorias visitantes. Cuando se inició la Primera División el porcentaje de empates era mínimo (menor al 10%), sin embargo, este porcentaje empezó a crecer hasta empinarse a cerca de un 30% (con un máximo de 37% en 1986), en detrimento de los triunfos visitantes. Luego, a partir de los noventa se inicio un aumento del porcentaje de triunfos visitantes.

Estos porcentajes se han mantenido relativamente estables desde los años noventa. El motivo parece ser la introducción de los tres puntos por victoria desde 1995. Gracias a esto, aumentó el incentivo de una victoria por sobre un empate, por ende, el porcentaje de victorias visitantes aumentó. Este factor, debería influir de igual manera en los otros parámetros a considerar. Por lo tanto, en nuestro modelo consideraremos sólo data de 1995 en adelante, es decir, lo que podríamos llamar fútbol contemporáneo. Dicho esto, las probabilidades de triunfo local, empate o visita asociados a localía que se considerarán son:

Vamos al siguiente.

Historial entre Clubes

El historial entre equipos muestra la tendencia histórica entre dos escuadras. Si bien existen peculiaridades (todo club tiene su bestia negra), lo que en realidad esta probabilidad debe indicar es el peso relativo de cada equipo en la liga, o si dicho en términos simples, si un club es grande, mediano o pequeño. Los clubes grandes tienen historial a favor frente a la mayoría de los otros clubes, mientras que los clubes chicos deberían tener historial semejante entre sí. Es común que al hacer proyecciones como la de este artículo se considere este indicador, sin embargo, sería un grave error no considerar algunos otros. Un club que en el pasado fue poderoso pero que ahora esté de capa caída estará sobrevalorado en los historiales, de igual forma que cuando dos clubes no tienen muchos partidos entre ellos es fácil que el historial se distorsione. En Goles Son Amores, tenemos una sección donde se pueden consultar el historial entre clubes. Para este ejercicio sólo consideramos los partidos de Primera División.

Posición en la Tabla

Obviamente, en un enfrentamiento entre el puntero y el colista el primero tendrás más probabilidades de ganar. ¿Qué tan alta son estas probabilidades? Bueno, veamos como funciona en el fútbol chileno. Para esto calcularemos la tabla en cada una de las fechas del torneo y luego contabilizaremos el número de triunfos, empates y derrotas que obtuvo el club ubicado en cada posición. Con esto sabremos la proporción de triunfos, empates y derrotas según posición en la tabla. Obviamente esto es muy largo, pero gracias a la magia de las bases de datos y un poco de programación, podemos hacer que el PC lo haga por nosotros. Al igual que en todo este post, consideraremos los partidos de 1995 en adelante, además que excluiremos play-offs. De igual forma, para evitar distorsiones en las primeras fechas, se considerarán las tablas de posiciones desde la fecha 5 en adelante. Este valor es arbitrario y se podría optimizar, pero ese problema lo dejaremos para más adelante. El resultado es el siguiente.

Probabilidad de triunfos (verde), empate (amarillo) y derrota (rojo) para el club ubicado en cada posición de la tabla, antes de iniciarse la fecha de la liga.

Una observación importante, de 1995 a la fecha han habido torneos con más de 16 equipos (con 18, 20 o hasta 21 clubes), pero como el torneo actual sólo tiene 16, he recortado el gráfico sólo hasta dicha posición. Lo que aquí se indica es que en general, el puntero del torneo, tiene un 50% de probabilidad de ganar un partido, un 27% de empatarlo y un 23% de perderlo, mientras que el colista sólo tiene un 34% de triunfos y un 41% de derrotas. Algo interesante que se observa es que el segundo lugar tiene una probabilidad levemente mayor de triunfo que el puntero, lo que se podría explicar por una mayor necesidad de sumar puntos del escolta en pos de alcanzar al puntero. De igual forma, el penúltimo tiene peores porcentajes que el colista. Al parecer la presión de escapar del fondo de la tabla tiene un efecto positivo en el rendimiento. Lo otro interesante es que el porcentaje de empates es relativamente estable (entre 22y 28%), por lo que la capacidad de no perder es lo que define la posición en la tabla. Bueno, pero ¿cuáles son las probabilidades cuando se enfrentan dos equipos? En el presente modelo utilizaremos la media geométrica, es decir, la multiplicaremos la probabilidad de triunfo de uno por la probabilidad de derrota del otro y sacamos la raíz cuadrada. Por ejemplo, si se enfrenta el puntero y el colista:

  • Probabilidad triunfo puntero: 0.50
  • Probabilidad derrota colista: 0.40
  • Probabilidad combinada:

De igual forma, la probabilidad de empate será 26% y la de un triunfo del colista (que es lo mismo que una derrota del puntero) de 28%.

Forma

No sólo es importante la posición en la tabla, también es importante la racha que un club trae. No es lo mismo un puntero con paso de campeón que uno dubitativo que se enredó con un par de empates y con el escolta respirando en la oreja. De igual forma, no es lo mismo un 8° que dejó atrás el fantasma del descenso y quiere ir a copas internacionales que uno que hace 3 fechas era 4° pero encadenó 3 derrotas seguidas. A esto se le denomina forma, es decir, como llegan los clubes al partido y generalmente se informa con los últimos 5 partidos. Lo que necesitamos es un valor numérico de esta tendencia reciente de una forma simple. En nuestro modelo numérico contaremos los triunfos y le restamos las derrotas, dejando los empates con un valor neutro (0). Así, la forma puede tomar valores entre -5 (racha de derrotas) y 5 (racha de victorias). Utilizando nuestra base de datos, obtenemos las siguientes probabilidades:

FormaVictoriaEmpateDerrota
-526.8%21.1%52.1%
-431.7%24.8%43.5%
-334.2%24.2%41.7%
-234.4%26.8%38.8%
-137.9%26.3%35.8%
039.9%26.3%33.8%
142.3%26.7%31.0%
244.2%27.1%28.7%
348.0%27.0%25.0%
451.3%26.1%22.6%
557.8%24.0%18.2%

Es decir, como ejemplo, un club que viene con 5 derrotas seguidas tiene un 26.8% de probabilidades de triunfar y un 52.1% de continuar el calvario. La probabilidad al enfrentarse dos clubes se calculará igual que en el caso de la tabla de posiciones. De esta forma ya tenemos cuantificados los cuatro factores que decidimos incluir en nuestro modelo, vamos a los resultados.

Poniendo todo junto

Hay dos cosas adicionales que debemos definir, primero, ¿cuál de estos 4 factores pesa más? Y segundo, ¿cómo combinamos todos estas probabilidades para obtener una tabla final?

Lo primero es un poco complejo de definir y es necesario realizar una optimización numérica que nos entregue las ponderaciones ideales. Por lo tanto, por ahora vamos a asumir que cada factor tiene igual importancia, es decir, cada uno de los 4 factores aporta un cuarto a la probabilidad total.

Para lo segundo, tenemos dos caminos. El primero es usar combinatorias. Cada partido tiene tres posibilidades (local, empate y visita) y tenemos una cierta cantidad de partidos en total, en este caso 64 (8 partidos en cada una de las 8 fechas restantes). Podemos ver todas las combinaciones posibles de resultados, ponderarlas por su respectiva probabilidad y luego sumar todos estos casos. Esto tiene dos problemas importantes. El peor, es que los números se vuelven muy grandes. Si tuvieramos sólo dos partidos, tenemos 9 casos posibles (VV, VE, VD, EV, EE, ED, DV, DE, DD), o 3 al cuadrado. Con 3 partidos el número se eleva a 27 casos (3 al cubo), con 4 partidos son 81 (3 elevado a 4) y así sucesivamente.Con 64 partidos tenemos 3.4×1030 casos (un 3 seguido de 30 ceros). Algo imposible de calcular aunque dejáramos un computador corriendo días enteros. Lo que es peor, es que en nuestro modelo las probabilidades de cada partido van cambiando según los partidos anteriores (porque cambia la posición en la tabla y la forma), por lo que tenemos probabilidades ligadas.

Por esto, la alternativa a utilizar, es realizar simulaciones. Básicamente, simulamos los resultados de los partidos en base a sus probabilidades y calculamos la tabla final. Repetimos este proceso muchas veces (acá utilizamos 100.000 simulaciones) y calculamos en cuantas de ellas cada club alcanza cierto puntaje o cierta ubicación. El resultado más repetido será el equivalente obtener la tabla más probable existente.

Resultados

Luego de esta larguísima explicación, que espero se haya entendido aunque sea en parte, obtenemos el siguiente resultado. En ella se muestra la probabilidad de cada club de ser campeón(1°), de clasificar a Copa Libertadores (1° a 3°), a Copa Sudamericana (4° a 7°) y de descender (15° y 16°).

EquipoposTitLibSudDesPts
U. Católica198.8599.990.01062.2
Colo-Colo20.6261.2434.74048.1
Palestino30.2536.252.03046.2
Audax40.1632.3852.67045.1
O’Higgins50.0529.5154.660.0245.0
Huachipato60.0619.1754.34043.9
Unión70.019.3543.880.3341.6
Coquimbo805.4935.520.2440.9
U. La Calera903.9931.540.6540.4
Cobresal1002.0221.782.3038.4
Curicó1100.388.448.9736.2
Everton1200.236.1612.0835.5
Iquique1300.052.426.5833.4
U. de Chile14000.8641.2132.5
Antofagasta15000.8541.4031.8
U. de Conce16000.1266.2229.9

Como era de esperarse, a estas alturas el título cruzado es casi un hecho (casi 99%), Colo-Colo tiene bien encaminada su clasificación a Libertadores y el tercer cupo tiene varios contendores (Audax, Palestino, Huachipato y O’Higgins son los con mayor probabilidad). Finalmente en el descenso, hay un club que parece condenado. En el 66% de las simulaciones (2 de cada 3 casos) la U. de Concepción desciende. El segundo descenso al parecer será una pelea de 3: Antofagasta (41.4%), la U (41.2%) e Iquique (26.6%). Everton y Curicó respiran un poco más tranquilos (ambos cerca de 10%), mientras que a Cobresal, salvo una catástrofe, ya lo podríamos dar por salvado.

En la última columna se indica la cantidad de puntos esperados para cada club. Al parecer la línea de descenso este año rondará los 32 puntos. Esto no indica que esa cantidad de puntos sea una obligación. Vamos a dejar para una actualización, la probabilidad de salvarse o de descender que se tiene en el torneo actual con cierto puntaje en el torneo actual.