Como Prever Jogos e Ganhar Cervejas

Matemática & Futebol

Neste ano de 2018 o mundo pára para assistir ao principal evento do principal esporte mundial, a Copa do Mundo de futebol. Gosto de assistir a este evento porque ele me remete à final de 1994, na primeira Copa a qual me recordo. O Brasil venceu a Itália em uma incrível disputa de pênaltis. E confesso uma coisa: afora este gosto de assistir aos jogos, eu nunca fui de acompanhar o futebol em seu dia-a-dia. Se me perguntarem qual a escalação do time do Brasil de hoje, eu saberia dizer o nome de um ou dois jogadores e olhe lá.

Pois bem. A Copa reúne amigos onde os mais conhecedores do futebol tentam adivinhar os resultados dando seus palpites, debatendo possibilidades e características dos jogos das seleções. É muito comum fazerem bolões para premiar aqueles que mais acertam resultados.

E foi nesta encrenca que resolvi me meter.

Há três copas tenho participado do bolão dos meus amigos. No começo era só um bolão do grupinho, mas a idéia foi crescendo. Neste último bolão da Copa da Rússia, conseguimos criar um grupo de 115 pessoas. Não é taaaanta gente assim, mas para o tamanho da minha cidade, acredite, é um grupo grande. Aliás, é o maior bolão conhecido aqui.

Mas eis a questão, como participar de um bolão com tanta gente, sem entender muito de futebol, mantendo-se competitivo?

Não entendo de futebol. Fato. Mas sei dar meus pulos aqui. Utilizando números das eliminatórias de cada seleção, métricas, e variáveis derivadas, consegui criar um modelo simples, porém relativamente assertivo, para “prever” resultados. Não sou nenhum matemático ou estatístico profissional, mas tenho verificado bons acertos aqui.

Então, pra você que tem acompanhado a Copa 2018 e se interessa em saber quais resultados podem ocorrer nestes 4 últimos jogos, se liga em como eu fiz aqui:

Parte 1 – Definição da Metodologia

Pra quem gosta de jogar RPG, a ideia-chave da metodologia consiste em criar, para uma determinada partida, quatro tipos de números: poderes de ataque das equipes, poderes de defesa das equipes, diferença de tradição e nível internacional, e número máximo de gols da partida. O placar é calculado através de uma fórmula com esses números.

Para obter estes números, em particular resolvi acreditar na seguinte ideia: não importam os resultados de Copas anteriores ou jogos amistosos. A Copa começa nas eliminatórias, onde as seleções que participam da Copa têm suas seleções-base criadas nesta fase. Então, faz-me sentido coletar apenas dados das eliminatórias de 2018 para frente.

Parte 2 – Coleta de Dados e Criação dos Números

Para cada uma das 32 seleções, foram coletadas informações que dizem respeito à:

  • Pts FIFA: a pontuação do Ranking FIFA é um número que julgo ser útil para calcular a força genérica de uma seleção perante o mundo. O propósito é este, não? Então faz sentido acreditar neste número, que é calculado pelos experts da maior entidade de futebol;
  • GP e GC: São as contagens de gols marcados e sofridos. Na fase de eliminatórias de cada seleção, elas disputam partidas com seleções de seus grupos continentais (CAF, CONCACAF, CONMBOL, OFC/AFC, e UEFA). Esse número é usado para obtermos os “poderes” de ataque e defesa;
  • Jogos: Outra variável importante, que dirá quantas partidas uma equipe fez em suas eliminatórias. Usada para calcularmos as médias;
  • Ranking Médio Regional: esse valor é a média dos pontos do Ranking FIFA dos países que compõem a Confederação que uma dada seleção está associada. É usado como um equalizador. Afinal, é muito mais difícil se classificar na América do Sul (CONMBOL está cheio de casca-grossa: Brasil, Argentina, Uruguai, etc), do que na América do Norte (veja o México, que “sobra” na CONCACAF). Assim, em termos de nivelamento, ter uma boa campanha de eliminatória na CONMBOL significa mais do que ter uma boa campanha na CONCACAF;
  • Ranking Médio dos Adversários: ocorre que, em uma Confederação, nem todos os times se enfrentam. Na CONMBOL há poucos países, então dá pra fechar um campeonato de ida/volta, e pegar os N primeiros participantes para irem à Copa. Mas na UEFA ou OFC/AFC, tem muitos países, e eles montam subgrupos, onde nem todos se enfrentam. É interessante vermos a força dos subgrupos, pois estes podem ser fortes demais ou fracos demais, fazendo com que as campanhas nas eliminatórias de uma seleção sejam mais ou menos significativas.

Muito bem. Coletado tudo, temos a seguinte tabela:

Parte 3 – Métricas e Variáveis Derivadas

Tendo os ingredientes, agora é hora de tentarmos obter os números que realmente nos interessa. Mas, como obtê-los? Percebamos que algumas coisas são intuitivas e fazem sentido:

  1. Quanto mais gols uma equipe faz, mais forte é seu ataque, não?
  2. Quanto menos gols uma equipe toma, mais forte sua defesa é, não?
  3. Quanto mais fracos são os adversários de uma equipe, menos significativo são seus gols marcados, e mais são seus gols tomados. Ora, espera-se que uma equipe forte, marque mais e tome menos, em cima de equipes fracas, não?
  4. Em média, existe um número máximo e mínimo de gols que podem aparecer em uma partida. Com raras exceções, não faz sentido que uma equipe forte contra uma equipe fraca, tenha um resultado de 20 x 01, não?

Assim, temos algumas dicas para criar nossos números. A modelagem que fiz criou as seguintes derivadas:

  • SGP e SGC: são os saldos de gols marcados e sofridos, tendo por base a contagem de jogos;
  • Pwr/AdvPwr: Relação do poder de uma seleção, com os adversários enfrentados. É definido como a raíz quadrada da relação entre a pontuação FIFA de uma determinada seleção dividido pela média das pontuações FIFA dos adversários enfrentados até o momento. Repare que, este número nos diz o seguinte: quanto maior ele for, mais “fácil” foi a campanha de sua seleção, e menos relevante será seu poder de ataque e defesa.
    • Por exemplo, no caso do Brasil, que tem 1018pts na FIFA, e enfrentou nas eliminatórias times com pontuação FIFA média de 945pts. O seu Pwr/AdvPwr ficaria assim:
      Pwr/AdvPwr(Brasil) = sqrt(1431/899) = 1.261497231
    • O Pwr/AdvPwr(Alemanha) é 1.813369048, ou seja, o Brasil suou mais que a Alemanha para se classificar. O Pwr/AdvPwr(Panamá) é 0.9523261163, menor que 1, o que nos diz que o Panamá jogou contra times mais fortes que ele para estar nesta Copa.
  • Atk Pwr: O poder de ataque de uma equipe. Modelado como uma relação do saldo de gols dividido pelo Pwr/AdvPwr. Em texto simples, quer dizer que o poder de ataque de uma equipe é sua média de gols por partida, dividido pela “facilidade teórica” da campanha. Ora, marcar muitos gols contra equipes fortes deve significar um ataque forte, não?
  • Def Pwr: O poder de defesa de uma equipe. Modelado como o inverso da multiplicação do saldo de gols tomados com o Pwr/AdvPwr. Trocando por miúdos, quer dizer que mais fraca será uma defesa se ela tomar muitos gols, ainda mais tendo participado de uma campanha “teoricamente fácil”.

Muito bem. Calculado tudo, temos a seguinte tabela:

Parte 4 – Modelo Matemático

Em um jogo, para a previsão dos placares, foram levados em consideração dois aspectos: a tradição e a força das equipes, obtida por meio da relação direta do Ranking FIFA entre as equipes que disputam o jogo; e os poderes de ataque e defesa, postos um contra o outro. Para um jogo entre uma equipe hipotética A versus uma equipe hipotética B, temos a seguinte modelagem:

GolsMarcados(A) = Inteiro( K x (AtkPwr(A)/DefPwr(B)) x RaizQuadrada(PtsFifa(A)/PtsFifa(B)) )
GolsMarcados(B) = Inteiro( K x (AtkPwr(B)/DefPwr(A)) x RaizQuadrada(PtsFifa(B)/PtsFifa(A)) )

Onde K é uma constante para limitar o número de gols, e que varia de Copa para Copa. Nesta Copa 2018, K assume o valor de 1.19, para ajustar o número médio de gols por partida entre 2 e 3. Inteiro é uma função que arredonda o valor descartando decimais, e RaizQuadrada é uma função que retorna a raiz quadrada de um número.
Trocando por miúdos, a modelagem nos quer dizer que:

  • Uma equipe fará mais gols quanto maior for seu poder de ataque e quanto menor for o poder de defesa do seu adversário;
  • Uma equipe fará mais gols quanto maior for sua tradição e força internacional e menor for a força e tradição internacional do seu adversário. No entanto, este fator não é tão relevante quanto os poderes de ataque e defesa, logo é posto em raiz quadrada para diminuir sua relevância;
  • O número de gols é um valor inteiro positivo.

Parte 5 – Aplicação do Modelo e Refinamento

Hora de aplicar o modelo nos jogos. Vamos tomar como exemplo o jogo do Brasil contra a Suíça, em que o modelo conseguiu prever corretamente o placar exato. Assim, temos:

AtkPwr(Brasil) = SGP/(Pwr/AdvPwr(Brasil)) = 2.28/1.261497231 = 1.81
DefPwr(Brasil) = 1/(SGC*(Pwr/AdvPwr(Brasil)) = 0.61/1.261497231 = 1.30
AtkPwr(Suíça) = SGP/(Pwr/AdvPwr(Suíça)) = 2.18/1.334161956 = 1.64
DefPwr(Suíça) = 1/(SGC*(Pwr/AdvPwr(Suíça)) = 0.64/1.334161956 = 1.18

GolsMarcados(Brasil) = Inteiro( 1.19 x (1.81/1.18) x RaizQuadrada(1431/1199) ) = Inteiro(1.99) = 1
GolsMarcados(Suíça) = Inteiro( 1.19 x (1.64/1.30) x RaizQuadrada(1199/1431) ) = Inteiro(1.37) = 1

Assim, o placar previsto seria Brasil 1 – 1 Suíça. Resultado que de fato ocorreu.

Por fim, foram incorporados os dados da fase de grupos da própria Copa, como forma de refinarmos e otimizarmos o modelo. Ou seja, nas oitavas de final, os dados das fases de grupo (GP, GC, Rk Médio Adv., etc) foram atualizados. Para a fase de quartas, os dados das oitavas foram adicionados. E agora, para a semifinal, os dados das quartas estão sendo adicionados.

Estou postando as tabelas de predição dos jogos, onde em cada quadrícula temos:

  • Linha 1: Rk FIFA da seleção A, placar previsto da seleção A, placar previsto da seleção B, Rk FIFA da seleção B;
  • Linha 2: Nome da seleção A, placar ocorrido da seleção A, placar ocorrido da seleção B, nome da seleção B;
  • Linha 3: DefPwr da seleção A, AtkPwr seleção A, AtkPwr da seleção B, DefPwr da seleção B;
  • Resumo da Informação: Os números em cinza escuro são as previsões, e os em cinza claro logo abaixo são os placares que ocorreram. E na linha mais abaixo, estão os poderes de defesa de cada time abaixo dos seus nomes e os poderes de ataque abaixo dos placares ocorridos.

Tabela da fase de grupos:

Tabela da fase final:

Parte 6 – Comparação com Outros Métodos

É sempre muito bom comparar a performance do seu modelo com a dos outros. A Fundação Getúlio Vargas esteve calculando as probabilidades dos resultados dos jogos com o trabalho de 3 matemáticos estatísticos. Segundo informações dos meios de comunicação, a metodologia adotada por eles foi o Método de Monte Carlo e, até estas semifinais, conseguiram um aproveitamento de 57% dos resultados (acerto do vencedor ou empate) com 10 placares exatos. Até as semifinais, o modelo aqui descrito conseguiu um aproveitamento de 55% dos resultados (acerto do vencedor ou empate) com 11 placares exatos.
Ainda, tomando o caso do MaisBolão SMA, se um participante estivesse seguindo à risca os resultados previstos pelo modelo aqui descrito, ele estaria nestas semifinais com 11562pts em 5o lugar (115 participantes). A FGV estaria com 11269pts em 6o lugar.
Temos, portanto, uma situação onde ambos os modelos são muito próximos em questão de performance, com ligeira vantagem da FGV quanto à resultados, e ligeira vantagem do modelo aqui descrito quanto à placares e aplicação. Neste momento, estou em 3o no Bolão SMA, tendo já figurado em primeira colocação.

Conclusões

Sejamos realistas, os cálculos descritos foram tirados “do chapéu”, sem embasamentos teóricos, e usando apenas a intuição matemática. Nem sempre é possível acertar. Temos apenas um modelo para tentar prever as coisas, o que na realidade é muito mais complexo do que parece. Errar é muito comum. No entanto, acho muito válido destacar a assertividade alcançada, validadas pela paridade com os modelos de escolas de renome e pela posição de destaque obtida em site de palpites.

Estou CONFIANTE que ganharei algumas cervejas por aí. E aliás, já ganhei algumas.

E você, o que achou deste tema?

Quer saber os palpites pras semifinais? Eis as minhas previsões:
França 1 x 2 Bélgica
Croácia 0 x 1 Inglaterra

Outras previsões:
Footballexpert: França 1 x 2 Bélgica / Croácia 1 x 2 Inglaterra
FGV: França 1 x 1 Bélgica / Croácia 0 x 0 Inglaterra

— (Atualização 14/07/2018) —

Os resultados das semi-finais foram bem diferentes das previsões. A Bélgica, favorita de muitos previsões, não conseguiu vencer a tradição (e o meio campo) da França. E a Croácia, quem diria, venceu a Inglaterra!

Agora, para a decisão do terceiro lugar e final, eis minhas previsões:
França 1 x 1 Croácia
Bélgica 2 x 1 Inglaterra

Outras previsões:
Footballexpert: Bélgica 3 x 2 Inglaterra / França 1 x 0 Croácia
FGV: Bélgica 1 x 1 Inglaterra / França 1 x 0 Croácia

— (Atualização 19/07/2018) —

E nesta Copa 2018, deu França, com a Bélgica em terceiro lugar! Após muitos cálculos, acertos e erros, vemos que o futebol é realmente complicado de se prever. Emoção e paixão permeiam este esporte, e o deixa de tal maneira que é quase impossível observar todas as variáveis, que somente nós, seres humanos, podemos moldar. Nem sempre o time mais habilidoso e técnico vence, assim como nem sempre esforçar-se até o fim garante a vitória. E às vezes, até o improvável acontece. E, assim como outros palpites (FGV, FootballExperts, etc), eu errei vários resultados.

Terminei como 4o colocado no Bolão SMA, a primeira colocação que não recebe prêmio! Quem sabe na próxima Copa! (rs)

Be the first to comment

Leave a Reply

Your email address will not be published.


*