Thursday, June 14, 2018

Qual grupo da Copa do Mundo de 2018 é mais difícil?


Após o sorteio dos grupos da Copa do Mundo da FIFA de 2018, é comum ouvir amantes do futebol, perguntarem: “Qual foi o grupo mais difícil ?” .

Vamos tentar responder a essa pergunta, de forma objetiva, utilizando o modelo de simulação de jogos de futebol do site de previsões PollingData (http://www.pollingdata.com.br/), o qual leva em consideração todos os jogos entre seleções (oficiais e amistosos) realizados desde 2014. Com esse modelo  é possível estimar a probabilidade de cada seleção se classificar para as oitavas-de-final da Copa (ou seja, ficar nas 2 primeiras posições ao final dos jogos dessa fase).  Essa probabilidades estão na tabela abaixo, e serão utilizadas para responder a pergunta.


O passo mais importante para responder a pergunta é definir com objetividade o que quer dizer “grupo mais difícil”. Vários critérios diferentes podem ser utilizados, baseados em diferentes medidas. Um exemplo bastante  óbvio seria utilizar o ranking de seleções da FIFA, calculando o ranking médio por grupo. O problema é que esse critério está, na verdade, avaliando em quais grupos estão as seleções mais fortes, mas essa não é a resposta a pergunta proposta.

Um grupo pode ter um ranking médio bastante baixo, porém ainda ser muito difícil para seus participantes. O critério correto deve levar em conta a similaridade das seleções. Teoricamente, o grupo mais difícil seria aquele onde todas as seleções tivessem exatamente o mesmo nível técnico. O fato de ser um nível alto ou baixo não é relevante para os participantes que estão no grupo. O ranking médio poderia ser utilizado apenas para desempatar o ranking dos grupos, no caso de haver dois grupos com o mesmo score no critério de dificuldade adotado.

Utilizando as probabilidades de classificação apresentadas acima, podemos dizer que o grupo mais difícil é aquele mais imprevisível. Ou seja, em um grupo, quanto mais similares forem as probabilidades de se classificar para as Oitavas-de-final, mais difícil o grupo deve ser considerado. O exemplo extremo dessa dificuldade seria um grupo onde todos as seleções tivessem 50% de chance de classificação.

A Entropia da Informação (Information Entropy) é uma medida bastante conhecida na Estatística e na Teoria da Informação, a qual pode ser utilizada justamente para medir a “quantidade de incerteza” numa distribuição de probabilidade. Quanto mais incerteza, mais difícil de prever pois mais resultados são possíveis e consequentemente, mais difícil será o grupo. Não vamos entrar em mais detalhes aqui, mas acesse esse link se quiser mais detalhes sobre a entropia. Uma observação técnica relevante é que estamos aplicando a entropia nas probabilidades de classificação, apesar delas não formarem uma distribuição de probabilidades propriamente dita, visto que a soma das probabilidades é 2 (quando deveria ser 1). Apesar disso, a interpretação da entropia ainda é a mesma.

Na tabela abaixo calculamos a Entropia da Informação para cada grupo, e ordenamos a tabela de acordo com o ranking de entropia (dificuldade). Utilizando o critério discutido aqui nesse blog, o grupo mais difícil é o Grupo H, das seleções de Colômbia, Polônia, Senegal e Japão. Nesse caso, é interessante notar que esse grupo que é considerado o mais fraco tecnicamente por muitos especialistas, é na verdade o grupo mais difícil, por que ele será o mais disputado devida a maior similaridade técnica entres os participantes.


Depois desse grupo, o mais difíceis são, em ordem, o grupo D (da Argentina) e o grupo B (de Espanha e Portugal) empatados em segundo,  e depois o grupo E, do Brasil , F da Alemanha e C da França empatados em terceiro. O grupo mais fácil é o G, da Bélgica e Inglaterra.  Esse grupo, inclusive, é quem mais se distancia dos outros em relação a entropia. Ou seja, nessa Copa não temos um grupo da morte, mas sim um grupo da moleza!