Оцифровка футбола. На что способен метод xG в ставках на футбол

Уже далеко не секрет, что все виды спорта пытаются разложить на цифры и математические модели. Подобная мода пришла из США, где полно настоящих гиков в мире статистики и цифр,  а потому вполне понятно, что наибольший успех обсчета спортсменов и их результатов достигнут именно в американских лигах. Больше половины команд бейсбольной лиги оперируют цифрами сабметрики, там это уже норма, продвинутая статистика успешно работает в НБА и НФЛ, некоторые успехи замечены в НХЛ. Понятно, что делом времени была и оцифровка футбола.

Оцифровать футбол пытались и раньше, можно вспомнить знаменитые ТТД Лобановского, а сейчас и Бубнова. Однако подсчет ТТД в чем-то устарел  и не отражает всех реалий на поле, потому что содержит  в себе достаточно отвлекающих  статистических шумов, из-за чего велика погрешность. Вполне возможно, что сейчас Лобановский предложил бы адаптированный вариант оцифровки.
Можно сказать, что на смену ТТД пришел xG.  Аббревиатура  xG  от «expected goals» (ожидаемые цели) – это ничто иное, как статистическая  модель ожидаемых голов.  В основе ее лежит подсчет опасных моментов от производимых командой ударов. Нужно отметить, что каждый удар имеет свой коэффициент опасности и формировался эмпирическим путем.



Коэффициенты произведенных ударов суммируются, и получается альтернативный исход, который формирует представление о качестве игры команды. Если рассматривать  эти цифры от тура к туру, то можно получить не только альтернативную таблицу, а и увидеть эффективность действий каждой команды, за счет чего был добыт успех, спрогнозировать возможный спад или подьем команды.

Считается, что первым подобную модель анализа использовал норвежский тренер Эгил Ольсен. Он считал, что количество ударов является ключевым показателем эффективности команды на поле, а потому и прибегал к альтернативному подсчету эффективности действия игроков.  При этом, как человек здравомыслящий, он соглашался, что удар удару рознь, а потому применял градацию опасности ударов, чтобы получить более объективные средние числа.

На данный момент гуру системы подсчета xG принято считать Майкла Кэйли. Он учитывает не только сам удар, а и ситуацию, в результате которой возможность для удара получилась. Учитывается все, удар после дриблинга или кросса, после какого паса была получена возможность для удара и ряд других факторов, которые дополняются в его модели. Пенальти он выносит за скобки, указывая его отдельно.



Стоит отметить, что более упрощенные модели предлагают рассматривать пенальти  в общей массе опасных моментов, присуждая статистически оправданный коэффициент опасности - 0.76. Например, такой принцип применяется у модели tegen11 или при подсчете РФПЛ  NVasyukhin.
Важно отметить, что у этой в целом объективной системы анализа и возможного моделирования будущих тенденций есть несколько недостатков.

Система пока никак  не учитывает, кто наносит удар. Все-таки есть разница, когда бьет Месси или Кокорин. Достаточно сказать, что лишь Месси и Криштиано Роналду перевыполняют план потенциальных голов метода xG, их реализация выше. Немаловажно и то, кто стоит на воротах. Этого модель тоже не учитывает, что дает определенную погрешность в расчетах. Но эта погрешность, по мнению авторов  расчетов, должна привести к средним цифрам  после достаточного количества средних игр. И вот тут мы плавно подошли к еще одной проблеме, в футболе, в отличие от НБА, НХЛ, MLB количество игр сезона значительно меньше, если говорить про национальные чемпионаты, то даже втрое меньше. Из-за этого ряд статистических тенденций найдет свое подтверждение несколько позже, не вместившись в отрезок одного сезона, при условии, что команда не вносила кардинальных изменений в ростер, не меняла тренера. К примеру «Суонси» был хорош в сезоне-2014/15, его все хвалили, но не обращали внимание на показатели xG, которые говорили о том, что команда набирает больше очков, планируемого статистической моделью. В итоге менеджмент был доволен, реальных изменений ни в тренерский состав, ни в ростер не вносил, а в новом сезоне результаты команды пошли вниз. Ситуация с «Лестером» Раньери в этом смысле тоже показательна, «лисы» перевыполнили план набранных очков, относительно статистической модели и получили регресс в сезоне нынешнем. Понятно, что здесь важную роль  сыграла психология, потеря Канте, однако цифры тоже играют немалую роль. Проблемы «Вест Хэма» тоже можно было просчитать, их показатели по системе xG проецировали значительно меньше набранных ими очков, откат к средним значениям мы и наблюдаем сейчас.
 


Пример разбора матча прошедшего тура.

Стоит  отметить, что чемпионом мира по xG считается лондонский «Арсенал» Венгера. Во многом это обусловлено тем, что «канониры» активно работают со статистическими данными этой системы и это позволяет, а потому они стараются наносить как можно больше ударов из статистически выгодных положений.  Почему же им не удалось выиграть титут в таком случае? Можно говорить о психологии, качестве реализации своих опасных ударов, травматичности лидеров. Все это так, но цифры вещь упрямая, если суммировать очки двух последних сезонов и сезона нынешнего, то лучшая команда по набранным очка как раз «Арсенал» Венгера. Это говорит о том, что в системе НБА, где 82 игры в регулярке у них были бы куда лучшие шансы на итоговую победу, благодаря правильным действиям на поле  с учетом расчетов модели xG. Пока для меня это самое слабое место попытки оцифровать футбол, так как выборки результатов не хватает на один сезон.

Потому на данный момент говорить о том, что показатели xG позволят с хорошей точностью прогнозировать каждый отдельный матч мне кажется преждевременным. Скорее это пока дополнительный инструмент при анализе, который  в цифровом значении показывает качество игры команды и относительно набранных очков позволяет задавать вопросы, получать ответы и прогнозировать тенденцию относительно некоторых команд на сезон и, возможно, на будущие сезоны, при учете, что система построения игры и исполнители кардинально не менялись.

Разберем на примере РФПЛ.



Таблица РФПЛ после сыгранных 11 туров.

Сразу бросается в глаза, что питерский "Зенит" не зря в лидерах чемпионата, они просто таки доминируют и по качеству игры в  системе xG.  "Спартак" напротив кажется командой переоцененной, во многом из-за того, что смогли забить в полтора больше больше ожидаемых голов статистической модели. Эта интересная информация накануне московского дерби против "ЦСКА", так как команда Слуцкого лишь слегка перевыполняет план по набору очков относительно показанных статистических показателей, но пропустили даже больше чем позволили создавать, а это ведь лишь 6 голов в 11 играх, но и забили больше созданного. Если говорить языком цифр, то получается, что в предстоящем матче ЦСКА выглядит небольшим фаворитом, хотя букмекеры считают наоборот, отдавая предпочтение "красно-белым". Понятно, что модель не учитывает психологию, проблемы Слуцкого, а оттого будет любопытно проверить на деле, кто прав в отдельном матче. Но с форой (0) на армейцев я бы рассмотрел.

Больше других недобрали очков "Локомотив", "Рубин", "Оренбург", "Крылья Советов". Значительно выше статистических показателей идет Спартак, о котором я говорил выше, Анжи и "Ростов" с уникальной реализацией, которая двоекратно превышает показатели модели качества создаваемых моментов. Здесь будет уместно указать на особый стиль ростовчан, модель игры Бердыева не предполагает доминацию даже с середняками и аутсайдерами, а потому и статически цифры размываются, при этом хорошо видна реализация, что нужно учитывать при анализе возможностей команды.

Также предлагаю вам ознакомиться с рейтингом команд других чемпионатов, построенным на основе метода xG. 

Рейтинг xG испанской Примеры.



Как можно увидеть из расчетов, "Алавес" несмотря на приличный старт забрал лишние очки, как и "Атлетик" с "Севильей". А вот недосчитались больше других "Гранада", "Осасуна" и "Барса". 

Бундеслига.



Интересные данные можно было наблюдать в Германии после 6 тура, когда в топе-5 лучших команд по качеству игры относительно метода xG можно увидеть "Ингольштадт", которые показали рекордный дефицит очков во всех европейских чемпионатах. Эти данные пригодились бы всем, кто играл дортмундцев на выезде против "Ингольштадта" в 8 туре.

Эредивизия.

Метод xG позволяет планировать и делать долгосрочные прогнозы. К примеру, в Эредивизии, небольшим фаворитом можно считать ПСВ в борьбе за чемпионство, несмотря на их 6 очковое отставание от "Фейенорда" и "Аякса".

 
Завершить обзор предлагаю самым интересным европейским чемпионатом на данный момент, извини РФПЛ, но речь не от тебе.

 АПЛ.

Рейтинг защиты АПЛ.



Общий рейтинг эффективности команд АПЛ.



Твиттеры, откуда брать xG-результаты:

1) Caley Graphics: https://twitter.com/Caley_graphics
2) 11tegen11: https://twitter.com/11tegen11
3) РФПЛ: https://twitter.com/NVasyukhin


На этом все, мой лонгрид завершен.  Интересно будет обсудить прочитанное в комментариях. Как вы относитесь к данной модели, насколько уместно ее использовать в ставках, давайте разговаривать.

Коэффициенты на футбол

Следите за обновлениями!


Всем профита!