Take it easy

サッカーブログです。

サッカーデータ分析シリーズ ~僕達はゴール期待値を信じて良いのか~



データ分析の波(しずかな)

「サッカーはデータが10割」「エックスジーニアス」面白かった。データ分析が現代のサッカーでいかに意味のあるものなのか、そしてそれを武器にのし上がったブレントフォードやブライトン、リヴァプールの物語は非常に興味深いものであった。書籍では様々な評価値が登場するが、特に大きく取り上げれていたのが「ゴール期待値(xG)」である。

 サッカー中継のスタッツですでにお馴染みになった「ゴール期待値」。とはいえ、このデータをどのように扱って良いのか、腑に落ちないもやもやした時間が過ぎていたが、先に上げた書籍ではゴール期待値をどのように解釈すればよいのかを説明し、サッカー統計データ分析とは何たるかを示していた。

 とはいえ、書籍で示されていたデータは欧州で収集されたものであり、紹介されていた事例もごく一部。だからこそ、もっとたくさんのデータをみたい、特にJリーグでのデータを集めて分析すると何が解るんじゃないか、そんな知的好奇心が湧いてくる。そうなると結局は「自分でやってみる」しかなくなるのだ。

 

とはいえ、Jリーグのデータ分析を実現するにはなかなかハードルが高い。データ収集と分析プログラムの作成、この2つが大きな壁である。

まずはデータ収集。色々海外のデータサイトなどを探していたのだけれど、灯台下暗しとはこのこと。公式ページでばっちり公開してくれていた。ありがたく使わしていただく。

【公式】J1リーグの成績・データ:Jリーグ公式サイト(J.LEAGUE.jp)

次にプログラム作成。ここで大きな味方になってくれたのが、AIコードエディタ「Cursor」である。データの収集や分析はPythonを使うのだけれど、「Cursor」はプログラム作成の労力を大きく減らしてくれる。Cursorがなければ、データ分析までたどり着けなかっただろう。ただ、データ収集はかなり大変だった。データの整頓作業にも大変苦労した。そのあたりの話はまた今度。

 

ゴール期待値とはなんなのか

というわけで、ゴール期待値を中心に分析を行っていくが、最初にゴール期待値の定義をはっきりさせておこう。

ゴール期待値とは、「あるシュートチャンスが得点に結びつく確率」を0~1の範囲で表した指標であり、欧州を中心にサッカー界で活用され始めています。ゴール期待値はシュートの成功確率を表すので、値が高いほど得点が決まる可能性が高いシュートになります。

データスタジアムが保有する過去複数年のイベントデータ(プレーデータ)をAIに学習させ、2019年度以降の全シュートに対して期待値を算出しました。

ゴール期待値とは | データによってサッカーはもっと輝く | Football LAB

ちょっと補足すると、ゴール期待値として出てくる確率は、「リーグで平均的な能力を持った選手がシュートを打った場合にゴールになる確率」という意味になる。この確率は様々なパラメータから算出される。シュートを打つ場所、シュートしたのは足か頭か、クロスボールをシュートしたのかドリブルで持ち込んだのか、守備側の選手が近くにいるか、などなど。パラメータはゴール期待値を算出する会社や団体によって少し変わってきたりもする。

今回集めたデータはJリーグで収集されたデータが元になっている。これがプレミアリーグとかで収集されたデータが元になると、ちょっと数値の出方が変わってくるはず。リーグのレベルも違うだろうし。

 

ゴール期待値とゴール数

まず調べてみたのが、ゴール期待値とゴール数の関係だ。ゴール期待値が「シュートがゴールになる確率」を示しているのであれば、ゴール数との間に何らかの関係が見えてくるはずだ。

分析に使ったデータのスペックは以下の通り

  • 2019年シーズンから2025年9月までのデータを収集した。これは、ゴール期待値が2019年シーズンから算出されたため
  • 選手数は1781人。データ件数は4746件。
  • データの1件とは、ある選手が1シーズンで記録したゴールとゴール期待値のペアを表している。ある選手が7シーズンプレーするとデータ数は7件となる。
  • シーズン中に移籍した選手のデータは2件として扱う。チームが変わるとそれだけ環境も変わるから、データとしては分けた方が妥当と思われる。
  • シュート数10本以上のデータのみ分析対象としている。たまに元データに記録ミスがあったりするからだ。(シュート1本で2点取ってる選手がいた)

 これらのデータを集計し、グラフにしてみた。はてさて、どんな結果が現れるのか。

 

 

 

X軸がゴール期待値でY軸がゴール数。データを点でプロットした。斜めに走っている線は「ゴール期待値=ゴール数」を示す基準線である。

それはともかく、ゴール期待値とゴール数の間には見事に相関関係が見られた。相関係数: 0.864。これは非常に強い相関があるということだ。つまりグラフからは、「ゴール期待値が高くなるにしたがって、ゴール数も増えていく」と読み取れる。

 

統計学的に検証しよう

ゴール期待値とゴール数には相関がある。それは確かだけれども、データ分析では常に「相関関係と因果関係の違い」に注意しなければならない。

  • 相関関係は2つの事象が互いに関係しあって変動している状態。
  • 因果関係は一方の事象(原因)がもう一方の事象(結果)を引き起こす関係

一見関係がありそうでまったく関係していない関係、擬似相関というのが世にあふれている。例に挙がるのが

  • 「チョコレートの消費数とノーベル賞の受賞者数」
  • 「年賀状の枚数と収入」
  • 「コンビニの店舗数と犯罪件数」

などなど。どれもグラフは連動しているけれど、実際には何の因果関係もない。

ゴール期待値とゴール数の関係も、擬似相関でない因果関係であることを示す必要があるだろう。めんどくさい作業だけれど、これから色々なデータを分析していく事を考えると、基本を抑えておいたほうが思わぬ落とし穴にハマる確率が減るのではないだろうか。

因果関係を示すには2つの条件がある。

  1. 原因(A)が先に起こり、それによって結果(B)が起こること
  2. AがBを直接引き起こしていること。

この2つを満たしていると「因果関係がある」と言える。

ゴール期待値とゴール数を検証してみると、ゴール期待値というのはシュートを打つというアクションを元に算出される確率だ。そしてゴール数というのはシュート打った結果を表す値と言える。ゴール期待値が発生することなしに、ゴール数がカウントされることは無い。よって1,2のどちらの条件にも当てはまる。これによりゴール期待値とゴール数には因果関係があることが示された。注意点としては双方向ではないということだろう。

  • ゴール期待値が高ければ、ゴール数は多くなる の因果関係は成り立つ
  • ゴール数が多ければ、ゴール期待値も高い の因果関係は成り立たない。 

まとめ

今回の結論としては「ゴール期待値が高ければゴール数は多くなる」。

実はこの結果、結構驚いている。試合のスタッツで示されるゴール期待値の数値と試合結果の差を見ていると、いまいち納得感を感じられないこともしばしば。ところが統計データとして見ると、しっかり因果関係がある。人の感覚と統計データの差であったり、ゴール期待値の有用さが示されたのは成果と言えるんじゃないだろうか。

 

これからも統計学の勉強をしつつ、色々なデータの検証をしてみたい。正直、めっちゃ楽しい。