2017年9月30日土曜日

MLBにおける各イニングごとの得点とかの話1

先週書いた失策の得点価値がどうのという記事で、得点価値の計算でnoncomplete half-inningを除いたのどうのということを書きました (注1)。基本的には、これはアウトカウントが少ない特殊なイニングであるためにそうするのだと思われますが、The Bookでは、さらに、9回以後のホーム側の攻撃では3アウトに達したイニングも、得点が入っていないというバイアスが発生しているために除いた、と説明されています。Marchi and Albertでも、noncomplete half-inningを除くことによって、得点が入ることにより完了しなかったイニングが除いたために、小さいバイアスを導入している、と説明されています。実際のところ、3アウトに達した9回の得点と、それを含めることによるバイアスの大きさはどれくらいでしょうか?

RetrosheetからMLB 00-16の9回表裏の各半イニングの得点とFIPの平均を、記録されたアウトカウントごとに集計しました。
図1. MLB 00-16の9回表裏の各半イニングの得点とFIPの平均
INN_CT: イニング
BAT_HOME_ID: 0 = "表", 1 = "裏"
Outs_CT: 記録されたアウト数
N: 総イニング数
Scores: 平均得点
FIP: FIPの平均 (注2; 注3)

9回裏 (BAT_HOME_ID = 1)では、アウトが3つでない場合、平均得点が1.5点以上となっています。一方、アウトが3つの場合、9回の表に比べてかなり低い得点になっています。FIPは9回表に比べて0.235しか低下しておらず、その影響 (0.235 / 9) は軽微です。これらの結果は、The BookやMarchi and Albertの説明通り、アウトが3つの時には得点が下がるバイアスが起こっている可能性を支持しています。

9回3アウトに達したイニングを得点価値計算に含めることの影響の大きさを調べるため、RetrosheetからMLB 00-16における、1回表から10回裏までの各半イニングのイニング数、得点、FIPを集計しました。

図2. MLB 00-16における各半イニングのイニング数、得点、FIP。
INN_CT: イニング
BAT_HOME_ID: 0 = "表", 1 = "裏"
Inning_CT: 総イニング数
Scores: 平均得点
FIP: FIPの平均

3アウトに達する9回裏自体が1表, 1裏...9回表の総イニング数の1/35程度しかない上に、得点の減少の程度も1/3程度 (図1, 9回表と裏の3アウトに達した場合での比較) のようなので、3点に達した9回裏を残した場合でもそれほど大きくは影響しないようです。個人的な好みとしては、得点価値を計算する場合はThe Bookの方法に従った方が良さそうな気がしますが、影響の大きさの観点では、あくまで好みのレベルの問題、という感じです (注4)。

ついでに、図2で得点の傾向について一部確認してみます。まず、1~8回までは裏の攻撃のほうが点が入りやすいことが確認できます。投手のFIP自体は表と裏であまり差は見られず、この得点の入りやすさの違いは投手のレベルの問題ではなく、いわゆるホームアドバンテージを見ていると考えられます。

ここで9回以後に注目すると、ホーム側の得点がビジター側よりも低い逆転現象が観察できます。8回裏→9回裏では、得点が大きく (0.094) 低下しています。この時、対戦投手のFIPは0.342しか低下しておらず、FIPによって説明される得点の減少は約0.038 (0.342 / 9) で、全体の低下のうち、約0.056が説明できていません。表の攻撃でも8→9回で得点が0.018低下していますが、こちらではFIPの変化を考慮に入れると (0.108 / 9) 、説明できない部分は0.006となります (注5)。表に比べて裏であまり説明できないという部分に関しては、要因の一つとして9回以後の裏の攻撃ではイニングが途中で切られることによって得点が低下している可能性が考えられます (注6)。

他にも色々傾向が ありますが、それらについては来週か再来週書きます。たぶん。

<注>
注1:
実際には記事ではimcomplete...と書いたのだがMarchi and Albertを見直したらnoncomplete... と書いていた。ニュアンスは違いそうな気もするのでこっそり修正。

注2:
イニング内で平均を取る時、Retrosheetの該当イニングの全ての行で平均を取っているが、これはイベントごとであって、同じPAでも複数の行で数えられることがある (SB, CS, WP, Balkなど、多分。) ので、PA平均とは多少一致しないはず (簡単にするため得点の集計と平均FIPの計算を同時にやっているので)。

注3:
FIPの計算はFGの方法に合わせた。FIP定数はFGのGuts!ページ
http://www.fangraphs.com/guts.aspx?type=cn
のデータを利用し、各年度ごとに定数とretrosheetのevent typeから全投手のFIPを計算し、対応する年度のResponsible pitcherごとに割り当てた。

注4:
結局、どの方法が本人にしっくりきて、それを他人に説明できるなら特に問題は無いというところでしょう。そもそも、non-complete inningを除かなくても多分あんまり変わらないですし。

注5:
8回表→9回表で残っている小さい値はただの誤差 (方法の問題 or ノイズ)、あるいはストライクゾーンが広がったとかでしょうか? イニングごとのストライクゾーンサイズを適当にググってみたんですが当たらなかった (間違いなく既に報告されていると思うけど情弱なので見つけられなかったという意味) ので、2016 (4/1以後; カウント 0-0; Balls in dirt無視) のPITCHf/xデータでざっくり、8回の表と9回の表のcalled strike確率50%の等高線プロットを書いてみました (データの取得にはpitchRxパッケージを利用した)。球種はわけていません。左が左打者、右が右打者の結果です。

他の条件はちゃんと見ていませんが、右打者では微妙に広くなっているかもしれません。左では広がっていない感じなので、もっとサンプルを増やさないと、全体として広がっているかどうかもよくわからないようです (イニングごとにわけているので一年分でも左打者だと2000球程度)。仮に広がっているとした場合に得点が量的にどれぐらい影響があるかを調べようとすると、データが利用可能な08-16の8回で、RHBとLFBに関して、各球種、各カウントでBall/Strikeをpredictionするモデルを作り、それらで9回のhandedness + 球種 + カウント + コースからpredictionを計算し、実際との差を求めて、得点価値に変換すれば概ね良さそうです (珍しいカウント、球種ではサンプルが足りなそうな気もする)。明らかにかなり面倒です。

注6:
実際には、説明できない部分がどれほどnoncomplete half-inningと関連しているかという証拠はどこにもなく、もっと直接調べなければならない、というところなので、一応かなり弱めの表現に留めています。

<参考>
Tango, Lichtman, and Dolphin, The Book , 2007, Potomac Books.
Marchi and Albert, Analyzing Baseball Data with R, 2013, CRC press.
http://www.fangraphs.com
http://retrosheet.org
https://www.mlb.com
http://pitchrx.cpsievert.me

0 件のコメント:

コメントを投稿