2017年10月21日土曜日

野球のランナー、アウト状況における変化の概観1

# 野球のランナー、アウト状況における変化の概観1: 打席結果

野球のイニング内での状況は大まかに0-2アウト (3通り) + ランナー状況 (2^3 = 8通り) に分けることができ、このような性質は状況の得点期待値や、イベントの得点価値の計算などに利用されています。

これらの状況においては、各イベントの得点価値は大きく変動しています。変化を具体的に見ていきます。

下は2000-2016年MLBのデータから計算した、単打 (Single) とHRの各ランナー、アウト状態での得点価値を示しています。 「ランナー状態」は0か1で各塁でのランナーの有無を表現しています。例えば、000であればランナー無し、100であれば1塁のみランナーあり、101であれば1+3塁にランナーあり、というふうになっています。


図1. 単打 (Single) とホームラン(HR) の各ランナー、アウト状態での得点価値。

ランナーがいない状態 (ランナー状態 = 000) に注目すると、HRは常に得点価値としては1点となりますが、単打はアウトカウントによってその価値は変動し、0アウトでは単打はHRの1/3程度の得点価値がありますが、2アウトになると1/8程度まで低下します。これは0アウトであれば、出塁した後にホームまで帰ってこれる確率がある程度高いのに対し、2アウトではなかなか帰ってこれないという当たり前の感覚を、数字で裏付けていると言えるでしょう。

下は四球 (BB) の場合を示しています。

図2. 四球 (BB) の各ランナー、アウト状態での得点価値。

Singleの結果と比較すると、ランナーがいない状態ではほとんど結果は同じですが、1塁が空いていて、2塁や3塁にランナーがいる状態 (001, 010, 011) では、その得点価値はかなり違っています。これは、各イベントの得点価値は、主に、打者が塁に出ることによる部分と、塁上のランナーを進塁させる部分に分解できることを考えれば、容易に理解できると思います (よく見ると塁を埋める効果もありますが、効果はそんなに大きくない)。これらの状態では四球ではランナーを進めることができないのに対して、Singleではランナーを進めることができます。

このような状況によるイベントの価値の変化は直感的にも理解できる部分が多く、効果の大小をどこまで正確に把握できるかという重要な問題を横においておくと、選手たちもこんなテーブルを見せられなくても当然考慮に入れているはずで、イベントの発生頻度をある程度コントロールしようとしている可能性が考えられます。では、いろいろな状況において、誰が、どの程度各イベントの発生頻度を変化させているのでしょうか?

下の図3は各ランナーアウト状況 (STATE) における打席結果を示しています。

基本的な成績Single ~ HRに関してはABで、BB ~ Kに関してはPAで割った値を示しています。全体的な打席結果を示す指標としてwOBAも計算しました。wOBA_actualは実際の打席結果から求めたwOBAを、wOBA_expctは打席に立っている打者の年度wOBAから予想されるwOBAの期待値を示しています。wOBA_diffは実際のwOBAからwOBAの期待値を引いた値です (注1)。
PA: 打数, AB: 打席, Single: 単打, Double: 二塁打, Triple: 三塁打, BB: (非故意) 四球,
IBB: 故意四球, HBP: 死球, K: 三振


図3. 各状態でのイベントの発生頻度と、wOBA (wOBA_diffの降順) 。

あまりに多くの要因があり、わかりづらいので、とりあえずwOBA_diffに注目して低い順に並べています。故意四球 (IBB) は当然ですが、それ以外にも多くの打席結果も発生頻度が多少変化しているようです。

STATEを見てみると、アウトカウントが多いほどwOBA_diffは小さくなる傾向があるようです。wOBA_diffの上昇とはっきりした正の相関を示す要因としてはSingleの上昇があるようです。また、wOBA_diffの低下はKの上昇と相関があるようです。このことは、これらの要因が、少なくとも部分的に、wOBA_diffの変化に影響している可能性を示しています。

並べ替えたぐらいでは全体的な関連性を理解するのは難しそうです。全体的な関連性を探索的に調べるために、各成績間の相関マトリックスを作成しました。数値は2つの成績間の相関係数を示し、右のゲージで示されているように、正の相関が強いほど濃い青で、負の相関が強いほど濃い赤で示されています。
図4. 各イベントや成績の間の相関行列。

やはりwOBA_diff (下から2行目 or 右から2列目) に注目すると、上で見たとおり、Kとは強い負の相関があることがわかります。打者にとって望ましい結果でありwOBAを上昇させる要因についても、Single, Double, HBP, HRなどある程度以上の正の相関があり、これらの変動もwOBA_diffの変化に働いている可能性がありそうです。

ここで、BB (非故意四球) は特別な傾向を示しています。BBはwOBA_diff、あるいはwOBA_actualと、非常に弱いながら、負の相関を示しています。これは、BBが増えるとwOBAが少し低下するという表面上の関係が存在していることを示しています。いうまでもなく、BBは計算上wOBAを上昇させる要因であり、一見矛盾した結果です。

この関係性が生まれる原因を調べるため、相関行列でBBについて注目してみます (上から2行目 or 左から2列目)。BBと正の相関を示すものとしてはKとIBBがあります。また、負の相関を示すものとしてはHR, Double, Singleが見られます。HR, Double, Singleに関してはABで割った数値を使っているので、BBが増えても直接この数値を下げることは無いはずですが、Kが増えることで間接的にこれらの数値を下げている可能性は考えられます。Kとの正の相関、HR, Double, Singleとの負の相関は、wOBAを低下させる要因となる可能性があり、BBの増加によってwOBAが増加する効果以上に、これらの相関の影響が強く、結果としてBBとwOBAは負の相関を示しているようです。

これらの相関関係をもう少し全体的につかむために、各状況におけるBB/PAとこれらの数値をプロットしてみます。BBとKの間に相関があることから、ABで割るとKが増えた影響を受けるはずなので、この影響を差し引くためにHR, Single, Doubleに関してはABではなく総打球数 (Batted balls) で割った値にしています。

図5. 各状態における、BB/PAに対する各指標との関係。見づらいときはダウンロードして開けてもらうと良いのではないかと。

幾つかの傾向が見て取れると思います。
1.
BB/PAが高いのは、アウトカウントが1 or 2で、かつ2 or 3塁にランナーがおり、さらに1塁が空いている時。逆に低いのは、1塁が埋まっており、2アウトでは無い時。
2.
BB/PAとHRは打球あたりでみると、上の相関行列でのHR/ABの数値に比べると、影響がだいぶ弱そうに見えます。しかし、全体的にほどほどに相関しているかもしれません。"010 0"と"011 1"で特に少ないのは謎です。
3.
BB/PAが増える状況では、K/ABは増えるような傾向があるようです。
4.
Single/総打球はランナーが3塁におり、かつアウトカウントが0 or 1で増加しやすい。
5.
DoubleはABではなく打球数でわると、BB/PAとの相関は見られなくなった。
6.
IBB/PAは2 or 3塁にランナーがおり、さらに1塁が空いている時に高い。アウトカウントが大きい方がより多い。

これらの結果はどう解釈できるでしょうか?

1について、BB/PAが高くなっている状況では、四球を出すことで塁を埋める効果もあり、特にある程度以上優れた打者に対して、投手がある程度選択的に四球を出している可能性が考えられます (注2)。一方、打者側からすると、少なくとも常識的な直感ではこれらの状況については、四球を選ぶメリットはあまり無いような気がします。
また、野球の記録ではボールが4つ記録されることによる打者の出塁は、(非故意) 四球と故意四球にわけられますが、当然、これらの出塁は実際には投手から見て0%故意から100%故意の間の連続的なものであるはずです。審判が100%と判断したものが故意四球とラベルされていますが、四球にはある程度以上の故意が入りうると考えると、投手側の影響が大きいと考えたくなるところではないでしょうか。
塁が埋まっている時 (つまり四球でランナーを進められる) に四球が少ないことも、投手側による故意によって説明できそうな気配がします。

2, 3について、Kの増加やHRの低下といった投手側から見て好ましい効果と、投手にとって望ましくない四球の増加が全体的に相関していることは、なかなか面白い結果だと思います。面白くない可能性としては、1に書いたように投手から見て好ましくない (長打力がある、三振しない) 打者に対して選択的に四球を出すことが、影響していることがありえます。面白い可能性としては、投手からみて四球を出してもコストが比較的小さい状況では、よりボールゾーンで誘ったり、あるいはストライクゾーンの厳しいところをつく、といったより慎重に投げることが可能であるはずで、これらがこの相関を産んでいるのかもしれません (注3)。

また、打者側の変化からも一部説明できる可能性があるかもしれません。HRの低下に関しては打者が確率の低いHR狙いよりも、より確率の高い単打を打つような打撃に切り替えている可能性もありそうです。Kの増加に関しては、野手側が手をだすゾーンを広げたりしていると、Kが増える可能性がありそうです。

4については、非常にわかりやすく、大部分は3塁ランナーを進ませないための守備位置の影響でしょう。打者のアプローチの変化もあるかもしれませんが、2アウトでは増えてないことから、打者の影響はあまり大きくないような気がします。これらの影響が大きそうな部分を無視すると、BB/PAとの単回帰の直線の傾きはさらに小さくなり、影響はあったとしても非常に小さそうです。

5については、Double/ABで見えた影響はKの増加による間接的な影響のようです。

6については特に書くことは無い気がします。

では2の面白くない方の可能性がどれぐらい影響してるか調べてみます。とりあえず特にBB/PAが多い"001 2", "010 2"に注目してみました。これらの状況において、四球になった打者と、四球にならなかった打者の年度成績から期待される成績を計算しました (注4)。
図6. 注目した状態における、期待されるイベント発生頻度。
BB_FL: 1が四球を発生した打席、0がそれ以外。

やはりHRを打つ確率は四球をもらった打者の方が高いようです。"001 2", "010 2"は四球が最も少ない状態に比べて、四球が約2倍になっています。そこで、仮に四球となった打者の半分が全てbatted ballになった場合に、HRの期待値がどれぐらい増えるか計算していみると、
"001 2"では0.429から0.432に、
"010 2"では0.429から0.433に、
HR/総打球が上昇するという結果になりました。これらの変化は高々1%というところで、影響は軽微なようです。2で見えている、BB/PAと相関するHRの低下の大部分は、これ以外の要因によって起こっている可能性が高そうです。
Kに関しては、打者能力はほとんど変わらない、むしろ歩かせている相手はわずかにKが多い打者のようなので、打者能力の調整はあまり気にする必要は無さそうです。

いくつかの指標に関して状況による発生頻度の違いが見えてきました。これらの違いと、各イベントの状況毎の得点価値との違いとの間の関係はどうなっているのでしょうか?各イベントの状況毎の得点価値と、発生頻度をプロットしてみました (注5)。
図7. 各イベントの得点価値と発生頻度の間の関連。

明らかなパターンが見られるのはやはりBBです。得点価値が低い状態でより起こりやすくなっています (r = -0.70, 95% CI: -0.86/-0.42; p < .001)。IBBもBBほどでは無いですが、似た傾向があるようです (r = -0.45, 95% CI: -0.73/-0.03; p = 0.038)。少なくとも、ランナー・アウト状況に注目する限り、これらのイベントの発生頻度に対する影響力が強いのは投手側である可能性が高そうです。
KとSingleは傾きがありそうにも見えますが、その傾きは非常に小さく、また、これらの関係には有意差はありませんでした (Singleに関しては既に書いたように、おそらく守備位置の関係でランナー3塁かつ0, 1アウトで出やすく、これらはSigleの得点価値が高い比較的高い。微妙に傾いているのはおそらくこのため)。

各打席結果について、アウトカウントと、2塁より先にランナーがおり1塁が空いている状態、の2つの要因で違いが見られたので、この2つの要因ごとに打席結果を集計してみました (注6)。
図8. アウトカウント、ランナー状態ごとの実際のイベントの発生確率。
Out_CT = アウト数
Open_FL = 1はランナー状態が"011", "001", "010"を、0はそれ以外を示す。

同じアウトカウントで見ると、1塁が空いているとHRが減る傾向があるようです。HRは特に0アウトで低下しやすいようです。Kは、1塁が空いている時に、1, 2アウトでは増加していますが0アウトでは差は無さそうです。
1塁が空いた状況について注目すると (データの2, 4, 6行)、アウトカウントが増えるとBBとKが増加するようです。一方、HRはあまり低下していません。これはアウトカウントが増えることで打者のアプローチが長打狙いになっていることも関連しているかもしれません。

まとめです。24状況における打席結果の変化としては、
1. 四球は得点価値が低い (投手からみてコストが小さい) 状態でよく見られる
2. Kは四球が多い状態で多くなる
3. HRは四球が多い状態ですこし少なくなるかも
4. Singleは3塁走者を止めたい状態で増加する
あたりが傾向として見えました。
四球は得点価値が低い状態でよく発生することから、投手側がある程度選択的に四球を出している可能性が高そうです。しかし、これらの探索的な解析はあくまで表面的な数字の相関と推測にすぎないです (注7, 注8) 。このような変化が生じるメカニズム的な説明があると、もう少し説得力がでるかもしれません。

HR変化のメカニズム的な部分に関して、使用したRetrosheetでは打球種が記録されているので、簡単にできる解析として、図8と同じ状況で打球種別の割合を求めてみました。

Out_CT = アウト数
Open_FL = 1はランナー状態が"011", "001", "010"を、0はそれ以外を示す。
FB: Fly ball
GB: Ground ball
LD: Line drive
PU: Pop up
(pct = percentのつもりなんですが100分率に変換するのを忘れてますね...)

特にHRが低下しやすい、0アウトかつ1塁が空いた状態ではフライ (FB) が約15%低下しているようです。0アウトかつ1塁が埋まっている状態と比較すると、HR/総打球の低下が約25% (図8) なのでFBの低下で半分ちょっとは説明できているかもしれません。ライナー (LD)も減っているので、おそらくこれも多少効いているはずです。FBやLDを減らしているのが主に打者側なのか投手側なのかは、このデータだけではちょっと解釈が難しそうです。

1アウトに注目するとFBはむしろ増えているのに、HR/総打球が約10%低下しているので、打球だけでは説明できないような効果もあるかもしれません。

ここから詳しく調べるなら、24状況ごとの投球のコース、球種、打者のスイングゾーンあたりのデータを調べてみるというのがとりあえず良さそうな気がします。とりあえず15-17の4-9月のStatcastデータから、幾つかの状況ごとに投球のコースをプロットしてみました。数が多いと見てもよくわからないので、各状況でランダムに300球だけ選んでプロットしています。

図10. ノーアウトランナー無し + BBが出やすい状況における投球の分布.
○はボール球、+はストライク (ファウル含む)、▽は打球になったボールを示す。

全体的に、左端のノーアウトランナー無しに比べて、1塁が開いている状況で投球ゾーンが広く、また打球になったボールの領域も広いような印象を受けるのではないでしょうか?もう少し詳しく調べてみる価値がありそうです。

といったところで続きます。大したことはできそうにないですが、ゾーンサイズの変化ぐらいは示そうと思います。
___________________________________________________________________________
注1.
wOBAは全体的には良く得点価値を表しますが、ここではそれぞれ平均的な状況からかけ離れているため、得点価値とみなすことは困難だと思われます。つまり、例えば、wOBA_diffが大きいからと言って、相対的に打者にアドバンテージがあるとは必ずしも言えないはず。あくまで、全体の傾向をある程度示す変数が欲しかっただけです。

注2.
状況によるイベントの変化としては、四球がコストが低い時によく発生することは古くから知られているはずです。身近な例では、四球の得点価値が死球より低いことからもほぼ明らかでしょう。

注3.
ちなみに、この慎重に投げることの効果、ということではThe BookのChapter 10. Boots were made for walking. において、2000-2004 MLBでは、故意四球をだすことが比較的好ましい状況 (アウトカウント1 or 2, ランナーが2塁か3塁にいて1塁が空いていて、さらに攻撃側が同点あるいはリード) とそれ以外の状況を比べると、四球/PAが約20%、三振/PAが5%増えていたことが既に示されています (Table 130)。HR/PAは変わっていないことも示されていて、三振と四球の増加を考えると、このデータでも多分HR/総打球は3%くらい低下しているんではないかと。彼らのデータで差が小さそうなのは、HRが低下しやすい0アウト (図8, アウトカウント別に見る) 状況や、他の四球がそれなり以上に増えやすい状況が、「それ以外の状況」に含まれているせいでしょうか。

注4.
各PAにおける打者の期待値でのHR/総打球の数値が、図5のHR/総打球の数値に比べてかなり高いのは、HR/総打球が高いと総打球/PAが少なくなるバイアスがあるためのようです。たぶん。

注5.
HRが増えていないのは打者側のアプローチの変化を考えると意外な結果かもしれません。実際の得点価値ではなく、イベント間の得点価値の相対的な変化でプロットしてみるとこうなりました。打者が絶対値より相対的な変化により大きく応答しているなら、こっちのほうが妥当かもしれません。

これだとHRは相対的な価値の増加に伴い、わずかに頻度が上昇しているように見えなくもないです (ちょっと無理があるか)。投手側がHRを減らそうとしている部分もあると思うので、なかなか効果としては出ていないのかもしれません。
ここでは得点期待値との関連だけ調べましたが、得点確率や勝利期待値を考えることも拡張としてはありうる方向だと思います。少なくとも、各状況における、BBが増えやすくなることの影響と、相反するKやHRの影響を比較するためには、それらも見ないと評価のしようがなさそうです。

注6.
一応各状況における打者と投手の成績の期待値を計算しました。Pit_Singleから右の数値が投手のものです。0, 1アウトでは塁が空いた状態では強打者が回ってきているようなので、HRは補正したほうが良さそうですね... (面倒くさい)。

1塁の状態の違いで投手のDoubleがかなり違うのはサンプリングからのバイアスでしょう (二塁打の後は注目している1塁が空の状態になる。逆に言うと、二塁打が出やすい環境ではいろんなイベントの発生確率が少し変わりやすいはず)。そのまま補正に使うとおかしなことになりそうです。

注7.
実のところランナー・アウト状態ごとにまとめた、HR/総打球とBB/PAの間の相関は5%水準では有意差がないです (p-value: 0.071)。が、24状況ごとにまとめた要約統計量 (つまり平均) で相関を見るという、情報量を盛大にドブに捨てる感じの行為自体も、問題がありそうな気がします。
問題を単純化して、ランナー状態が"011", "001", "010"かそれ以外でまとめて、HR/総打球がどうなるかを計算すると1割以上低下しているようです。

これだけ差が大きく、サンプル数も十分なので、もちろん2群の比率の差の検定ならp値は極めて小さい (p < 2.2e-16)。しかし、これもいくらなんでも単純化しすぎ感。

注7.
ついでに得点差による影響についても軽く調べてみました。

Close_FL: 1は同点 or 1点差 (+1 or -1) を、2は2点差 or 3点差、3はそれ以外を示す。
Out_CT = アウト数
Open_FL = 1はランナー状態が"011", "001", "010"を、0はそれ以外を示す。

ランナーが"011", "001", "010"の状態に注目すると (赤の枠、赤の破線の枠)、赤の破線で示したアウトが1 or 2の状態で、接戦になると四球が増加しやすいようです。この時四球の増加はKの増加と関連がありそうですが、HRについては関連が見えていません。打者のアプローチ変化もあるかもしれません。

<参考>
Tango, Lichtman, and Dolphin, The Book , 2007, Potomac Books.
Marchi and Albert, Analyzing Baseball Data with R, 2013, CRC press.
http://retrosheet.org
https://www.mlb.com

0 件のコメント:

コメントを投稿