2017年12月30日土曜日

フライとライナーのあいだ

今回は主にフライとライナーの境界について。

野球の解析ではそれぞれの打球はフライ (fly ball; FB)、ライナー (line drive; LD)、ゴロ (ground ball; GB) などに分類されます。この分類は別に解析に限った話ではなく、大昔から使われており、どちらかと言うと人間、あるいは動物の自然な認知みたいなものもあるのかなという感じがします。ライナーとか痛そうですし。で、よく解析に出てくる打球の分類でも、少なくともBaseball Info Soluion (BIS) が提供しているものは、人間が目で判断しているようです。下はFangraphsで示されているMLB全体での打球タイプ別の頻度の推移です。FangraphsはBISからデータの提供を受けています。バントは多分含まない。

図1.

目で見るとかそんないい加減でいいのか、という気もしますが、全体的にみると比率は非常に安定してします (安定しているからいいのかというと、やや怪しいところもありますが)。よくいわれる最近のFBの増加も確認できます。2012年から底をついていたFB%はこの2年間の増加で、過去の平均レベルまで回復しています。図1では頻度を示しましたが、下は打球別の価値をwOBAで示しています。
図2.

これも非常に安定しており、目で見て分類するだけでも全体で見れば良い仕事をしてくれている様子が伺えます。また、この図からは打球種類の間においてその価値にかなりの違いがあり、わざわざ分類することが解析上の有用さを持ちうることも理解しやすいのではないでしょうか。例えば、2017のFBの価値は過去最大だったようですが、LDではむしろ低下傾向を示していますが、それでもFBよりもかなり高い価値があることがわかります。ここではwOBAで示しましたが、FBは安打の比率は低いが長打が出やすいのに対し、LDは安打になりやすい、などといった特徴があり、成績の予測や補正などの目的に利用されています。

しかし、実のところ打球の分類は解析する側にとっては厄介な要素ともなっています。MLBデータの打球分類では、主にBISによる分類とMLBが提供する分類があるようで、色々と違いがあります。表面上の大きな違いとしてはMLB分類ではフライの中に、内野手に取られたフライとしてポップフライ (popup; PU) を加えています (注1)。面倒なことに同じ名前がつけられた分類群における頻度自体やその推移は、BISとMLBで結構一致しないことが知られています。下の記事はこの辺の不一致について色々と示してくれています。
Kevin Ruprecht, Batted balls and source disagreement, SB Nation, 2015.
https://www.beyondtheboxscore.com/2015/5/5/8548129/batted-ball-data-fangraphs-baseball-reference-baseball-savant-statcast

下はFanfraphsでの頻度と、Retrosheetでの頻度を比較しています (Retrosheetでの打球別wOBAは注2に示した)。Ruprechtの記事において、Retrosheetの数値はMLBのものとほぼ一致することが示されています。
図3.

FBがRetrosheetで低いのは、主にPUを別の分類として認めているためのようです。また、GBではRetrosheetがむしろわずかに高い傾向がありますが、これはどうやらFangraphsではバントを含めていないためのようです (Ruprechtの記事のコメント欄参照)。BISの分類ではそれぞれの比率は比較的安定していますが、MLBによる分類ではLDが2013年から数値が突然上昇し、FBが低下しています。異なる打球分類系での比較に注意が必要なことは当然ですが、同じ分類系でもMLBのものは年度間での比較に使う場合にはちょっと心配になるところです。

ではこれらの打球は何にもとづいて分類されており、それがMLBの分類ではどう変化しているのでしょうか?打球の分類を行う上で重要な要素になりそうなパラメータとしては、人間が分類するにせよ、機械的に分類 (クラスタリング?) するにせよ、打球の速度と角度、距離などになりそうです。ありがたいことにMLBが提供しているStatcastではこれらのデータを公開してくれています。ちゃんとしたデータは2015からなので、一番知りたい2013の変化はわかりませんが、15-17年に関してこの辺をぼんやりと眺めていきます。

下は15-17年の全打球を、年度ごとに速度と角度でプロットしています。75度を赤の点線で示していますが、15年には75度を超える打球はほぼ見られなかったのが、16-17年では結構見られるようになっています。これは仕様の変更によるものだと思われます。

図4.

基本的に打球の分布は連続的なものであることがわかります。これを3つなり4つなりに分類するのは、なかなか大変そうです。少なくとも図4で示された情報だけで分けるのは不可能でしょう。下は同じプロットで、色で打球距離を示しています。


図5.

3つくらいなら分類できそうな気がしてきました。真ん中の飛距離が出ている領域と、その上下の飛距離が小さい2つの領域は分けられそうです。また、比較的どうでもいいことですが、毎年似たようなところに飛び地のように距離が大きいデータが散らばっています。仕様上の、あまり重要ではない問題がありそうです。

下はさらに打球の種類ごとに分けて示しています。
図6.

おおざっぱには、図5中央の距離の大きい部分で、角度が大きい部分がFBに、小さい部分がLDに相当しているようです。しかし、この図ではやや見づらいですが、FBとLDは速度、角度、そして恐らく距離でも、ではかなりの重なりを持っています。また、距離が出なかった打球については、下側の領域がGB、上の領域が主にPUとなっているようです。しかし、FBとPUも角度、速度、距離で重なりがあります。この2つの分類は基本的に外野手が取ったか、内野手が取ったか、に依存しているようなので、重なりがあるのは当然といえば当然かもしれません。

図5で見えていた飛び地的な、場違いな飛距離が大きい打球はGBに分類されているようです。下は飛距離の大きなGB打球の説明や、角度、速度などです。
図7.

大部分に関しては、たぶん、野手が触ったところを距離にしてしまっているとかでしょうか。謎です。

図6に戻ると、これ以外にも打球種類ごとのまとまりから離れた打球が結構あるようです。FBを見ると角度0やそれ以下でもまばらに打球が出ています。LDやPUでもGBに含めた方が良さそうな打球が結構あり、年度によって発生の仕方が結構違います。人間が分類していて打球のパラメータがおかしな数値になっているか、機械で分類していて上手く対応できない打球があるか、あたりかなあと思いますが、年度ごとの癖やあとで見るLDとFBの分類のパラメータを見ると後者のような気がしています。

ところで、図6をよく見ると2017年ではLDの範囲が狭くなっているような感じがします。下はStatcastデータでのFBとLDの数を数えています。
図8.

2017年にLDは全体としてはそれほど低下していないようです。基本的に角度が大きい部分で刈り込まれているような印象があり、角度が大きいLDはHRになる確率が高いはずなので、HRに絞って図で示してみます。
図9.

LDが目に見えて減っています。角度が大きく、かつ速度が大きい打球が、2016で少し、2017に大きく、消えていっているように見えます。2015、2016年ではLDでは30度ぐらいの角度が上限になっているように見えますが、2017年ではかなり下がったようです。2017年と2015年を比較すると、2015ではLDに分類されていた打球が、2017ではFBに分類されている可能性は高そうです。実際、FBを見ると、2017では速度が早い (つまりLD的な; 110-120 MPHあたり) 打球が増えて右に広がっている印象があるのではないでしょうか。

減少を数字で確認します。下はStatcastデータにおける、HRに占める打球の種類です。
図10.

LDのHRが半分まで低下しています。

ここまでは角度に関して変更がありそうなことが見えていましたが、距離も変化しているかもしれません。下の図では距離への影響を見やすくするために、横軸を距離に変えて示しています。
図11.

LDに注目すると、角度30度の下の領域で減っているのに加えて、距離の大きい打球 (450 ft前後) では角度が小さくても減っていっているように見えます。

しばらくHRだけを見てきましたが、HR以外の打球は影響がないかというとそうでもないようです。下はHRでない打球について、FBとLDを比較しています。
図12.

2017年では、比較的緩めの打球である速度75前後、角度25-30あたりに謎の刈り込み痕が確認できます。何をしたらこんなことになるんでしょうか。わかりません。

これらのデータはMBLによる分類が変化していっていることを示しているようですが、当然これらの分類を使う場合には解析上の影響が起こりえます。下はFBとLDの平均速度 (Velo), 角度 (Angle), 距離 (Distance) を示しています。
図13.

わかりやすいのは角度でしょうか。2017年では両方の打球の角度が低下しています。LDの角度の大きい、30度弱の打球がFBに分類されたと考えると両方説明できそうです。LDの飛距離の低下も図11をみる限り、分類の影響が大きい可能性がありそうです。

下はLDについて、イベントごとに分けて同様のパラメータを示しています。
図14.

角度の顕著な低下があるのはHRだけのようです。角度が高い部分が刈り込まれているという観察 (図9, 11) や、全体のLDの数はそれほど変動していなかったこと (図8) と、一致する結果だと思います。

ここで図3で示した打球タイプ頻度の推移を再掲します。


MLB系の分類に従っていると思われるRetrosheetの2016→2017の数値は、Fangraphsの傾向と比べて、極端におかしな推移をしているわけではないようです。Fangraphsと明らかな乖離が広がり続けている2013から2015においては、ここで示したよりもかなり大幅な分類の改変が連続的に行われていたはずです。

というわけでHRとLDの境界を中心に、打球種類別の速度、角度などを見てきました。
ざっくりまとめてみます。

  1. FBとLDの間は少なくとも速度、角度、距離については、それぞれ大きな重なりがあり、分類は非常に困難であり、ある意味、かなり恣意的にならざるをえないことが伺える。
  2. MLBの分類では、速度、角度、距離をみる限り、2015年以後でも分類の基準が変化していっているようだった。
  3. 特に角度、距離が大きめのLDがFBに移されているらしい。特に2017年度で顕著。
  4. 緩めの打球でも、速度、角度に関して、FBとLDを分けるような刈り込みが2017年では行われている。

3と4はFBとLDの重なりが減るような方向の操作のように見え、FBとLDの間の境界における、速度と角度の影響を上げて、これらの変数内での重なりを減らすというような意図があるのかもしれません。LDが減るような方向の改変となっていますが、もともと、MLBの分類のLDはBISの分類に比べて最近では5%程度多く (図3, 2013年以後)、この違いを小さくするような意図も、もしかしたらあるのかもしれません。MLBが提供している打球分類を年度間比較で用いる時は、このような変化の影響の大きさを認識しておく必要がありそうです。可能ならどういう分類を使っているのか、今年はどう変えるのか、は公表してくれるとありがたいところです (注3)。

今回はこのへんで。

<参考>
GB%, LD%, FB%@Fangraphs
https://www.fangraphs.com/library/pitching/batted-ball/

打球別wOBAはSplits Leaderboard@Fangraphsで取得した
https://www.fangraphs.com/leaderssplits.aspx?splitArr=&strgroup=season&statgroup=1&startDate=2017-03-01&endDate=2017-11-01&filter=&position=B&statType=player&autoPt=true&players=&sort=22,1&pg=0
_________________________________________________________


注1.
PUに概ね対応するものとして、FangraphsではFBに含まれる打球として内野フライ (IFFB) がありますが、これはプレートから140ft以内であることがKevin Ruprechtの記事へのコメントで確認できます。

注2.
Retrosheetでの打球価値をwOBAで示します。

2002はデータが異常なのか、おかしな結果になっています。本文で示した頻度の比較では2003以後のみを示しました。LDが増えた2013以後にFBの価値が大きく低下していることがわかります。図2で示したFangraphsのデータではこのような大きな落ち込みは見られていません。この違いは、2012年までFBに分類されていた打球の中でもLD的な性質の強い打球 (当然価値が高い) が、LDに分類されたことによると考えると、効果の向きとしては一致しているようです。定量的にはよくわかりませんが。

注3.
キバ○シ「これはあえて使いにくくしているんだ! 角度、速度公開してやったんだから、打球分類などといういかがわしいカテゴリー変数は捨てて、ちゃんと物理的に意味を持つ連続変数でやれ、というメッセージだったんだよ!」

オマケ.
打球分類ごとに、それぞれの主要なイベントについて角度、速度でプロット。

まずはLD。

HR以外ではtripleが減ってる感じがするのと、まとまりから外れた打球は2017年では上手く取り除けているようです。横の赤の点線の上の方は角度30度を示していますが、これをみるとsingleでも30度以上の打球が低下していることがわかります。FBに移されているはずです。

FB。

LDもそうですが、角度、速度だけみるとHRとdoubleは紙一重な感じがします?たぶんspray angleが違うんだと思いますが。field outやsingleでは、低い角度 (約25度前後) の遅めの打球が2017で減っているかもしれません。これらはLDかGBに移ったかも?あとはSingle, Double, Tripleの面積も全体的に狭くなっていっているかも?

GB。

あまりよくわかりません。基本的にFB (外野が触った)でもPU (内野が触った) でもLDでもない、みたいな感じで消去法で決まっているような気もするので、多様すぎてもうちょっと細かくわけないと難しいでしょうか。

1 件のコメント:

  1. はじめまして、私も打球の統計、分析に興味があり析非常に楽しませてもらっています。
    そして、ブログの様な分析、本当に頭が下がります。
    1つお願いなのですが、もし可能なら打球速度と飛距離の関係を見たいのですがお願いできますでしょうか・・・?

    私はtwitterで4月3日にフォローした「ぽん」と申します、ダイレクトメッセージくれれば嬉しいです。

    返信削除