2017年11月25日土曜日

カウント毎の得点価値の可視化3

過去2回、Jim Albertが導入したボール・ストライクの得点価値の可視化方法を、それぞれリーグ全体、一部の投手に対して試してきました。今回は、野手個人に関して、ボール・ストライクの得点価値を計算してみます。

対象としては、wOBAの数値が比較的近く、かつ、タイプが違う打者ということで、Adrian Beltre、Chris Davis、Andrew McCutchenを選びました。

まず、これらの選手の打撃成績をざっくり掴むために、三振%、四球%、ISOをプロット。データはFangraphsから (注1)。

Beltre (wOBA 0.367) は三振の少なさが特長であり、四球はやや少なめで、長打力は平均的です。Davis (wOBA 0.368) はトップクラスの長打力と四球%ですが、三振の多さもトップクラス。McCutchen (wOBA 0.378) は比較的四球%が高く、長打力と三振の数は平均的というところです。McCutchenのwOBAが優秀な数値となっている要因としては、四球%の高さもありますが、ここでは示せていませんがBABIPが高め (0.336) なのが効いているようです。

 では、まずBeltreから。
ストライクが増えることによる得点価値の低下、ボールが増えることによる得点価値の増加は全体的に低くなっています。追い込まれた状態でも平均的な打者の"0-0"と同程度の得点価値があり、これは三振しにくいことと関連がありそうです。"3-0"と"3-2"へと到る経路ではボールの価値が高めに出ている感じですが、少なくとも"3-0"に関してはおそらくサンプルが少ないことで極端な結果になっている可能性が高いかもしれません (頻度を記事の後の方で示しています)。

次にDavis。
ストライクによる 得点価値の低下が目立ちます。これはBeltreと比較するとはっきりしており、Davisは一つストライクを取られて"1-0"になると、Beltreの"0-2"と同じ程度まで低下します。平均と比較しても、"0-0"では平均に比べて0.05強ほど得点価値が高いのが、"0-2"や"1-2"で追い込まれると、平均的な打者とあまり変わらない所まで得点価値が低下しています。これは三振の多さと関係がありそうです。しかし、逆に言えば、あれだけ三振が多くても、長打力によって平均的な打者と同程度の成績が残せているとも言えるかもしれません。長打力は特定のカウントというより、どちらかと言えばある程度均一に全体的に効くと思われるので、おそらく全体的に上にシフトさせるような要因になっているという感じでしょうか。

最後にMcCutchen。これはやや厄介です。
基本的には、ストライクによる 得点価値の低下は平均と同じ (少し大きい?) ぐらいで、ボールによる得点価値の増加は全体的に低くなっています。結果として、3ボールの状態での得点価値は、"0-0"の値が平均より高い割に、それほど平均と変わらない結果となりました。ストライクによる得点価値はまあそんなもんかという感じですが、ボールに関してはMcCutchenの四球%はかなり高め (リーグ平均8%弱程度に対して12.3%) なので、安直に考えると得点価値は増加していてもよさそうな気がします。非故意四球の得点価値はだいたい0.3くらい (注2) なので、四球%が1.5倍なら3ボールの打席の得点価値を高める要因になりえるはずです。

3ボールの打席の得点価値が意外に伸びないことの説明としては、3ボールに達した打席数あたりの四球は実は増えていない、というのが考えられます。四球を増やす方法としては、3ボールの打席数あたりの四球を増やす、ということに加えて、全打席の中で3ボールの打席を経由した数を増やす、ということでも可能であり、後者の方法で四球が増えているのであれば、平均得点価値としては変わらないはずです。

各カウントを経由した回数を計算してみました。数値は全打席に対して各カウントを経由した割合を示しています。
McCutchenは3-0, 3-1, 3-2を経由した打席が、それぞれ平均よりも3割程度多くなっています。McCutchenの四球%は平均より50%程度高いことを考えると、だいたいそのうちの6割ぐらいは3ボールを経由した打席数が増えていることで説明できる可能性がありそうです。

先ほどの表を全体的に見ると、McCutchenは、3ボールに限らず、打者有利なカウントを経由していく比率が高いようです。カウント毎の得点価値の計算では、それぞれのカウントを通過した打席全てについて得点価値を平均する計算を行っているため、これは先行するカウントの得点価値を高める効果があるはずです。この結果はMcCutchenは各カウントごとの得点価値の比較ではそれほど優れていなくても、打者有利なルートを通る比率を上げることで、全体としての得点価値を生み出せる打者であることを示しています (得点価値の図で言うと、投球数0や1などで特に上にシフトする感じになってるはず)。

話を3ボールの得点価値に戻すと、非故意四球の得点価値はだいたい0.3と書きましたが、実はFangraphsの四球は非故意四球 + 故意四球なので、それも影響している可能性があります。故意四球の得点価値は0.16程度 (注3) で、正の値ではあるのですが、"3-0"の平均得点価値よりは低いので、打者個人の結果としては得点価値を増やす良い方法にはならないようです。非故意四球と故意四球の全体の比率がだいたい15:1に対して、McCutchenはだいたい15:2と非故意四球が多いようで、これも得点価値があまり増えない要因かもしれません。

という感じで今回は終わりです。ざっと見た程度ですが、同じくらいの得点力を持った打者でも、タイプによってカウント毎の得点価値や、全体的な得点価値を高める方法には、色々と個性があるようです。McCutchenは個人的にまだちょっと気になる感じなので、いずれ調べてみるかもしれません (注4)。

<参考>
Marchi and Albert, Analyzing Baseball Data with R, 2013, CRC press.
Albert, Visualizing Baseball, 2017, CRC press.
Tango, Lichtman, and Dolphin, The Book , 2007, Potomac Books.
http://retrosheet.org
__________________________________________________________________
注1.
使ったデータへのリンク
https://www.fangraphs.com/leaders.aspx?pos=all&stats=bat&lg=all&qual=y&type=8&season=2016&month=0&season1=2013&ind=0&team=0&rost=0&age=0&filter=&players=0&sort=16,d

注2.
13-16で計算すると0.296。得点価値の計算はMarchi and Albertに従った。The Bookの数字だと0.323。The Bookは比較的に得点/試合が高めだった1999-2002の数字。

注3.
13-16で計算すると0.163。

注4.
よくあるカウント毎の成績みたいなものとの比較は一つの方向かなと思うのですが、この手のカウント毎の成績を得点価値と比較できるかというと多分なかなか難しい。大きな理由は、サンプルが対応していないことです。通常カウント毎の打撃成績というと、そこで打席が終わった場合の打席について計算をしますが、得点価値の計算では、あるカウントを経由した打席全て、で計算しており、同じカウントでもサンプルがかなり違う。

2017年11月18日土曜日

カウント毎の得点価値の可視化2

前回は、Jim Albertが導入したボール・ストライクの得点価値の可視化方法を、リーグ全体に対して試してみました。Albertはさらに投手や野手の個人についても計算・可視化してみています (Albert, 2017)。

今回は、ダルビッシュ、田中、カーショウの3人の投手に関して、2013-2016におけるボール・ストライクの得点価値を計算してみます。

その前にまず、これらの投手の成績をざっくり掴むために、三振/9、四球/9、HR/9をプロットしました。データはFangraphsから (注1)。


ダルビッシュは三振/9が素晴らしく、対象データの中では最高を叩き出し、四球/9は規定投球回をクリアするような投手としては平均的あるいはやや多い、といったところです。対して、田中は三振/9は平均的ですが、四球/9はトップクラスです。HR/9に関してはダルビッシュのは1.01と平均的、田中の1.14と、やや多めです。もう一人、例として計算したカーショウは、三振/9、四球/9、HR/9が全てトップクラスの、まさに完璧な成績です。

このような様々なタイプの成績を持つ投手のボール・ストライクの得点価値は、全体と比べてどう変化しているのでしょうか?実のところ以下の計算は多少問題があると思っているのですが、とりあえず計算してみます。データはRetrosheetを利用しています。

では、ダルビッシュから。

まず打席の開始である"0-0"同士を比較すると、ダルビッシュは全ての投手の場合に比べて、得点価値を下げています。"0-0"は全ての打席の得点価値を計算しているので、要するに、この低下分だけ1打席あたり失点を減らしている、ということを意味しています。

全体的な傾向を見ると、上下にかなり広がっていることが見て取れます。これは基本的には、ストライクを取ることによる得点の低下も、ボールが記録されることの得点の増加も、全選手の計算に比べてかなり大きくなっている可能性を示しています。特に、ボールが先行している時の得点価値の上昇が非常に大きいのが少し気になるところです。

ただし、先に書いた通り、この結果はそのまま受け取るのは問題があると思われます。各打席の得点価値の計算には、その年の得点環境におけるランナー・アウト状況における得点期待値 (RE24) を利用しています。しかし、投手がマウンドにいる時、その得点環境はその投手の能力の影響によって大きく変化してしまうので、前提となっている平均的な得点環境が当てはまっていないはずです。

前回示した、全体的な得点環境が年度によって変化した時の、カウントの得点価値の変化を再掲します。

得点が入りにくい状況 (2014) では、各カウント間の相対的な関係は保存されたまま、ストライクによる得点の低下、ボールによる得点の増加も小さくなるようです。

今回扱っている投手がマウンドにいる時の、得点環境の代理変数になってくれそうなものの一つとして、FIPを示します (注2)。データはRetrosheetから計算。

ダルビッシュのFIPは平均よりも約20%強ほど低く、これを考慮すると、ダルビッシュのボール・ストライクの実際の得点価値は、先に示した図よりも全体的にすこし上下の広がりが小さくなっているのではないかと思います (注3)。

次に、田中での結果を。

ダルビッシュとは対照的に、上下の広がりが小さい形状になっています。ただ、これは全体的な傾向というより、特に目立つ"3-0"と"0-2"の得点価値が特殊な値になっているためのようにも見えます。"3-0"は図の左に示した全体では"2-0"から大きく得点価値が上昇していますが、田中は"3-0"での得点価値は"2-0"と大差なく、失点を抑えることに成功していたようです。"3-2"でも"0-0"とほぼ同程度かそれよりも得点価値をマイナスにしており、これら3ボールでの失点抑止の優秀さは、四球の少なさと関連があるだろうと推測できます。"0-2"に注目すると、なぜか得点価値が"1-2"よりも高いという結果になっています。普通に考えれば、"0-2"は最も投手有利なカウントであり、全体でもダルビッシュでも最も平均得点価値のマイナスが大きいことを考えると、田中の場合では、偶然の影響が大きく実際の効果の推定としては正確でない、あるいは、攻め方に改善の余地がある、ということかもしれません (注4)。

最後にカーショウの結果です。

形状としては全体のものと似ていますが、全体的に下に大きくシフトしています。カーショウの"0-0"は全体の"1-2"とほとんど同じ得点価値であり、カーショウがマウンドに上がることそれ自体が、打者にとって平均的な投手に"1-2"で追い込まれるのと同じほどの悲劇的な状況のようです。また、既に示したようにカーショウのFIPは平均よりも著しく低く、実際の得点価値としては、これの上下の広がりをかなり小さくしたようなものになっているのではないかと思います。

という感じで投手に対してボール・ストライクの得点価値の可視化方法を適用してみました。投手の場合、得点環境が変化してしまうので異なる投手間の比較の扱いがやや難しいのではないかと思います。しかし、その投手の全カウントの相対的な関係をみるだけでも、投手によっては面白い特徴が見つかることがありそうです。この方法を使うことで、良い結果になった、あるいは悪い結果になったカウント、というようなことが簡単に把握できそうなので、それらのカウントを詳細に調べていく入り口として利用できるかもしれません。

次回は野手でやります、多分。

<参考>
Marchi and Albert, Analyzing Baseball Data with R, 2013, CRC press.
Albert, Visualizing Baseball, 2017, CRC press.
http://retrosheet.org
_________________________________________________________________________
注1.
下は単なる、使用したFangraphsのLeaderboardsへのリンクです。
投手成績
http://www.fangraphs.com/leaders.aspx?pos=all&stats=pit&lg=all&qual=y&type=8&season=2016&month=0&season1=2013&ind=0&team=&rost=&age=&filter=&players=

リーグ成績
http://www.fangraphs.com/leaders.aspx?pos=all&stats=pit&lg=all&qual=0&type=8&season=2016&month=0&season1=2013&ind=0&team=0,ss&rost=0&age=0&filter=&players=0

注2.
普通に失点率の方で良かったかもしれません。対象のイニング数も結構多めですし。

注3.
こういう問題を多少回避する方法としては、投手同士の比較には"0-0"の値が近いものだけを比較すると、得点環境は同じぐらいになっているはずなので、形状の比較はある程度正確に可能だと思います (それでも得点価値の値自体は多少ずれているはずだと思いますが)。

注4.
今回は3~4年分で計算していますが、個人のサンプルとして、「真の効果」のようなものを推定する目的のために十分かどうかは、よくわかりません。あくまで、この期間内ではこうなった、それが実際の効果か、運なのかはよくわからない、という程度で考えていただければ。1年ずつわけて描画するとかなり形も変わるので、1年ではサンプルがかなり足りていない印象でした。

オマケ.
K/9とBB/9の成績の上位から1/3ずつグループに分けて、その組み合わせで投手を分類して計算。
K1-BB1: K/9とBB/9のいずれも上位1/3
K3-BB3: K/9とBB/9のいずれも下位1/3
K1-BB3: K/9が上位1/3、BB/9は下位1/3
K3-BB1: K/9が下位1/3、BB/9は上位1/3
こういう方法ならサンプル数はかなり稼げるので、かなり正確に効果が見えてるんではないかと思います。

2017年11月11日土曜日

カウント毎の得点価値の可視化1

今回はカウント毎の得点価値の可視化について。
最近、Jim Albertがこれの新しい可視化の方法を示してくれています。
https://baseballwithr.wordpress.com/2016/05/09/graphing-pitch-count-effects/
https://bayesball.github.io/VB/Chapter4_Plots.html

カウント毎の得点価値自体は、例えばPitch type linear weights (1.02でPitch Valueと書いているやつ) の基礎でもあり、以前から広く使われている概念だと思われます (注1)。Albertの意図としては、数値のテーブルではなく図を使って可視化することで、より直感的に理解できるはずだ、ということでしょう。

下はMLB2013-2016のデータから計算し、描画した結果です (注2)。データはRetrosheetから。図中のラベルはボール・ストライクカウントを表し、ありうる状態遷移が青の線で結ばれています。図の横軸はボール・ストライクカウントの合計を示しています。状況は図の左に移ることはなく、そこで打席が終わるか、右に進んでいきます。"投球数"とラベルしていますが、2ストライク以後はカウントを変化させないファールもあるので、実際の投球数には必ずしもなっていません。数値の計算としては、そのカウントを経由した全ての打席について、どれだけ得点価値を変動させたかをランナー・アウト状況の得点期待値に基づいてもとめ、その平均を取っています (注3)。

図から幾つかのことが容易に見て取れます。
  1. ストライクが先行するとその打席の得点価値が低下、要するに投手有利になる。ボールが先行すると投手不利になる。
  2. いわゆる並行カウントという表現がありますが、それらの得点価値は同じではなく、ストライクが増えるとより投手有利になる (注4)。2-2は1-1よりも0-1に近い。
  3. ストライクになるか、ボールになるかの得点価値は状況による。例えば初球では1-0と0-1の差から、大体0.07 ~ 0.08程度。2-0から、あるいは2-1からの1球は得点価値の変動が他のカウントより大きく、変動の大きさが初球の2倍程度。
  4. ボールを投げることによる打席の得点価値の増加は特に2ボールから3ボールになる時に高い。ストライクが先行している状態ではボールになってもそれほど得点価値は増加しない (このことが2-2を投手有利なカウントにしている。)。一方、ストライクを取ることの価値は、ボールを投げることに比べると、どのカウントでも比較的似たような数値になっているかもしれません。
これらのポイントは、単にカウント毎の得点価値の平均値を示したテーブルからでもわかるはずですが、Albertの図では横軸で投球数を揃えて、ありうる状態変化を線でつなぐことで直感的に理解しやすくなっているのではないかと思います (テーブルの例としては例えば注1のリンク先を参照)。この方法は投球開始前のカウントが持っているポテンシャル的な部分に注目しているので、ボールが4つになる時の価値やストライクが3つになる時の価値や、安打になったり凡打になったりした時の変動は表現されていません。

得点環境の変化によって、カウント毎の得点価値がどう変化するかも調べてみました。
2000年以後で1試合あたりの得点はこんな感じ (注5)。

これを見ると最近はここ15年程度の中では、かなり投手有利であったことがよくわかります。2000年以後で1試合あたりの得点が最も高いのは2000年 (5.14) で、最も低いのは2014年 (4.06) なので、これらの年のカウント毎の得点価値を計算しました。

得点が低い2014年環境では、2000年環境に比べて全体的に平べったくなっています。これは、得点価値の正の値も負の値も、変化が小さくなっていることを示しています。また、この変化にも関わらず、カウント間の相対的な関係は良く維持されていることがわかります。

という感じで今回はリーグ全体でのカウントごとの得点価値の可視化を試してみました。Albertはこの方法を用いて、近著 "Visualizing Baseball" において、各選手ごとにカウントの得点価値がどう変化するかを示しています (注6)。たぶん次はこれを書きます。
<参考>
Marchi and Albert, Analyzing Baseball Data with R, 2013, CRC press.
http://retrosheet.org
________________________________________________________________________
注1.
John Walsh , Searching for the game’s best pitch, 2008.
https://www.fangraphs.com/tht/searching-for-the-games-best-pitch/

注2.
計算方法はMarchi and AlbertのChapter 7及びappendix A.3を参考にしています。多分Albertの計算方法と同じだと思うんですが、Albertの計算結果とほんの少し一致していない。
2015の結果がココ↓
https://bayesball.github.io/VB/Chapter4_Plots.html
で示されているので、こちらも計算してみると微妙にずれる。原因は不明。差は非常に小さいですし、計算途中も変なことは起こってなさそうので、大したことでは無いと理解しています。
ほぼ完全に一致していますが、気持ち悪いものは気持ち悪い。

注3.
1.02の得点価値の説明 (カウントの話ではなく各イベントの得点価値についてですが)。
http://1point02.jp/op/gnav/glossary/gls_explanation.aspx?eid=20013

また、本文中で軽く説明した、この各カウントについての得点価値の計算方法では、カウントの効果は経路に依存しないことを仮定していると理解できます。実際には、少なくとも表面的には、経路に依存する (おそらく、少なくとも部分的には、経路によって打者の能力にセレクションバイアスがかかるという理由)。
Sal Baxamusa, The Memory Remains, 2006.
https://www.fangraphs.com/tht/the-memory-remains/
やMarchi and Albertの "7.2.5 The importance of the previous count" を参照。

注4.
Tango Tigerが得点価値でなくwOBAからカウントを分類してくれています。
http://www.insidethebook.com/ee/index.php/site/comments/plate_counts/
ここでも0-0や1-1が中立とされているのに対して、2-2は投手有利であるとされています。

注5.
この図はMonkman氏が作成したshiny appである
Per-game run scoring by league
https://monkmanmh.shinyapps.io/MLBrunscoring_shiny/
のスクリーンショットです。

注6.
100ページ程度のわりと薄い本ですが、100程度の図が入っており、ぼんやり眺めるだけでも結構楽しめます。実のところ、中の人も本文はほとんど読んでいない (小声)。お値段もハードカバーでなければ3500円程度と、安くはないかもしれませんがそんなに高くもない。
https://www.amazon.co.jp/Visualizing-Baseball-Jim-Albert-ebook/dp/B0764GCQZ3
一部の図のRコードが公開されています。
https://bayesball.github.io/VB/

使われている指標はわりと古典的なもので、良くも悪くも指標がどうのとかいうものではないです。主なテーマはパターンやばらつきの理解であり、要約統計量のテーブルによる数字の洪水ではなく、可視化することでこの理解を助けたい、というところのようです。

本人のブログでの本の宣伝を含むポストと、Hardball timesに掲載されたDave Studeman による書評も貼っておきます。
https://baseballwithr.wordpress.com/2017/08/28/new-book-and-home-run-hitting/
https://www.fangraphs.com/tht/a-new-classic-in-sabermetric-literature/

2017年11月3日金曜日

打順ごとの打撃結果@MLB

今年は例年に増して打順の話が多かった気がしますが (ちな鷲並感)、打順の各スポットにおける重要性の相対的な違いについてはこれまでにも色々調べられています。

 2番打者には強打者を… よく聞く説の根拠とは?
 https://full-count.jp/2015/08/07/post15318/

アメリカでも基本的にはThe Book (2007) の議論がベースになっているようです。

 Sky Kalkman, Optimizing Your Lineup By The Book, 2009.
 https://www.beyondtheboxscore.com/2009/3/17/795946/optimizing-your-lineup-by

 Bill Petti, Optimizing Batting Orders Across MLB, 2012.
 https://www.fangraphs.com/blogs/are-league-wide-batting-orders-more-optimized/

 Neil Paine, The Spot in MLB Lineups Where Managers Are Still Ignoring Sabermetrics, 2014.
 https://fivethirtyeight.com/features/the-spot-in-mlb-lineups-where-managers-are-still-ignoring-sabermetrics/

The Bookが提示した観点から見て打順が改善しているのかどうか、というような記事もいくつか出ていますが、あまり変わっていない、という感じのようです。

もうちょっと最近の結果を、ということで1980から2016で代表的な打撃成績を計算してみました。投手は除いていません。データはRetrosheetから計算しています。

まずwOBA。全体の数値を青の線で示しています。

基本的にどの打順でも全体の成績変化とよく一致した変化を示しています。全体のトレンドを示さずに一部の打順の成績だけをみると、おかしな結論を簡単にひねり出すことができそうです。

全体として打順ごとの成績と全体の成績との差をみると、これまでに確認されているように、大きくは変わっていないようです。あえて言うなら、3番 (と4番?) が90年代中盤から00年代中盤より下がってきていますが、これはおそらく、お薬的な事情で、どうかしているような成績を残す選手が減ったためとでしょう。

各打順の間の相対的なバランスでみると多少変化がありそうので、90年代終わりから00年代初頭の結果から実証的に示されているような知見は、最近の結果で追試してみる価値があるかもしれません。

チーム間での成績のばらつきの大きさを調べるために、チームごとに各打順のwOBAを計算し、そのSDを計算してみました。

9番打者で高いのは、投手が含まれるためでしょう。他はどの打順でもSDは似たようなもののようですが、ここでも90年代中盤から00年代中盤の3番、4番は特徴がありそうです。

2番に注目すると80年代にチーム間でのwOBAの差が大きかったようです。wOBAの数値自体も80年代中頃は2番打者の傾向としては高めだったようで、調べてみるとちょっと面白いかもしれません。

他の打撃成績も貼っておきます。打順別という観点では、それほど注目すべき傾向は今のところ無さそうな気がします。






<参考>
Tango, Lichtman, and Dolphin, The Book , 2007, Potomac Books.

http://retrosheet.org

作図にはそれっぽさを出すためにggthemesのtheme_fivethirtyeight()を使用。
https://github.com/jrnold/ggthemes