2020年8月30日日曜日

平均への回帰に関する古典的な議論

平均への回帰とBABIP/被BABIP (or DIPS/FIP; 注1) とつなげるような記事は洋の東西を問わずたまに見かける気がします。僕自身はどの指標についても、全体の分散を構成要素の分散に分解するだけとしか考えていないので、そもそもイマイチなにがしたいのかが理解できない、という感じになります (注2)。僕自身の感覚は下にリンクを貼ったツイッターのスレッドである程度説明されていると思いますが、真面目に説明すると大変そうなので今回はやりません。

https://twitter.com/sleep_in_nmbrs/status/1175600076581818369

https://twitter.com/sleep_in_nmbrs/status/1208642157407375360

代わりに今回はそのあたりの基礎となる、有名な古い文献を紹介しておきます。暇な人は読んでみてくださいというだけの内容です。

Efron and Morris, Stein's Paradox in Statistics, Scientific American (1977; 注3) https://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

ここでは望ましい推定量 estimator  (わからなければ予測値みたいなもんだと思ってください) を得るときに、観察された平均値に対して適用される平均値へと向かう "縮小" が中心的なテーマとなっています。これを説明するための材料として、当時のMLBの打率データを使って、シーズン途中の成績からシーズン終了時の成績を予測することを試みています。言うまでもなく平均値は記述統計の代表値として望ましい性質を持っています。また、少なくともいくつかの分布に従う事象について、観察された平均値は最尤推定量になり、推定量としても有用だと思われます (注4)。では、それがどういうときに (ある種の判断基準から見て) 他の縮小を含んだ推定量に比べればあまり有用でなくなるか、というような感じの話を一般向けに説明したエッセイです。一部スクリーンショットで引用します。このブログを見ている暇人なら、よく見た形の式だと思う人もいるでしょう。 


最後の方の"全ての (各打者について) 測定された打率を集めたものによって決まる"、というのは、野球のデータに関して言えば、データ生成の確率的な過程に依存するランダムな要素で生じる分散の大きさに加えて、個人差に関する分散の大きさが影響するよ、というようなことですね。その後に書かれている、輸入車の割合の推定に野球選手の打率成績を入れると推定が改善するかもとかのあたりは、そういう単純な感覚の向こう側な感じがして面白いです。

このように一般的な統計学的な概念 "縮小" の例として野球のデータは採用され (注5)、そのような考え方は現在ではfangraphsのsample sizeなどで説明されているような考え方の基礎へと繋がっていると言えるんじゃないかと思います。

https://library.fangraphs.com/principles/sample-size/

とはいえ統計学者が何もかもを見透かしていたかといえば、おそらくそうではない。投手BABIPについて投手のtalentがもたらす影響が驚くほど小さいということは、Voros McCrackenが"How Much Control Do Hurlers Have?"で扱うまでは注目されなかったらしい (注6)。

https://www.baseballprospectus.com/news/article/878/pitching-and-defense-how-much-control-do-hurlers-have/

このあたりは概念の具現化として扱おうする統計学者たちと、そのスポーツを理解したいという欲求で動いている人たちの違いが出たのかもしれません。

_______________________________________________________________________

注1

DIPS/FIPSについては、とりあえずなんの略なのかを考えてほしいなあ、と思うことが多いです。Defense-Independent Pitching StatsもFielding-Independent Pitchingも、これら考え方のコアとなるアイデアの方向性が名前によく出ていると思うのですが (細かい違いはよくわらかないまでも)。

注2

何かの指標を偶然の影響を強く代表するものであるとしたり、真値からの誤差を示すものである、と考えるような方法論からのwOBAとかの推定値と、シンプルに縮小/回帰による推定量 (年度間相関の予測値でもいい) を比較した例ってあるんでしょうかね。情報量を足している可能性はあるので、改善してもおかしくはないと思うんですが。

注3

最近出たEfron & Hastieの教科書の訳本買いましたが、キツイ。 https://www.kyoritsu-pub.co.jp/bookdetail/9784320114340

注4

最尤法によるパラメータ推定の意味と具体例, 高校数学の美しい物語

https://mathtrain.jp/mle

注5

EfronとMorrisが野球のデータを採用した経緯などは、以下のAlbertによるMorrisのインタビューなどで知ることができます。MorrisはBaseball Abstractの初版の広告を見て買った物好きの一人らしい。

Interview with Carl Morris https://chance.amstat.org/2014/09/carl-morris/

MLBの打率の例はEfron & Hastieの上の教科書でも出てきます。John K. Kruschkeによるベイズ統計学の入門書の階層モデルの説明でもMLBの最近の打率が採用されています。

http://doingbayesiandataanalysis.blogspot.com/

David Robinsonは野球のデータで経験ベイズの入門的な教科書を書いてくれています。無料でももらえますが、金は払ってあげましょう。

 Announcing the release of my e-book: Introduction to Empirical Bayes

https://www.blogger.com/blog/post/edit/5159336789481103711/7443628894981653992

注6

投手がBABIPを制御できるケースがあるらしいということはTom Pettitが大昔に詳しく書いてくれています。

Tom Tippett, Can pitchers prevent hits on balls in play? (2003) https://diamond-mind.com/blogs/baseball-articles/77333188-can-pitchers-prevent-hits-on-balls-in-play

比較の多重性やバイアスを無視した議論とか、一部だけを取り出して議論をすすめるあたりあまりできの良いものではないというところですが、ナックルに関してはよく知られていますし、自分でもある程度確認したことがあります。今の打球データを使えば、全体の傾向に関してもっとうまく説明できる可能性はありますが、いずれにせよ表面的にほとんど差がなさそうに見えることをどうやってがんばってその説明をつけるか、ということであって、効果の小ささから逃れることはできないでしょう。そうするとかなりのサンプルサイズは必要なはずで....僕はまだいいかな。

よくわかっている部分としては基本的には、投手の球種や投手の打球タイプ傾向が影響するのはある程度わかっています。球種に関しては顕著なのはナックルボーラーで、ナックルのBABIPが低いこと、ナックル以外 (より正確に言えばBABIPが高めであるFFやFTの) の投球割合が小さいこと、でBABIPが低めになると大まかには理解できます。一時これらの点に関して、田中がある種のナックルボーラー的な要素があることをJeff Surrivanが繰り返し指摘していました。

Jeff Sullivan, Masahiro Tanaka Is Beyond McCullersing (2018) https://blogs.fangraphs.com/masahiro-tanaka-is-beyond-mccullersing/

Jeff Sullivan, Masahiro Tanaka Might One Day Kill the Fastbal (2017) https://blogs.fangraphs.com/masahiro-tanaka-might-one-day-kill-the-fastball/

Jeff Sullivan,The Reality of Masahiro Tanaka’s Fastball (2015) https://blogs.fangraphs.com/the-reality-of-masahiro-tanakas-fastball/

Jeff Sullivan, Masahiro Tanaka Abandons the Fastball (2015) https://blogs.fangraphs.com/masahiro-tanaka-abandons-the-fastball/

これついては昔なにか書こうかとちょっと調べていて、彼の決め球であるSFとSLは一般的に言ってBABIPはやや低めで、田中のそれはさらに低いかもしれず、かつSF/SLの割合も通常の投手より多く、速球系の割合がかなり低い傾向があったと思います (ややあやしい記憶)。しかし、SL/SFのBABIPはガチナックルボーラーのナックルに比べれば高いし、たまに投げるFTのBABIPが高いのが致命的で、目立つほど (FIPからの差を真剣に考えなければならないほど) BABIPを下げるのは難しそうな印象でした。

ちなみに他にもBABIPが低くなりかねない属性を持った"投手"カテゴリーがあるかもしれず、それは本来打者である選手が投球を行った場合です。

https://twitter.com/tangotiger/status/1021188671490461696   

> GB rate for non-pitchers-as-pitchers only 29%, launch angle of 21.1 degrees, compared to pitchers of 45%, 11.7 degrees, respectively. 

> So if you want to keep your BABIP low, give up alot of flyballs and make sure alot of them are really hit hard

"他の条件が同じなら" BABIPが下がるのはいいことなんですが、BABIPが下がることは "他の条件が同じではない" ことを示唆している可能性を考える必要があるでしょう。

投手のBABIPの構成要素について、それぞれの影響の大きさを推定する試みもTangoらによって何度かなされています。以前ブログで紹介した記事はその一つで、ランダムな要素に加えて、投手、守備、球場あたりの影響を考えた推定になっています。

TangoによるxBABIPを利用した投手被BABIPの分解についてのメモ

https://sleepnowinthenumbers.blogspot.com/2020/04/tangoxbabipbabip.html