2017年12月9日土曜日

HRの出やすさのシーズン内における変化

今回は主に、MLBにおける1年間でのHRの起こりやすさの変化を見ていきます。またしてもJim Albertからのパクリです。
https://baseballwithr.wordpress.com/2017/12/04/exploring-2017-home-runs-using-retrosheet-data/

Retrosheet2017が公開されたということで、AlbertはHRに関連した図を3つ示してくれているのですが、そのうちの一つが1年間の中でのHR頻度の変化です。
図1. HR/打数の2017 MLBにおけるシーズン内変化。1日ごとにHR/打数を計算してプロットしている。横軸の数値は月を示す。

HR/打席はシーズンの中頃にピークとなり、初めや終わりでは低くなっていました。4月からピークへの変化量の大きさは相対値で15~20%程度です。結構大きな変化と言えるのではないでしょうか。Albertはこのことが気候 (つまり温度) によるかもしれないと指摘しています。温度が上昇すると空気の密度が下がるなどの影響があるので、その分だけ飛距離が伸びるというわけです。

図1ではHR/打席を使っていますが、打席に含まれる他のイベントの確率の変化の影響も受ける可能性があるので、FR/打球で同様のプロットをしてみます (注1)。
図2. HR/打球の2017 MLBにおけるシーズン内変化。横軸の数値は月を示す。

図1と傾向はほとんど変わりませんでした。

温度による打球の飛距離への影響については色々と調べられています。ピークの高さがこれまでの結果から説明できそうか確認してみましょう。

Alan Nathanは2009-2010におけるホームランのHITf/xデータから、温度と打球距離には強い直線的な関係があり、華氏で10度 (10F) 変化するごとに2.5フィート変化することを示しています。また、2.5フィート (≒ 75 cm) の距離の上昇と低下は、それぞれ大体6%程度のHRの上昇あるいは低下に繋がるようです (注2)。
Alan Nathan, Global Warming and Home Runs: Is There a Connection?, Baseball Prospectus, 2012.
https://www.baseballprospectus.com/news/article/17249/baseball-proguestus-global-warming-and-home-runs-is-there-a-connection/

米国での気温は、DCを例に平均気温を見ると、
https://weather.com/weather/monthly/l/USDC0001
7月にピークとなり、4月から20F以上上昇するようなので、予測としては距離にして5フィート、本塁打数にして12%より少し高い程度の上昇となり、図1で見えたピークでの変化量とまあまあ一致しています (タイミングちょっとずれてるかも?)。

図1からさらに調べる事として、Albertは他の年度も調べてみるかもね的なことを書いていますが、こちらで勝手にやってしまいます。2013年以後について調べてみました。
図3. HR/打球のMLBにおけるシーズン内変化。横軸の数値は月を示す。縦軸の数値はそれぞれ異なることに注意。

図3を見ると、2017年と同様、各年でHR/打球はシーズン中で一定というよりは、かなり変化しているようです。各年度内での変化としては、
13: 6月頃からHR/打球が低下して、低いまま。
14: シーズンの初めと終わりが低い。6月頃にもやや大きな落ち込み。
15: 7月以後に上昇、これは5年間で2015だけ。最後少し落ちますがそのまま比較的高い状態で終了。
16: 今年とよく似た傾向。
といったところでしょうか。ただし、16, 17シーズンでも小さな中盤の低下が観察できます。原因はちょっとわかりません。

このようなシーズン中での変化は、13-17年の結果を一つの図でまとめた、長期間の単純なプロットである下の図では長期変化に埋もれて確認できません。
図4. HR/打数のMLBにおける長期変化。横軸の数値は年を示す。

図3の結果から、似たような図を作っても年度によって、必ずしも17年のようなきれいな逆U字型になるわけではないようです。もちろん、これ自体は温度によって打球の飛び方が変化することと矛盾するわけではありません。HR/打球に影響を与えうる要因は温度だけではないため、シーズン中の特定の時期から何らかの要因が強く働くようになると、形状は逆U字型から乱れるはずです。逆に言えば、16, 17年ではシーズン中は温度以外の要因がかなり安定していた、という可能性を示唆しており、むしろきれいな逆U字型になっていたことが驚くべきことかもしれません (注3)。

温度以外に影響を与えうる例としては、2015の後半から2016にかけての上昇について、Alan Nathanはボールの空力的な性質の変化が、HR/打球の上昇のかなりの部分を説明できる可能性を提示しています (注4)。
Alan Nathan, Fly Ball Carry and the Home Run Surge, The Hardball Times, 2017.
https://www.fangraphs.com/tht/fly-ball-carry-and-the-home-run-surge/

ついでに、HR/打球に関連しうるパラメータとして、Statcastデータから打球の速度と打ち出し角度の平均を1日ごとに同様にプロットしてみました。
図5. 打球速度のMLBにおけるシーズン内変化。
図6. 打球角度のMLBにおけるシーズン内変化。

HR/打球で見えたような逆U字型のパターンは見られないようです (注5)。

という感じでHR/打球の年度内での変化を見てみました。期間によって平均的に見て10%以上の変化があり、かなり大きな変化を示していました。これは温度変化から予想される変化量と概ね一致しており、年度内変化で見ると温度はHR/打球に対する主要な影響をもつ要因の一つのようです。HR関連のデータを見るときには、対象期間を合わせる、温度で補正する、といった処理が重要になりそうです。

<参考>
Marchi and Albert, Analyzing Baseball Data with R, 2013, CRC press.
Retrosheet http://retrosheet.org
Statcast  https://www.mlb.com
___________________________________________________________________
注1.
実のところ三振の割合が変化している可能性を考えたんですが、特に大きく変化はしていないようでした。
なぜ考えたかというと、基本的に投球速度がシーズン前半では遅い傾向があるため。これはよく知られていると思います。下はStatcastデータ (4月からシーズン終わり, 15-17) から、FF (フォーシーム) とFT (ツーシーム) の速度を一日ごとに平均をとって示しています。

ついでにFFの回転速度。
回転速度は年度間で形状が違うような感じです。回転速度は投手側の要因だけで決まることから、非常に強く制御できそうな変数であり、速度のようにパターンは年度間である程度一致しても良さそうなものですが🤔 回転速度は球速に比べて、ちゃんと測れて無さそうな外れ値っぽいものや、欠損値が圧倒的に多く、そのへんの事情が影響しているかもしれません (確認はしていない)。

注2.
本文では平均気温から計算していますが、もっと極端な温度変化ならさらに変化は大きくなる可能性が高いです。Nathanは30F (約0℃) から110F (約40℃)に上昇すると50%程度変化するだろうと書いています (当然、外挿気味ですが)。

注3.
実際には注目している時間スケールだと温度の方が影響が大きいので、他の要因がそれなりに大きくてもはっきり見にくいだけかもしれない。また、曲線は局所的な重み付け回帰なので、季節間での気温変化のような長期間続く要因の検出には適していますが、ランダムあるいは飛び飛びに出るような効果は検出しづらくなっているはずです。

注4.
他の候補としてはボールの反発係数や打者のアプローチの変化でしょうか。ボール関係はMLBは否定しているようですが。
Sean Cunningham, A Physicist Explains the Home Run Spikes From Babe Ruth to the 2017 World Series, RealClearLife, 2017.
http://www.realclearlife.com/sports/home-run-spikes-babe-2017/
Ben Lindbergh and MGL, The Juiced Ball Is Back, The Ringer, 2017.
https://www.theringer.com/2017/6/14/16044264/2017-mlb-home-run-spike-juiced-ball-testing-reveal-155cd21108bc
Ben Lindbergh, MLB’s #SlickBall and #JuicedBall Talk Is a PR Problem, The Ringer, 2017.
https://www.theringer.com/2017/10/31/16580364/world-series-astros-dodgers-slick-baseball-claims

ところで本文と全く無関係ですが、少し前のLindberghの記事も非常に良いです。適切な対照群を設定する重要性をよく示している (効果の区間推定が欲しいところですが)。
Ben Lindbergh, Shohei Ohtani and MLB’s Japanese Pitcher Fragility Myth, The Ringer, 2017.
https://www.theringer.com/mlb/2017/12/5/16737454/shohei-ohtani-history-of-japanese-pitchers-in-mlb

注5.
本当のところ、こういうざっくりした平均を測ってちゃんと比較できているのか正直あやしい。Statcastのデータはまだ問題が結構多いような感じで、解釈がなかなか悩ましい。

以前は、Statcastの打球データは欠損値が多く、打球タイプごとの欠損値の割合が結構変化しているため、長期間での単純な比較が難しい状態になっていたようですが、現在では推定値を無理やり入れて、一応欠損値はほとんどない状態になっているようです (手元のデータ [15-17の4月分は今年5月に取得、15-17の5月分は今年の6月に...] だと、ファールを入れないと3年で20ぐらい)。この辺の処理があやしい?
Rob Arthur, MLB’s Hit-Tracking Tool Misses A Lot Of Hits, The Five Thirty Eight, 2016.
https://fivethirtyeight.com/features/mlbs-hit-tracking-tool-misses-a-lot-of-hits/
Tangotiger, Statcast Lab: No Nulls in Batted Balls Launch Parameters, 2017.
http://tangotiger.com/index.php/site/comments/statcast-lab-no-nulls-in-batted-balls-launch-parameters

例えば、比較していいのかどうか悩ませる例としては下図。

15年9月と16年4月の打球を、年度ごと+打球種別 (ここではファールを含めていて、NAは多分ファール) にプロットしています。15年には75° (赤の破線) を超える打球は計測されていなかったのが、16年に入ると突然計測されるようになっている。

オマケ
いろいろな打撃成績の2017の1年間での変化も計算したので貼っておきます。コメントは特に無いです。
要約統計量は下の論文で色々と出してくれています。
Koch, B.L. and A.K. Panorska, The Impact of Temperature on Major League Baseball, Weather, Climate, and Society 2013 5:4, 359-366.
https://doi.org/10.1175/WCAS-D-13-00002.1


0 件のコメント:

コメントを投稿