2017年12月16日土曜日

StatcastデータのHRが2本多い件

今回はstatcastデータで見られるデータの重複について。まれなので、ほとんどの場合、正直どうでもいいのですが。

前回過去3年分のstatcastデータをシーズン終了まで集めたので、ちゃんと揃っているか確認するため、わかりやすいところで本塁打をfangraphsの記録と比較したんですが、なぜか15と16は1本ずつ本塁打が多い。
手元の集計だと、
2015  4910
2016  5611
2017  6105
https://www.fangraphs.com/leaders.aspx?pos=all&stats=bat&lg=all&qual=0&type=8&season=2017&month=0&season1=2015&ind=0&team=0,ss&rost=0&age=0&filter=&players=0
データはbaseballr packageを使って集めているのですが、ダウンロード過程のミスではないようでした (baseball savantの検索で数値を出しても多くなっている)。

前々からデータの一部で重複を起こしているようだったので、これじゃないかと調べてみると、重複っぽい本塁打が2つ (トータル4本) ありました。

一つはDavid Freeseの'15 9/27の本塁打。

同じ試合の5回裏に全く同じ速度・角度の本塁打が2本あることになっています。

もう一つはChris Coghlanの'16 9/17の本塁打。

たぶんこれらが原因だろうと思います。

game_pk (試合のID), at_bat_number, pitch_numberでを使うと、理屈上は1球ごとのIDが得られるはずだと思うので、これを使って重複しているデータを調べると、重複は300球 (トータル600) ありました。200万球以上あることを考えると、かなりまれだと言っていいと思います。 3つ以上の重複を起こしているデータは無し。イベントの内訳としてはこんな感じ (600より明らかに少ないのはイベントが記録されていない重複がほとんどであるため)。

個人の公式記録的なものをどうしても正確に計算したいときには、重複しているイベントは除くような処理が必要になるようです。しかし、微妙に厄介なことに、一部のパラメータはこれらの重複したデータで数値が違うため、どちらを除いていいのかよくわからない。しかし数が少ないので、大抵の目的ではあまり考えないで誤差だと割り切れば良さそう。

<参考>
Statcast Search@baseballsavant
https://baseballsavant.mlb.com/statcast_search

0 件のコメント:

コメントを投稿