今回はデータ母数について、少しお話します。
多くの人が、TARGETを利用されていると思うので、やはりデータ母数というのは、気になることだと思います。
私のところにもたまに下記のような質問が届きます。
「どれくらいの母数があれば、信用できるでしょうか?」
これって一概に言えないので、非常に難しいのですが、ケース別に簡単に例を書こうと思います。
まず私が一般的に、これくらいの母数があれば信用できると考える母数は500~1000くらいです。
ベースの1万以上の中から絞り込んで、500~1000残ったデータなら、大丈夫ではないかと考えています。
ちなみに1年間にJRAのレースに出走する馬は、約5万頭くらいです。
ただこの大まかな母数から絞り込んで行くのではなく、もっと少ない母数から始まりますよね。
簡単な例を挙げると『前走で逃げていた馬』を調べるとすると、これに該当する馬は1年で3500頭ほどです。
これだとベース1万に満たないので、ここから調べるのはやや母数が足りないか?と考えます。
それなら3年分で3500×3=10500頭ということで、3年分をベースにスタートすることが良さそうですよね。
あとは絞込みを行い、500~1000のデータ数に着地すれば良いというイメージです。
また状況によってもデータ母数の必要数は変わってきます。
例えば単勝オッズが1.5倍から3.5倍になれば、オッズが甘くなるほど成績が悪くなります。
これは当たり前のことですよね。
この当たり前のことを検証する場合、データの母数が少なくても、比較的に信頼できることが多いと考えます。
反対に、単勝オッズが3倍台のときの好走率が異常に良い場合は、常識に反するので、データの母数が少ない場合は信用できないと判断します。
単勝オッズが甘くなると好走率が落ちる。
この常識を覆すには、相手を納得させるだけのデータが必要ですよね。
逃げ馬よりも、追い込みの成績が良い場合なども同じです。
逃げ馬の方が、成績が良いのが常識です。
常識に反した理論なのに、母数が100しかない場合は、瞬間的な好成績の可能性がある!
と考えるようにしましょう。
次にそのデータの確率に注意です。
単勝オッズが1倍台だった場合、勝率が50%程度あります。
この確率が高いと成績のブレが少なくなりますが、反対に勝率10%程度の成績だと、母数が少ない場合はかなりのブレが発生します。
すなわち、高い確率のモノは母数が少なくても大丈夫で、低い確率のモノは、ある程度の母数が必要となります。
元も子もないですが『コレだけあれば絶対に信用できる!』というボーダーラインはないので、データの母数よりも、ロジックの優秀度を気にする方が正解かもしれません。