信頼できるデータ母数とはどれくらいか?

投稿者: | 2014年1月16日

 

今回はデータ母数について、少しお話します。

多くの人が、TARGETを利用されていると思うので、やはりデータ母数というのは、気になることだと思います。

私のところにもたまに下記のような質問が届きます。

 

「どれくらいの母数があれば、信用できるでしょうか?」

 

これって一概に言えないので、非常に難しいのですが、ケース別に簡単に例を書こうと思います。

まず私が一般的に、これくらいの母数があれば信用できると考える母数は500~1000くらいです。

ベースの1万以上の中から絞り込んで、500~1000残ったデータなら、大丈夫ではないかと考えています。

 

ちなみに1年間にJRAのレースに出走する馬は、約5万頭くらいです。

ただこの大まかな母数から絞り込んで行くのではなく、もっと少ない母数から始まりますよね。

簡単な例を挙げると『前走で逃げていた馬』を調べるとすると、これに該当する馬は1年で3500頭ほどです。

これだとベース1万に満たないので、ここから調べるのはやや母数が足りないか?と考えます。

それなら3年分で3500×3=10500頭ということで、3年分をベースにスタートすることが良さそうですよね。

あとは絞込みを行い、500~1000のデータ数に着地すれば良いというイメージです。

 

また状況によってもデータ母数の必要数は変わってきます。

例えば単勝オッズが1.5倍から3.5倍になれば、オッズが甘くなるほど成績が悪くなります。

これは当たり前のことですよね。

この当たり前のことを検証する場合、データの母数が少なくても、比較的に信頼できることが多いと考えます。

反対に、単勝オッズが3倍台のときの好走率が異常に良い場合は、常識に反するので、データの母数が少ない場合は信用できないと判断します。

単勝オッズが甘くなると好走率が落ちる。

この常識を覆すには、相手を納得させるだけのデータが必要ですよね。

 

逃げ馬よりも、追い込みの成績が良い場合なども同じです。

逃げ馬の方が、成績が良いのが常識です。

常識に反した理論なのに、母数が100しかない場合は、瞬間的な好成績の可能性がある!

と考えるようにしましょう。

 

次にそのデータの確率に注意です。

単勝オッズが1倍台だった場合、勝率が50%程度あります。

この確率が高いと成績のブレが少なくなりますが、反対に勝率10%程度の成績だと、母数が少ない場合はかなりのブレが発生します。

すなわち、高い確率のモノは母数が少なくても大丈夫で、低い確率のモノは、ある程度の母数が必要となります。

元も子もないですが『コレだけあれば絶対に信用できる!』というボーダーラインはないので、データの母数よりも、ロジックの優秀度を気にする方が正解かもしれません。