ホーム » 統計データからヒントを得る » 馬券回収率がプラスのデータを発見!でもそれって信頼できますか?

馬券回収率がプラスのデータを発見!でもそれって信頼できますか?


データ分析をしていると、いろいろ馬券生活当時のことを思い出します。

その中で、これは書いておいたほうが良いなと思ったことがありましたので、今回はその話です。

データ分析によって発見したそのデータの信頼性の話です。

ただ、私は数学の専門家ではありませんし、学業は疎かにしてきた人間です。

ですから、これから書く内容がすべて正しいかどうかは保証できません。

スポンサードリンク

競馬データ分析時はテキサス射撃手の誤謬に注意

テキサス射撃手の誤謬という言葉をご存知でしょうか?

このような意味です。

本来相関のないものを相関があるとして扱う。クラスター錯覚ともいう。

上官が狙撃兵に腕前を問うたところ、遠くにある壁の標的の真中に命中しているのを指し示したため腕前に感心したが、実は壁の銃痕にあとから標的を描いただけだった、というテキサスのジョークから。サイコロ賭博で「丁」(偶数の目)が6回連続したから次は「半」(奇数の目)だ、と考えるのはこの誤謬である。

(誤謬 - Wikipediaより)

競馬のデータ分析を行う際、レースや馬の抽出条件をいろいろ変更しながら絞込を行い、的中率や回収率が良いパターンを探す、ということをされると思います。

ただ、その抽出したデータが信頼できるかどうかは別の問題なんですよね。

たまたま、勝てると錯覚するようなデータの抽出の仕方をしてしまったのかもしれません。

せっかく抽出した、勝てるデータに基づいた馬券術も、実際に運用すると勝てない。という落とし穴です。

この問題は競馬データ解析ではよく起きますので注意が必要です。

そしてこの問題が起きる原因は簡単です。

過去のデータというのは、すでに結果を知っているデータです。

そしてその中から、的中率なり回収率が高くなるように抽出したデータを元にした馬券術だからです。

別の言い方をすると、的中率や回収率の高い組み合わせになるまでデータを絞り込むからです。

このような落とし穴にはまらないためにはどのようにすればよいのでしょうか。

抽出データの信頼性をどうやって検証するか?

例えば、このような状況を設定してみましょうか。

何年分ものデータ(何万レース)の中から、ある指数の1位の数値がXで、2位の数値がYで、3位の指数がZのレースが2レースだけあったとします。

たったの2レースです。

そしてこの2レースとも10番人気の馬が勝っていました。

このような場合、未来の同じ条件のレース(指数の1位~3位の値が一致するレース)で10番人気の馬の単勝を買えば的中率100%、と自信を持って言えるでしょうか?

言えませんよね。

データ検索の結果、抽出したレース数が少ないほど、偏った傾向が見えてしまう可能性は高くなります。

どうすれば、抽出したデータの信頼性を判断することができるのでしょうか?

よく聞くし、直感的にもわかりやすいのは、

「抽出データ数が十分大きく統計的に意味があり、かつ時間軸のどこで切っても同じ傾向を示していること」

を確認する方法です。

抽出したデータを統計学的に分析してみる

抽出データ数が十分大きく統計的に意味があるかどうか?の確認方法から書きます。

例えば、普遍的なデータを使って、分布の形を比べる方法があります。

  • サンプリングしたデータの単勝オッズ別の的中率や回収率
  • 母集団、つまり同じ期間の全データにおける単勝オッズ別の的中率や回収率

    など、母集団の分布の形と、抽出したデータの分布の形を比べるんですね。

    母集団と抽出データの分布が同じ形なら、抽出したデータは母集団を代表できるデータだ、と言いやすくなりますし、将来も同じ傾向を持つと言いやすくなります。

    抽出したデータは、どの期間を見ても同じ傾向を示しているか?

    さらに加えて、抽出したデータが、時間軸上でどの部分を切り取っても同じ傾向を示すのか?

    も気になりますよね。

    例えば、抽出したデータが3年分、回収率が110%だとしたら、

    1年目、2年目、3年目のそれぞれの1年間でも同じく、回収率110%程度を示しているか?

    もっと念入りに確認するのであれば、最初の半年、その次の半年・・と半年ごとに確認するんですね。

    この確認をしておけば、ある特定の期間が原因で回収率がプラスになった、みたいなデータに騙されることが無くなりますし、

    実際に運用する際に、長期間的中の無い苦しい期間が発生することを避ける事ができます。

    これらの方法は現実的ではない(と思う)

    しかし経験上、上に書いたような、数学的・統計学的な方法を、実際に判断材料として利用するのはかなり難しいと思います。

    スポンサードリンク

    数学だからとか、勉強してない人には難しいという意味ではありません。

    そもそも、競馬のデータを的中率や回収率が高まるように抽出した時に、十分なデータ数になることが稀だからです。

    つまり、抽出したデータ数が少なすぎて、分布の形を確認すること自体が困難ですし、時系列で並べるとばらついていることがほとんどです。

    データの信頼性を統計学的な手法で確証を得ることにこだわっていると、いつまでたっても馬券術は完成しないかもしれませんね。

    説明のできるデータ抽出を。

    では、データを元に馬券術を開発する時は、実際どのようにすればよいのでしょうか。

    これに対して、私自身の中にも論理的な答えはありません。

    しかし、私自身が納得して信頼して使っている方法はあります。

    それは、そもそもデータを抽出するときに説明のつく絞り方をするということです。

    データを抽出した後に検証するのではなく、データを抽出する前に説明可能な方法で抽出するということですね。

    ここからは、私が気をつけていることを、1つずつ書いていきます。

    まず1つは、脈絡のない絞り方をしない。ということです。

    例えば、またいつものように極端な話をしますが、

    私はデータを絞るときに馬名や毛色で絞ったりはしません。

    馬名とレース結果には、論理的な因果関係は無いと考えていますし、

    毛色とレース結果にも因果関係を見出すことはできないからです。

    「夏場の芦毛」とか言いますけど、2010年~2014年の夏競馬を実際検索してみると、

    • 勝率6.7%
    • 単勝回収率56%
    • 複勝率21.1%
    • 複勝回収率65%

    です。

    じゃぁ逆に、消し材料として夏場の芦毛は使えるか?

    といったことも考えません。

     

    2つ目は、使用するファクターは1つ1つ検証することです。

    これは以前、別の記事に書きましたね。

    一つのファクター単独で変化させた時に、ある傾向が現れたとして、その因果関係を論理的に説明できるだろうか?

    と考えます。

    3つ目は、複数のファクターを組み合わせる時はそれぞれ独立したものを組み合わせることです。

    例えば、競馬新聞の予想印と、調教データを組み合わせて絞り込む、といったことはやりません。

    なぜなら、競馬新聞の予想印は、調教の結果を踏まえたものである可能性があるからです。

    もしこのような絞り方をしてしまうと、調教データで2回絞っていることになりますよね。

    これでは抽出したデータを説明することが困難になります。

    ちなみに、各々のファクターに重みをつけるというのは、手法としては悪くないと思います。

    しかし、その重み付けは自分でコントロールすべきです。

    最後に4つ目ですが、

    的中率を高めるための絞り方と、回収率を高めるための絞り方を意識して使うということです。

    的中率を高めるというのは、より有利な馬、より強い馬、より勝負気配の高い馬・・・つまり馬券になりやすい馬を探すという作業です。

    • どのようなファクターであれば、より強い馬を抽出できるのか?
    • どのようなファクターであれば、より有利な条件で走る馬を見つけ出せるのか?
    • どのようなファクターであれば、勝負気配を察知できるのか?

    例えば、あるコースではどの枠が有利な枠なのか?といった話ですね。

    また、回収率を高めるための絞り方というのは、より注目されていない馬を探すという作業です。

    • どのようなファクターであれば、実力以上に人気のない馬を抽出できるのか?
    • どのようなファクターであれば、実力以上に人気になった馬を抽出できるのか?

    例えば、前走でどのような結果を出した馬が、今レースで人気を落としやすいのか?といった話です。

    これらの、ファクターの性質は、意識しながら使うようにしています。

    もし仮に、回収率を高めるためのに調べたファクターが、的中率に好影響していたとしても、それに納得できる説明を付けられないのであれば、有効なファクターとして利用してはいけません。

    最終的に頼りになるのは知識とセンス

    非常に長くなってしまいましたが、データ分析時の心得について書いてみました。

    結局、データ抽出に使用するファクターを発見したり、

    それぞれのファクターの意味付けや論理的説明などを考える事ができるようになるためには、

    競馬に関する多くのことを知る必要があります。

    競馬を知ることは、競馬センス(常識力・論理力)を身につけるということでもあります。

    情報収集や勉強を積み重ねてくださいね。

    競馬を知ることで、馬券生活が近づきます。

    以上です。

  • この記事が気に入ったら
    いいね ! しよう

    Twitter で
    ここまでお読みいただきありがとうございました。関連記事を読めばもっと馬券がうまくなる!!

    ⇓ブログランキング参加中です。応援クリックをいただくと次の記事を書く意欲がわきます
    にほんブログ村 競馬ブログ 馬券術へ

    応援ありがとうございました!m(_ _)m


    競馬投資大百科
    スポンサードリンク
    データを制するものが競馬を制す!!


     

    この記事に関連する記事一覧

    データを制するものが競馬を制す PR
    人気コンテンツ
    新着記事
    キーワード
    リンク
    アンケート