ホーム » 統計データからヒントを得る » それって論理的?データ分析をするときの注意点

それって論理的?データ分析をするときの注意点


最近は、競馬投資大百科から得たヒントを元にデータ分析に勤しんでいます。

今のところ、年間約100レース、的中率20%前後、回収率120%程度のデータを見つけることができたところですが・・

ただ、現段階だとレース数が少ないなど運用面の課題が残っていますので、もう少し拡張していけないか、理論面の精査を含めて検討を継続している段階です。

あ、この記事はそんな私の馬券術の話ではありません。

実はこのブログ、「馬券初心者に贈る、馬券必勝法のレシピ・作り方」と銘打っているにもかかわらず、

馬券必勝法の「レシピ・作り方」についての記事が無いよね・・と気づきまして・・

少しずつ書いていこうかなと思った次第です。

今回の話は、データ分析をするときの注意点についてです。

スポンサードリンク

私の言う馬券必勝法とは?

まず最初に、私の言う馬券必勝法とは、過去のデータを分析し、因果関係に科学的もしくは経験的に納得可能な説明をつけた上で、未来予想の手法として開発されたものを言っています。

簡単に言うと、サイン読みなどの因果関係に科学的な説明がつかないもの、出目論などの単純な統計データ上の結果を利用したものは、私は馬券必勝法とは呼ばないということです。

なので私は・・

まずはデータの集計・統計的分析を行いデータから何らかの因果関係を発見し、そのデータは科学的・経験的に説明できるか?

という順序で検討するか、もしくはその逆の順序で考えていきます。

その逆というのは、

科学的・経験的にこういう結果になりそうと仮説を立て、データの集計・分析によって仮説の検証を行うという意味です。

データが先か、仮説が先かはどちらでも良いですけど、その考え方は論理的ですか?という点が重要ですね。

そして、「科学的な」と言っているからにはもちろん、科学的な手法でデータを集計・検証していく必要があります。

科学的なデータ分析って何?

じゃぁ科学的なデータ分析っていったいどんなの?

と思われるかもしれませんから、1つ書いてみようと思います。

ま、そんなに難しい話ではありません。

おそらく小学校や中学校の理科の実験などで習ってると思います。

それは、結果に大きく影響する可能性のある他のファクターは固定し、検証したいデータのみを変動させよう!

ということです。

例えば、ある3つのファクターA、B、Cがあったとしますよね。

そこで、ファクターAがどの程度レース結果に影響をおよぼすか?

を検証したい場合、

ファクターBとCは固定し、ファクターAのみ変動させる必要がある、ということです。

もし仮に、ファクターBのみ固定し、ファクターAとCを変動させたデータを集めてしまうと、

そのデータが示す傾向が、ファクターAとファクターCのどちらと因果関係があるのかが判断できなくなります。

スポンサードリンク

【事例】芝のレースでは内枠有利か?それとも外枠有利か?

例えば、

芝のレースでは内枠有利か?それとも外枠有利か?

という疑問をデータから検証したいとします。

このとき、

異なる競馬場や異なるコースのデータを一緒に集計してはいけませんし、

出走馬の頭数が異なるデータを一緒に扱ってはいけません。

 

コースが変われば枠順の有利不利が変わりますし、出走頭数が異なれば、枠順の有利不利が異なるだろう可能性も高いからです。

固定すべきデータを発見するための、もっとも簡単なコツ

では、固定すべきデータをどれにすべきか?

実際にデータ集計を行うときに迷うかもしれませんので、一つコツを紹介します。

それは、極端な例で考えるということです。

上に書いた例を使って説明しますね。

芝のレースでは内枠有利か?外枠有利か?

という課題の答えを、過去のレース結果というデータから見つだすために、データを集めます。

この時、集めるデータとして、コースというファクターは固定すべきか、変動しても構わないか?

つまり、特定のコースのデータのみ集めるべきか、様々なコースのデータを混ぜて集めてもよいのか?

こういった場合に、極端な例で考えるとわかりやすくなります。

つまり、

仮に、スタートからゴールまで完全に直線なコースと、コーナーの多いコースの2つのコースが有ったとして、

それらの2つのコースでは、内枠有利、外枠有利の傾向は同じだろうか?

と考えます。

完全に直線なコースってのが極端な例ですよね。

こう考えると、

完全に直線コースでは、全馬まっすぐに走るのだから、内枠外枠の有利不利があるわけない。

つまり、コースが変われば枠順の有利不利が変わってくる。

と気づくのは容易になるでしょ?

このような極端な考察から、枠順の有利不利を検証するときに使用するデータは、コースごとに集めるべき。と結論付けしやすくなります。

 

出走頭数についても同じですね。

同じコースで走る、2頭立てのレースと、100頭立てのレースがあったとします。

この時、外枠、内枠の有利不利の傾向は同じでしょうか?

2頭しか走らない場合と比べて、100頭の馬が走るレースでは、外枠の馬はより一層、カーブを回るときに不利なのは明確ですよね?

であれば、内枠外枠の有利を検証するときに、出走頭数の少ないレースと多いレースを一緒に集計してはダメだと気づけますよね。

 

このように、極端な例で考えると、因果関係が見極めやすくなります。

この記事のまとめ

データを集計するときは、変動させるデータと固定させるデータをしっかり意識しよう!

固定すべきデータは、極端な事例を考えて見つけ出そう!

データを検証する際には、どのデータを固定し、どのデータを変動させ、それによって何を導きたいのか?

しっかり意識してみてくださいね。

この記事が気に入ったら
いいね ! しよう

Twitter で
ここまでお読みいただきありがとうございました。関連記事を読めばもっと馬券がうまくなる!!

⇓ブログランキング参加中です。応援クリックをいただくと次の記事を書く意欲がわきます
にほんブログ村 競馬ブログ 馬券術へ

応援ありがとうございました!m(_ _)m


競馬投資大百科
スポンサードリンク
データを制するものが競馬を制す!!


 

この記事に関連する記事一覧

データを制するものが競馬を制す PR
人気コンテンツ
新着記事
キーワード
リンク
アンケート