AI競馬予測モデルとデータサイエンス
UMA-FREE(ウマフリー)は、単なる直感や経験則ではなく、統計学と機械学習(Machine Learning)に基づいた客観的なデータサイエンスのアプローチで競馬を分析しています。
当ページでは、本サイトがどのようなアルゴリズムを用い、どのようなデータを根拠にして「AI偏差値」等を算出しているのか、その技術的な裏側をホワイトペーパーとして公開します。透明性の高い情報提供を行うことで、ユーザーの皆様により深くデータ競馬の面白さを知っていただくことを目的としています。
採用しているアルゴリズム
当サイトの基盤となる予測モデルには、主にアンサンブル学習(Ensemble Learning)の一種である勾配ブースティング決定木(Gradient Boosting Decision Tree)を採用しています。具体的には、LightGBMやXGBoostといった高速かつ高性能なアルゴリズムをチューニングして利用しています。
競馬のレースデータは「天候」「馬場状態」「血統」「騎手」「過去のタイム」など、連続値とカテゴリ値が複雑に絡み合う非線形な関係性を持っています。勾配ブースティングは、これらの複雑な特徴量の相互作用を捉え、スパーシティの高い(欠損値が多い)データに対してもロバストに予測できるため、競馬予測に非常に適しています。
主要な評価特徴量(Features)
スピード指数・タイム
過去数戦の走破タイムはもちろん、上がり3ハロン(終盤の瞬発力)や、レースのペース(前半と後半のタイム差)などを標準化して学習させています。
適性データ
コース(芝/ダート)、距離、馬場状態(良・稍重・重・不良)、競馬場ごとの右回り/左回りや坂の有無など、対象馬の過去のパフォーマンスから固有の「適性スコア」を抽出しています。
血統(Pedigree)
種牡馬(父馬)やBMS(母の父)の産駒データを集計し、「特定の距離や馬場における血統的な期待値」を特徴量として組み込んでいます。
騎手・調教師データ
騎手とコースの相性、調教師(厩舎)の勝率や連対率など、人馬一体の指標も重要なベクトルとして扱っています。
前走からの変化
前走からの出走間隔(ローテーション)、斤量の増減、馬体重の変化など、当日の状態変化を推測するための時系列デリバティブを導入しています。
バックテストとモデルの評価
開発にあたっては、過去数万レース分(数年分)のヒストリカルデータを使用し、厳密なクロスバリデーション(交差検証)を行っています。学習用(Train)、検証用(Validation)、テスト用(Test)にデータを期間で厳密に分割することで、未来のレースに対するオーバーフィッティング(過学習)を防いでいます。
モデルの評価指標としては、単なる的中率だけでなく、ロジスティック損失(Logloss)やAUC-ROC(受信者動作特性曲線の下面積)といった統計的指標を最適化対象とし、確率予測の精度向上を目指しています。
AI偏差値とは何か?
AIが算出した「各馬の3着以内に入る推定確率」を、同じレースに出走する馬同士で比較しやすいように「偏差値(Mean=50, Std=10)」のスケールに変換したものが、当サイトで公開している【AI偏差値】です。
偏差値50がそのレースにおける平均的な能力期待値を示し、60を超えれば上位クラス、70に近ければ圧倒的な能力を持つとAIが評価していることを意味します。
限界と今後の課題
データサイエンスの力で長期的な傾向を導き出すことは可能ですが、競馬は「生き物」が走る競技であり、レース中の不利(落馬、進路妨害)、スタートの出遅れ、当日の極端なテンション変化など、データ化できないノイズ要素が非常に多く存在します。
そのため、AI偏差値はあくまで「事前データから導き出される能力の期待値」であり、確実な結果を保証するものではありません。当サイトは今後も、展開予測モデルの追加や深層学習(ディープラーニング)の応用など、更なる精度の向上に向けた研究開発を継続していきます。