MODEL NOTE

AI競馬データ分析の仕組み

UMA-FREEは、直感や経験則だけではなく、統計学と機械学習に基づくデータ分析でレースを整理しています。このページでは、AI偏差値がどのような考え方で作られているか、透明性を重視して説明します。

採用している分析モデル

基盤となるモデルには、勾配ブースティング決定木など、表形式データと相性のよい機械学習手法を利用しています。競馬データは天候、馬場状態、血統、騎手、過去のタイムなど多くの要素が絡むため、複数の特徴量を組み合わせて評価します。

ただし、どのモデルも万能ではありません。データに現れにくい当日の気配や不利、隊列のズレなどは、別の判断材料と合わせて確認する必要があります。

過去数戦の走破タイム、上がり3ハロン、前半と後半のラップ差などを標準化して扱います。

芝・ダート、距離、馬場状態、右回り・左回り、坂の有無など、条件ごとの走りを整理します。

種牡馬や母の父の傾向を集計し、特定の距離や馬場で見られる傾向を特徴量として組み込みます。

騎手とコースの相性、厩舎の傾向など、人馬の組み合わせに関するデータも確認します。

出走間隔、斤量の増減、馬体重の変化など、当日の状態変化に関わる情報を加味します。

開発時には過去数万レース分のデータを学習用、検証用、テスト用に分け、未来のレースを過去データで過度に説明しすぎないよう検証しています。

評価では、単なる的中率だけでなく、確率予測のズレや条件別の得意・不得意も確認します。どの条件で参考にしやすく、どの条件で慎重に扱うべきかを把握することを重視しています。

AIが算出した各馬の評価を、同じレースに出走する馬同士で比較しやすいよう、偏差値形式に変換したものです。数字が高いほど、そのレース内で相対的に評価が高いことを示します。

AI偏差値は「その馬が必ず走る」という意味ではありません。コース傾向、馬場、馬体重、枠順、騎手の条件適性と合わせて見るための参考指標です。

競馬は生き物が走る競技であり、レース中の不利、スタートの出遅れ、当日のテンション変化など、データ化しにくい要素が多くあります。

そのため、AI偏差値は事前データから導き出される能力の期待値であり、結果を保証するものではありません。今後も展開予測や条件別の検証を継続し、公開データの改善を進めていきます。