デプロイ済みモデルの正常性スコア
モデルの品質に関する理解
Tealium Predictまたは他のマシンラーニングツールを使用して作成したマシンラーニングモデルの品質は、以下のものを含め(ただそれらに限定されない)さまざまな要因によって異なります。
- データセットを構成する属性、および属性の組み合わせが提示する全体像の完成度。
- データセット内に存在する訪問者と訪問に関する日ごとのボリューム。ボリュームが大きい場合、より多くのデータがモデルのトレーニングに使用できることを意味します。
- モデルで選択した、トレーニングの期間。一般的に、より長い期間にわたってモデルをトレーニングするのは、より多くのデータがモデルのトレーニングに使用できるのと同じことを意味します。
特定のモデルが実際の使用で高品質を達成できるかどうかを理解できるように、マシンラーニングの専門家は通常、相関関係にある複数の指標を組み合わせて使用します。評価しようとするモデルの種類に応じて、具体的な組み合わせは異なります。
Tealium Predictを使用すると、専門家以外のユーザーはモデルの作成、モデルの品質評価、合理化された方法での実際のアクションを実施できるほか、十分な透明性を確保してモデルを保持することができます。その後、予期される典型的な指標を専門家が確認できます。
以下のセクションでは、Tealium Predictで使用できる指標とレーティングについて説明します。これらは、モデルの品質について理解するのに役立ちます。F1 Score(F1スコア)、Confusion Matrix(混同行列)、ROC/AUC Curve(ROC/AUC曲線)、Probability Distribution(確率分布)など他のスコアリングレポートに関する包括的な説明については、モデルのスコアとレーティングを参照してください。
精度
Tealium Predictで言う精度とは、正しい予測の数を、予測の総数で割った値を意味します。ただし、マシンラーニングモデルの品質を決定するために、精度を単独で使用することはできません。
1つの例として、赤と緑、2種類の色のリンゴがあるとしましょう。そのうち99%のリンゴは緑だとします。この場合、単純に単一のリンゴがどれも緑であると予測する(予測として必ず緑を返すように設定する)と、モデルで簡単に99%の精度を達成することができます。99%の場合、その予測は正しいことが予期できるからです。このモデルの精度は99%ですが、どのリンゴが赤いのか予測する場合、適切な予測機能になりません(病気の検査で99%の受診者が陰性であると仮定して、受信者全員の予測を無条件で「陰性」に設定した場合、99%の場合は正確な予測になりますが、これでは検査や予測の意味がありません)。
モデルの強みのレーティング
モデルの強みのレーティングは、トレーニング済みモデルのバージョンの品質(強み)に対応するラベルを提示します。レーティングシステムには4種類のラベルがあります。これらは、傾向モデルの品質を評価するために使用される典型的な指標であるF1 Score(F1スコア)に基づくものです。
F1 Score(F1スコア)の値は、以下のスケールを使用してラベルを割り当てられます。
- Excellent(優秀) - F1スコアが0.80超過
- Good(良好) - F1スコアが0.60超過、0.80未満
- Fair(妥当) - F1スコアが0.50超過、0.60未満
- Poor(不適切) - F1 スコアが0.50以下
モデルの品質は絶対的な事実ではなく、相対的な判定です。目標、テスト能力、データセット品質の違いが原因で、チームごとに構成は異なります。このような理由で、モデルの強みのレーティングを絶対的な値と考えることは望ましくありません。ここで意図しているのは、品質に関する全般的なガイドライン(目安)としてレーティングを使用することです。
トレーニング済みバージョンに対応する強みのレーティング
強みのレーティングには2つの種類があります。各トレーニング済みバージョンに対応する静的レーティングと、各デプロイ済みモデルに対応する継続的な(動的)レーティングです。
各モデルの各トレーニング済みバージョンに対応する強みのレーティングは、トレーニングの品質(強み)に関するレーティング、およびそのトレーニングの結果として得られたモデルに関するレーティングを提示します。まだデプロイしていないモデルに対して、強みのスコアは割り当てられていません。
各再トレーニングは、新規かつ個別のイベントを表します。このような再トレーニングが原因で、この種の強みのレーティングは静的になり、バージョンごとに固有の値になります。各バージョンに対応するレーティングは、時間が経過しても変化しません。
[Training Details]パネルの[Model Explorer] ページ、および(最新のトレーニング済みバージョンに対応する)[overview]ページで、各バージョンの隣に強みのレーティングが表示されます。
デプロイ済みモデルに対応する強みのレーティング
すべてのマシンラーニングモデルの品質は、時間の経過とともに自然に低下します。実際の世界は継続的に変化しているからです、各モデルは最終的には停滞し、変化を続けている環境に関して高精度の予測を実行する能力が低下します。したがって、使用可能な最新のデータセットに基づくモデルが確実に確保できるように、各モデルを定期的に再トレーニングする必要があります。
ライブモデルパフォーマンススコア
デプロイ済みのライブパフォーマンススコアにより、モデルの継続的な品質を理解し、そのモデルの予測能力がいつ低下したのか把握することができます。時間の経過に伴って、そのような低下が発生することは避けられません。
Tealium Predict内で、デプロイ済みモデルに関するF1スコアは、使用可能な最新の時間枠を使用して、毎日自動的に再計算されます。この時間枠は、Prediction Timeframe(予測時間枠)の中で定義されています。この時間枠は、モデルの”in the next x days”(今後x日のうち)で指定した日数に等しい値です。毎日の再計算を開始できるようにするには、初期のPrediction Timeframe(予測時間枠)に合わせてモデルをデプロイする必要があります。その結果、true/falseの実際の結果は既知になり、計算で使用できるようになります。その後の毎日、計算の時間枠は1日ずつ後の期間へと移動されます(移動平均に似た概念)。