- モデルのパフォーマンス低下の追跡
- 共有評価ワークフローの調整
リーダーボードの作成
リーダーボードはWeave UIまたはプログラムで作成できます。UI
Weave UIで直接リーダーボードを作成・カスタマイズするには:- Weave UIで、Leadersセクションに移動します。表示されていない場合は、More→Leadersをクリックします。
- &#xNAN;+ New Leaderboardをクリックします。
- Leaderboard Titleフィールドに、わかりやすい名前(例:
summarization-benchmark-v1
)を入力します。 - 必要に応じて、このリーダーボードが何を比較するのかを説明する説明文を追加します。
- 列を追加して、表示する評価とメトリクスを定義します。
- レイアウトに満足したら、リーダーボードを保存して公開し、他のユーザーと共有します。
列の追加
リーダーボードの各列は、特定の評価からのメトリクスを表します。列を設定するには、以下を指定します:- Evaluation:ドロップダウンから評価実行を選択します(事前に作成されている必要があります)。
- Scorer:その評価で使用されるスコアリング関数を選択します(例:
jaccard_similarity
、simple_accuracy
)。 - Metric:表示する要約メトリクスを選択します(例:
mean
、true_fraction
など)。
⋯
)をクリックします。以下の操作が可能です:
- Move before / after– 列の順序を変更
- Duplicate– 列の定義をコピー
- Delete– 列を削除
- Sort ascending– リーダーボードのデフォルトソートを設定(再度クリックすると降順に切り替わります)
Python
完全な実行可能なコードサンプルをお探しですか?エンドツーエンドのPython例をご覧ください。
-
テストデータセットを定義します。組み込みの
Dataset
を使用するか、入力とターゲットのリストを手動で定義できます: -
1つ以上のscorersを定義します:
-
Evaluation
を作成します: -
評価するモデルを定義します:
-
評価を実行します:
-
リーダーボードを作成します:
-
リーダーボードを公開します。
-
結果を取得します:
エンドツーエンドのPython例
以下の例では、Weave Evaluationsを使用して、共有データセット上で3つの要約モデルをカスタムメトリクスで比較するリーダーボードを作成します。小規模なベンチマークを作成し、各モデルを評価し、Jaccard similarityで各モデルをスコアリングし、結果をWeaveリーダーボードに公開します。リーダーボードの表示と解釈
スクリプトの実行が完了したら、リーダーボードを表示します:- Weave UIで、Leadersタブに移動します。表示されていない場合は、Moreをクリックし、Leadersを選択します。
- リーダーボードの名前をクリックします(例:
Summarization Model Comparison
)。
model_humanlike
、model_vanilla
、model_messy
)を表します。mean
列は、モデルの出力と参照要約間のJaccard類似度の平均を示しています。

model_humanlike
が最も良いパフォーマンスを示し、約46%の重複があります。model_vanilla
(単純な切り捨て)は約21%です。model_messy
意図的に悪いモデルで、約2%のスコアです。