これはインタラクティブなノートブックです。ローカルで実行するか、以下のリンクを使用できます:
🔑 前提条件
Weave評価を実行する前に、以下の前提条件を完了してください。🐝 最初の評価を実行する
以下のコードサンプルは、WeaveのModel
とEvaluation
APIを使用してLLMを評価する方法を示しています。まず、weave.Model
をサブクラス化してWeaveモデルを定義し、モデル名とプロンプト形式を指定し、predict
メソッドを@weave.op
で追跡します。predict
メソッドはOpenAIにプロンプトを送信し、Pydanticスキーマ(FruitExtract
)を使用して応答を構造化された出力に解析します。次に、入力文と期待されるターゲットで構成される小さな評価データセットを作成します。次に、カスタムスコアリング関数(@weave.op
を使用して追跡)を定義し、モデルの出力をターゲットラベルと比較します。最後に、すべてをweave.Evaluation
でラップし、データセットとスコアラーを指定して、evaluate()
を呼び出して評価パイプラインを非同期で実行します。
🚀 さらに例を探していますか?
- evlauation pipeline end-to-endの構築方法を学びましょう。
- RAG application by buildingを評価する方法を学びましょう。