Documentation Index
Fetch the complete documentation index at: https://wb-21fd5541-feature-automate-reference-docs-generation.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
- Python
- TypeScript
インストールWeaveの事前定義されたスコアラーを使用するには、追加の依存関係をインストールする必要があります:LLM-evaluators
2025年2月更新:LLMを活用する事前定義されたスコアラーは、現在litellmと自動的に統合されています。
LLMクライアントを渡す必要はなくなりました。単に設定するだけです
このスコアラーは、AIシステムの出力に入力データに基づいた幻覚(ハルシネーション)が含まれているかどうかをチェックします。Customization:
LLMを使用して要約を元のテキストと比較し、要約の品質を評価します。仕組み:このスコアラーは要約を2つの方法で評価します:
この 仕組み:
この Note: You can use
この 評価の文脈での例を以下に示します:
この 評価の文脈での例を以下に示します:
この
RAGAS -
この 仕組み:
RAGAS -
この 仕組み:
model_id.
サポートされているモデルを確認する here.HallucinationFreeScorer
このスコアラーは、AIシステムの出力に入力データに基づいた幻覚(ハルシネーション)が含まれているかどうかをチェックします。- スコアラーの
system_promptとuser_promptフィールドをカスタマイズして、あなたにとっての「幻覚」の定義を設定します。
- この
scoreメソッドはcontextという名前の入力列を想定しています。データセットが異なる名前を使用している場合は、column_map属性を使用してcontextをデータセット列にマッピングします。
SummarizationScorer
LLMを使用して要約を元のテキストと比較し、要約の品質を評価します。- エンティティ密度: 要約で言及されているユニークなエンティティ(名前、場所、物など)の比率を要約の総単語数に対して確認し、要約の「情報密度」を推定します。LLMを使用してエンティティを抽出します。Chain of Density論文で使用されているエンティティ密度と同様の方法です。https://arxiv.org/abs/2309.04269
- 品質評価: LLM評価者が要約を
poor,ok, またはexcellentとして評価します。これらの評価はスコアにマッピングされます(poorは0.0、okは0.5、excellentは1.0)。これにより総合的なパフォーマンス評価が行われます。
- 評価プロセスを調整するには
summarization_evaluation_system_promptとsummarization_evaluation_promptを調整します。
- このスコアラーは内部でlitellmを使用します。
- この
scoreメソッドは、元のテキスト(要約されるテキスト)がinput列に存在することを想定しています。データセットが異なる名前を使用している場合はcolumn_mapを使用してください。
OpenAIModerationScorer
この OpenAIModerationScorer はOpenAIのModeration APIを使用して、AIシステムの出力に憎悪表現や露骨な内容などの禁止されたコンテンツが含まれているかどうかをチェックします。- AIの出力をOpenAI Moderationエンドポイントに送信し、コンテンツがフラグ付けされているかどうかを示す構造化された応答を返します。
EmbeddingSimilarityScorer
この EmbeddingSimilarityScorer はAIシステムの出力とデータセットのターゲットテキストの埋め込み間のコサイン類似度を計算します。AIの出力が参照テキストにどれだけ似ているかを測定するのに役立ちます。column_map を使用して target 列を別の名前にマッピングします。Parameters:threshold(float): 2つのテキストが類似していると見なすために必要な最小コサイン類似度スコア(-1から1の間)(デフォルトは0.5)。
ValidJSONScorer
この ValidJSONScorer はAIシステムの出力が有効なJSONかどうかをチェックします。このスコアラーは、出力がJSON形式であることを期待し、その有効性を検証する必要がある場合に役立ちます。ValidXMLScorer
この ValidXMLScorer はAIシステムの出力が有効なXMLかどうかをチェックします。XML形式の出力を期待する場合に役立ちます。PydanticScorer
この PydanticScorer はAIシステムの出力をPydanticモデルに対して検証し、指定されたスキーマやデータ構造に準拠していることを確認します。RAGAS - ContextEntityRecallScorer
この ContextEntityRecallScorer はAIシステムの出力と提供されたコンテキストの両方からエンティティを抽出し、リコールスコアを計算することでコンテキストリコールを推定します。これは RAGAS 評価ライブラリに基づいています。- LLMを使用して出力とコンテキストから一意のエンティティを抽出し、リコールを計算します。
- Recall はコンテキストから重要なエンティティが出力にどれだけ含まれているかの割合を示します。
- リコールスコアを含む辞書を返します。
- データセットに
context列があることを想定しています。列名が異なる場合はcolumn_map属性を使用してください。
RAGAS - ContextRelevancyScorer
この ContextRelevancyScorer は提供されたコンテキストがAIシステムの出力に対してどれだけ関連性があるかを評価します。これは RAGAS 評価ライブラリに基づいています。- LLMを使用して、コンテキストと出力の関連性を0から1のスケールで評価します。
- 辞書を返し、その中に
relevancy_score.
- データセットに
context列があることを想定しています。異なる名前が使用されている場合はcolumn_mapを使用してください。 - 関連性の評価方法を定義するには
relevancy_promptをカスタマイズしてください。
openai/gpt-4o, openai/text-embedding-3-small)を使用して調整されています。他のプロバイダーを試したい場合は、単に model_id を更新するだけです。例えば、Anthropicモデルを使用するには: