설치Weave의 사전 정의된 평가기(scorers)를 사용하려면 추가 종속성을 설치해야 합니다:LLM-evaluators2025년 2월 업데이트: LLM을 활용하는 사전 정의된 평가기는 이제 litellm과 자동으로 통합됩니다.
더 이상 LLM 클라이언트를 전달할 필요가 없으며, 다음만 설정하면 됩니다
이 평가기는 AI 시스템의 출력에 입력 데이터를 기반으로 한 환각(hallucinations)이 포함되어 있는지 확인합니다.Customization:
LLM을 사용하여 요약본을 원본 텍스트와 비교하고 요약의 품질을 평가합니다.작동 방식:이 평가기는 두 가지 방식으로 요약을 평가합니다:
이 작동 방식:
이 Note: You can use
이 다음은 평가 맥락에서의 예시입니다:
이 다음은 평가 맥락에서의 예시입니다:
이
RAGAS -
이 작동 방식:
RAGAS -
이 작동 방식:
model_id
.
지원되는 모델 확인 here.HallucinationFreeScorer
이 평가기는 AI 시스템의 출력에 입력 데이터를 기반으로 한 환각(hallucinations)이 포함되어 있는지 확인합니다.- 평가기의
system_prompt
및user_prompt
필드를 사용자 정의하여 귀하에게 “환각”이 무엇을 의미하는지 정의하세요.
- 이
score
메서드는context
라는 이름의 입력 열을 예상합니다. 데이터셋이 다른 이름을 사용하는 경우,column_map
속성을 사용하여context
을 데이터셋 열에 매핑하세요.
SummarizationScorer
LLM을 사용하여 요약본을 원본 텍스트와 비교하고 요약의 품질을 평가합니다.- 엔티티 밀도: 요약에서 언급된 고유 엔티티(이름, 장소 또는 사물과 같은)의 비율을 요약의 총 단어 수로 나누어 요약의 “정보 밀도”를 추정합니다. LLM을 사용하여 엔티티를 추출합니다. Chain of Density 논문에서 엔티티 밀도가 사용되는 방식과 유사합니다, https://arxiv.org/abs/2309.04269
- 품질 등급: LLM 평가자가 요약을
poor
,ok
, 또는excellent
로 등급을 매깁니다. 이러한 등급은 집계 성능 평가를 위해 점수(불량은 0.0, 양호는 0.5, 우수는 1.0)로 매핑됩니다.
- 평가 과정을 조정하려면
summarization_evaluation_system_prompt
및summarization_evaluation_prompt
를 조정하세요.
- 이 평가기는 내부적으로 litellm을 사용합니다.
- 이
score
메서드는 원본 텍스트(요약되는 텍스트)가input
열에 있을 것으로 예상합니다. 데이터셋이 다른 이름을 사용하는 경우column_map
를 사용하세요.
OpenAIModerationScorer
이 OpenAIModerationScorer
는 OpenAI의 Moderation API를 사용하여 AI 시스템의 출력에 혐오 발언이나 노골적인 자료와 같은 허용되지 않는 콘텐츠가 포함되어 있는지 확인합니다.- AI의 출력을 OpenAI Moderation 엔드포인트로 보내고 콘텐츠가 플래그 지정되었는지 여부를 나타내는 구조화된 응답을 반환합니다.
EmbeddingSimilarityScorer
이 EmbeddingSimilarityScorer
는 AI 시스템의 출력과 데이터셋의 대상 텍스트 간의 임베딩 코사인 유사도를 계산합니다. AI의 출력이 참조 텍스트와 얼마나 유사한지 측정하는 데 유용합니다.column_map
를 사용하여 target
열을 다른 이름에 매핑합니다.Parameters:threshold
(float): 두 텍스트가 유사하다고 간주하는 데 필요한 최소 코사인 유사도 점수(-1에서 1 사이)(기본값은0.5
).
ValidJSONScorer
이 ValidJSONScorer
는 AI 시스템의 출력이 유효한 JSON인지 확인합니다. 이 평가기는 출력이 JSON 형식이어야 하고 그 유효성을 확인해야 할 때 유용합니다.ValidXMLScorer
이 ValidXMLScorer
는 AI 시스템의 출력이 유효한 XML인지 확인합니다. XML 형식의 출력을 기대할 때 유용합니다.PydanticScorer
이 PydanticScorer
는 AI 시스템의 출력을 Pydantic 모델과 비교하여 지정된 스키마나 데이터 구조를 준수하는지 확인합니다.RAGAS - ContextEntityRecallScorer
이 ContextEntityRecallScorer
는 AI 시스템의 출력과 제공된 컨텍스트에서 엔티티를 추출한 다음 리콜 점수를 계산하여 컨텍스트 리콜을 추정합니다. 이는 RAGAS 평가 라이브러리를 기반으로 합니다.- LLM을 사용하여 출력과 컨텍스트에서 고유 엔티티를 추출하고 리콜을 계산합니다.
- Recall은 컨텍스트에서 중요한 엔티티 중 출력에 포함된 비율을 나타냅니다.
- 리콜 점수가 포함된 사전을 반환합니다.
- 데이터셋에
context
열이 있을 것으로 예상합니다. 열 이름이 다른 경우column_map
속성을 사용하세요.
RAGAS - ContextRelevancyScorer
이 ContextRelevancyScorer
는 제공된 컨텍스트가 AI 시스템의 출력과 얼마나 관련이 있는지 평가합니다. 이는 RAGAS 평가 라이브러리를 기반으로 합니다.- LLM을 사용하여 출력에 대한 컨텍스트의 관련성을 0에서 1까지의 척도로 평가합니다.
- 다음이 포함된 사전을 반환합니다
relevancy_score
.
- 데이터셋에
context
열이 있을 것으로 예상합니다. 다른 이름이 사용되는 경우column_map
를 사용하세요. - 관련성 평가 방법을 정의하려면
relevancy_prompt
를 사용자 정의하세요.
openai/gpt-4o
, openai/text-embedding-3-small
)을 사용하여 보정되었습니다. 다른 제공업체를 실험하고 싶다면 간단히 model_id
를 업데이트하면 됩니다. 예를 들어, Anthropic 모델을 사용하려면: