Model
& Evaluation
클래스를 통해. 우리는 다양한 사용 사례를 지원할 수 있는 유연성을 제공하기 위해 최소한의 가정만을 하는 API를 구축했습니다.

1. Model
Model
s는 프롬프트, 온도 등과 같은 시스템에 대한 정보를 저장하고 버전을 관리합니다.
Weave는 이들이 사용될 때 자동으로 캡처하고 변경이 있을 때 버전을 업데이트합니다.
Model
s는 Model
를 상속받고 predict
함수 정의를 구현하여 선언됩니다. 이 함수는 하나의 예제를 받아 응답을 반환합니다.
Model
객체를 일반적으로 인스턴스화할 수 있습니다:
더 자세한 내용은 Models 가이드를 확인하세요.
2. 예제 수집하기
다음으로, 모델을 평가할 데이터셋이 필요합니다.Dataset
는 Weave 객체로 저장된 예제 모음입니다. Weave UI에서 데이터셋을 다운로드하고, 탐색하고, 평가를 실행할 수 있습니다.
여기서는 코드에서 예제 목록을 구축하지만, 실행 중인 애플리케이션에서 한 번에 하나씩 로깅할 수도 있습니다.
더 자세한 내용은 Datasets 가이드를 확인하세요.
3. 점수 함수 정의하기
Evaluation
s는 지정된 점수 함수 목록 또는 Model
s의 성능을 예제 세트에서 평가합니다 weave.scorer.Scorer
클래스를 사용하여.
자체 점수 함수를 만들려면 Scorers 가이드에서 자세히 알아보세요.일부 애플리케이션에서는 사용자 정의
Scorer
클래스를 만들고 싶을 수 있습니다 - 예를 들어 표준화된 LLMJudge
클래스가 특정 매개변수(예: 채팅 모델, 프롬프트), 각 행의 특정 점수 매기기, 집계 점수의 특정 계산으로 생성되어야 하는 경우입니다. 다음 장인 Scorer
클래스 정의에 관한 튜토리얼은 Model-Based Evaluation of RAG applications에서 자세한 정보를 확인하세요.4. 평가 실행하기
이제ExtractFruitsModel
를 fruits
데이터셋에서 점수 함수를 사용하여 평가할 준비가 되었습니다.
Python 스크립트에서 실행하는 경우
asyncio.run
를 사용해야 합니다. 그러나 Jupyter 노트북에서 실행하는 경우 await
를 직접 사용할 수 있습니다.5. 평가 결과 보기
Weave는 각 예측과 점수의 추적을 자동으로 캡처합니다. 평가에 의해 출력된 링크를 클릭하여 Weave UI에서 결과를 확인하세요.
다음 단계는?
다음 방법을 알아보세요:- 모델 성능 비교하기: 다양한 모델을 시도하고 결과 비교하기
- 내장 점수 함수 탐색하기: Weave의 내장 점수 함수를 Scorers guide
- RAG 앱 구축하기: RAG tutorial을 따라 검색 증강 생성 평가에 대해 알아보기
- 고급 평가 패턴: Model-Based Evaluation에 대해 알아보고 LLM을 심사관으로 사용하기