이것은 대화형 노트북입니다. 로컬에서 실행하거나 아래 링크를 사용할 수 있습니다:
🔑 전제 조건
Weave 평가를 실행하기 전에 다음 전제 조건을 완료하세요.🐝 첫 번째 평가 실행하기
다음 코드 샘플은 Weave의Model
및 Evaluation
API를 사용하여 LLM을 평가하는 방법을 보여줍니다. 먼저, weave.Model
를 상속받아 Weave 모델을 정의하고, 모델 이름과 프롬프트 형식을 지정하며, predict
메서드를 @weave.op
로 추적합니다. predict
메서드는 OpenAI에 프롬프트를 보내고 Pydantic 스키마(FruitExtract
)를 사용하여 응답을 구조화된 출력으로 파싱합니다. 그런 다음, 입력 문장과 예상 대상으로 구성된 작은 평가 데이터셋을 만듭니다. 다음으로, 모델의 출력을 대상 레이블과 비교하는 사용자 정의 점수 함수(역시 @weave.op
를 사용하여 추적)를 정의합니다. 마지막으로, 모든 것을 weave.Evaluation
로 감싸고 데이터셋과 점수 매기기를 지정한 다음 evaluate()
를 호출하여 평가 파이프라인을 비동기적으로 실행합니다.
🚀 더 많은 예제를 찾고 계신가요?
- evlauation pipeline end-to-end를 구축하는 방법을 알아보세요.
- RAG application by building를 평가하는 방법을 알아보세요.