시작하기
시작하려면 스크립트 시작 부분에서 간단히weave.init(project=...)
를 호출하세요. project
인수를 사용하여 특정 W&B 팀 이름에 로깅하거나 team-name/project-name
또는 project-name
를 사용하여 기본 팀/엔티티에 로깅할 수 있습니다.
호출 메타데이터 추적
Verdict 파이프라인 호출에서 메타데이터를 추적하려면weave.attributes
컨텍스트 관리자를 사용할 수 있습니다. 이 컨텍스트 관리자를 사용하면 파이프라인 실행이나 평가 배치와 같은 특정 코드 블록에 대한 사용자 지정 메타데이터를 설정할 수 있습니다.
추적
AI 평가 파이프라인의 추적을 중앙 데이터베이스에 저장하는 것은 개발 및 프로덕션 단계에서 모두 중요합니다. 이러한 추적은 가치 있는 데이터셋을 제공하여 평가 워크플로우를 디버깅하고 개선하는 데 필수적입니다. Weave는 Verdict 애플리케이션에 대한 추적을 자동으로 캡처합니다. Verdict 라이브러리를 통해 이루어진 모든 호출을 추적하고 로깅하며, 다음을 포함합니다:- 파이프라인 실행 단계
- Judge 유닛 평가
- 레이어 변환
- 풀링 작업
- 사용자 정의 유닛 및 변환
파이프라인 추적 예제
다음은 Weave가 중첩된 파이프라인 작업을 추적하는 방법을 보여주는 더 복잡한 예제입니다:- 주요 Pipeline 실행
- Layer 내의 각 JudgeUnit 평가
- MeanPoolUnit 집계 단계
- 각 작업에 대한 타이밍 정보
구성
호출 시weave.init()
, Verdict 파이프라인에 대한 추적이 자동으로 활성화됩니다. 이 통합은 Pipeline.__init__
메서드를 패치하여 VerdictTracer
를 주입하여 모든 추적 데이터를 Weave로 전달합니다.
추가 구성이 필요하지 않습니다 - Weave는 자동으로 다음을 수행합니다:
- 모든 파이프라인 작업 캡처
- 실행 타이밍 추적
- 입력 및 출력 로깅
- 추적 계층 구조 유지
- 동시 파이프라인 실행 처리
사용자 정의 트레이서와 Weave
애플리케이션에서 사용자 정의 Verdict 트레이서를 사용하는 경우, Weave의VerdictTracer
는 함께 작동할 수 있습니다:
모델 및 평가
여러 파이프라인 구성 요소가 있는 AI 시스템을 구성하고 평가하는 것은 어려울 수 있습니다.weave.Model
를 사용하면 프롬프트, 파이프라인 구성, 평가 매개변수와 같은 실험 세부 정보를 캡처하고 구성하여 다양한 반복을 더 쉽게 비교할 수 있습니다.
다음 예제는 Verdict 파이프라인을 WeaveModel
로 래핑하는 방법을 보여줍니다:
평가
평가는 평가 파이프라인 자체의 성능을 측정하는 데 도움이 됩니다.weave.Evaluation
클래스를 사용하면 Verdict 파이프라인이 특정 작업이나 데이터셋에서 얼마나 잘 수행되는지 캡처할 수 있습니다: