ローカルモデル

多くの開発者は、LLama-3、Mixtral、Gemma、Phiなどのオープンソースモデルをダウンロードしてローカルで実行しています。これらのモデルをローカルで実行する方法はいくつかありますが、WeaveはそれらがOpenAI SDKの互換性をサポートしている限り、いくつかの方法をすぐに使えるようにサポートしています。

ローカルモデル関数を@weave.op()

Weaveを任意のLLMと簡単に統合するには、weave.init('<your-project-name>')でWeaveを初期化し、LLMへの呼び出しをweave.op()でラップするだけです。詳細については、tracingに関するガイドをご覧ください。

ローカルモデルを使用するためにOpenAI SDKコードを更新する

OpenAI SDK互換性をサポートするすべてのフレームワークやサービスには、いくつかの小さな変更が必要です。 最も重要なのは、base_urlの初期化中のopenai.OpenAI()変更です。
client = openai.OpenAI(
    base_url="http://localhost:1234",
)
ローカルモデルの場合、api_keyは任意の文字列でかまいませんが、上書きする必要があります。そうしないと、OpenAIは環境変数からそれを使用しようとしてエラーを表示します。

OpenAI SDKがサポートするローカルモデルランナー

以下は、Hugging Faceからモデルをダウンロードしてコンピュータで実行できるアプリのリストで、OpenAI SDK互換性をサポートしています。
  1. Nomic GPT4All - 設定のローカルサーバーによるサポート(FAQ
  2. LMStudio - ローカルサーバーOpenAI SDKサポート docs
  3. Ollama - Experimental Support for OpenAI SDK
  4. llama.cpp via llama-cpp-python pythonパッケージ
  5. llamafile - http://localhost:8080/v1 Llamafile実行時に自動的にOpenAI SDKをサポート