Dataset
は、LLMアプリケーション評価のための例を整理、収集、追跡、バージョン管理して簡単に比較できるようにします。プログラムでもUIでもDataset
を作成して操作できます。
このページでは以下について説明します:
- PythonとTypeScriptでの基本的な
Dataset
操作と始め方 - PythonとTypeScriptで
Dataset
を作成する方法(Weave calls - UIで
Dataset
で利用可能な操作
Dataset
クイックスタート
以下のコードサンプルは、PythonとTypeScriptを使用して基本的なDataset
操作を実行する方法を示しています。SDKを使用して、以下のことができます:
- を作成する
Dataset
- を公開する
Dataset
- を取得する
Dataset
- 内の特定の例にアクセスする
Dataset
他のオブジェクトからDataset
を作成する
Pythonでは、次に、
Dataset
は、Weave callsなどの一般的なWeaveオブジェクトや、pandas.DataFrame
などのPythonオブジェクトからも構築できます。この機能は、特定の例から例のDataset
を作成したい場合に便利です。Weave call
1つまたは複数のWeave callからDataset
を作成するには、コールオブジェクトを取得し、from_calls
メソッドのリストに追加します。Pandas DataFrame
PandasDataset
オブジェクトからDataFrame
を作成するには、from_pandas
メソッドを使用します。を元に戻すには、Dataset
を使用しますto_pandas
。Hugging Face Datasets
Hugging FaceDataset
またはdatasets.Dataset
オブジェクトからdatasets.DatasetDict
を作成するには、まず必要な依存関係がインストールされていることを確認してください:from_hf
メソッドを使用します。複数の分割(「train」、「test」、「validation」など)を持つDatasetDict
を提供すると、Weaveは自動的に「train」分割を使用し、警告を発します。「train」分割が存在しない場合は、エラーが発生します。特定の分割を直接提供することもできます(例:hf_dataset_dict['test']
)。を Hugging Face weave.Dataset
に戻すには、Dataset
メソッドを使用しますto_hf
。UIでDataset
を作成、編集、削除する
UIでDataset
を作成、編集、削除できます。
新しいDataset
- 編集したいWeaveプロジェクトに移動します。
- サイドバーでTracesを選択します。
-
新しい
Dataset
を作成したい1つまたは複数のコールを選択します。 - 右上のメニューで、Add selected rows to a datasetアイコン(ゴミ箱アイコンの隣にあります)をクリックします。
- 表示されるChoose a datasetドロップダウンから、Create newを選択します。Dataset nameフィールドが表示されます。
- Dataset nameフィールドに、データセットの名前を入力します。Configure dataset fieldsのオプションが表示されます。 :::important データセット名は文字または数字で始まり、文字、数字、ハイフン、アンダースコアのみを含むことができます。 :::
-
(任意)Configure dataset fieldsで、データセットに含めるコールからのフィールドを選択します。
- 選択した各フィールドの列名をカスタマイズできます。
- 新しい
Dataset
に含めるフィールドのサブセットを選択したり、すべてのフィールドの選択を解除したりできます。
-
データセットフィールドの設定が完了したら、Nextをクリックします。新しい
Dataset
のプレビューが表示されます。 - (任意)Dataset内の編集可能なフィールドをクリックして、エントリを編集します。
- Create datasetをクリックします。新しいデータセットが作成されます。
-
確認ポップアップで、View the datasetをクリックして、新しい
Dataset
を表示します。または、Datasetsタブに移動します。
編集するDataset
-
編集したい
Dataset
を含むWeaveプロジェクトに移動します。 -
サイドバーからDatasetsを選択します。利用可能な
Dataset
が表示されます。 -
Object列で、編集したい
Dataset
の名前とバージョンをクリックします。Dataset
の名前、バージョン、作成者、Dataset
行などの情報を表示するポップアウトモーダルが表示されます。 -
モーダルの右上隅にあるEdit datasetボタン(鉛筆アイコン)をクリックします。+ Add rowボタンがモーダルの下部に表示されます。
-
&#xNAN;+ Add rowをクリックします。既存の
Dataset
行の上部に緑色の行が表示され、Dataset
に新しい行を追加できることを示します。 -
新しい行にデータを追加するには、その行内の目的の列をクリックします。デフォルトのid列は
Dataset
行では編集できません。Weaveが作成時に自動的に割り当てるためです。Text、Code、およびDiffのフォーマットオプションを含む編集モーダルが表示されます。 -
新しい行でデータを追加したい各列に対してステップ6を繰り返します。
-
Dataset
に追加したい各行に対してステップ5を繰り返します。 -
編集が完了したら、モーダルの右上隅にある
Dataset
をPublishをクリックして公開します。または、変更を公開したくない場合はCancelをクリックします。公開すると、更新された行を含む新しいバージョンの
Dataset
がUIで利用可能になります。
削除するDataset
-
編集したい
Dataset
を含むWeaveプロジェクトに移動します。 -
サイドバーからDatasetsを選択します。利用可能な
Dataset
が表示されます。 -
Object列で、削除したい
Dataset
の名前とバージョンをクリックします。Dataset
の名前、バージョン、作成者、Dataset
行などの情報を表示するポップアウトモーダルが表示されます。 -
モーダルの右上隅にあるゴミ箱アイコンをクリックします。
Dataset
の削除を確認するポップアップモーダルが表示されます。 -
ポップアップモーダルで、赤いDeleteボタンをクリックして
Dataset
を削除します。または、CancelをクリックしてDataset
を削除しないようにします。 これでDataset
は削除され、WeaveダッシュボードのDatasetsタブに表示されなくなります。
新しい例を追加するDataset
- 編集したいWeaveプロジェクトに移動します。
- サイドバーでTracesを選択します。
-
新しい例を作成したい
Datasets
を持つ1つ以上のコールを選択します。 - 右上のメニューで、Add selected rows to a datasetアイコン(ゴミ箱アイコンの隣にあります)をクリックします。オプションで、Show latest versionsをオフに切り替えて、利用可能なすべてのデータセットのすべてのバージョンを表示します。
-
Choose a datasetドロップダウンから、例を追加したい
Dataset
を選択します。Configure field mappingのオプションが表示されます。 - (任意)Configure field mappingで、コールからのフィールドと対応するデータセット列のマッピングを調整できます。
-
フィールドマッピングの設定が完了したら、Nextをクリックします。新しい
Dataset
のプレビューが表示されます。 - 空の行(緑色)に、新しい例の値を追加します。idフィールドは編集できず、Weaveによって自動的に作成されることに注意してください。
- Add to datasetをクリックします。または、Configure field mapping画面に戻るには、Backをクリックします。
-
確認ポップアップで、View the datasetをクリックして変更を確認します。または、Datasets タブをクリックして、あなたの
Dataset
.