跳到内容

快速入门

Argilla 是一个免费、开源、自托管的工具。这意味着您需要部署其 UI 才能开始使用它。部署 Argilla 主要有两种方式

在 Hugging Face Hub 上部署

入门的推荐选择。您可以在 5 分钟内启动并运行,无需维护服务器或运行任何命令。

如果您刚开始使用 Argilla,请单击下面的部署按钮

您可以按照以下步骤使用默认值

  • 保留默认的 Space 所有者(您的个人帐户)
  • USERNAMEPASSWORD 密钥留空,因为您将使用您的 HF 用户作为 Argilla Space owner 登录。
  • 单击创建 Space 以启动 Argilla 🚀。
  • 看到 Argilla UI 后,转到登录 Argilla UI 部分。如果您看到 Building 消息的时间超过 2-3 分钟,请刷新页面。

如果您想使用 Python SDK 部署 Argilla,请按照以下步骤操作

首先,安装 Argilla

pip install argilla

接下来,我们可以使用 Argilla.deploy_on_spaces 方法,该方法将在 Hugging Face Hub 中创建一个 Space。此方法将自动执行以下操作

  • 在 Hugging Face Hub 上部署 Argilla Space,使用 OAuth 登录 和类似 https://<your-username>-argilla.hf.space 的 URL,这大约需要 2-3 分钟。
  • 创建一个名为 argilla 的默认工作区,所有者为 <your-username>,Argilla 令牌设置为 api_key
  • 自动返回经过身份验证的 Argilla 客户端,该客户端可以直接用于与您的 Argilla 服务器交互。
import argilla as rg

authenticated_client = rg.Argilla.deploy_on_spaces(api_key="<api_key>")

Argilla API 密钥

您的 Argilla API 密钥可以在 Argilla Space 的 My Settings 页面中找到。查看登录 UI 部分,了解如何检索它。

持久存储 SMALL

不将持久存储设置为 SMALL 意味着当 Space 重新启动时,您将丢失数据。Space 会因维护、不活动以及每次您更改 Space 设置时重新启动。如果您想仅用于测试目的使用 Space,您可以暂时使用 FREE

如果您想在 Hugging Face 组织内部署 Argilla,设置更稳定的 Space,或了解设置,请查看 HF Spaces 设置指南

使用 Docker 部署

如果您想在您的机器或服务器上本地运行 Argilla,或调整服务器配置,请选择此选项。要使用此选项,请查看本指南

登录 Argilla UI

如果一切顺利,您应该看到如下所示的 Argilla 登录页面

Focus view

构建错误

如果您遇到构建错误,有时从“设置”页面重新启动 Space 会有效,否则请查看 HF Spaces 设置指南

在登录页面中

  1. 单击使用 Hugging Face 登录

  2. 授权应用程序,您将以 owner 身份登录 Argilla。

未授权错误

有时,在授权后,您会看到未授权错误,并被重定向到登录页面。通常,再次单击“登录”按钮将解决此问题。

恭喜!您的 Argilla 服务器已准备好开始您的第一个项目。

创建您的第一个数据集

开始探索该工具并创建您的第一个数据集的最快方法是从 Hugging Face Hub 导入一个现有的数据集。

为此,请登录 Argilla UI,然后在主页中单击“从 Hugging Face 导入数据集”。您可以选择一个示例数据集或在输入中粘贴一个 repo id。这看起来像 stanfordnlp/imdb

Argilla 将自动解释数据集中的列,以将其映射到字段和问题。

字段包括您希望获得反馈的数据,例如文本、聊天或图像。如果您想排除 Argilla 为您识别的任何字段,只需选择“无映射”选项。

问题是您想要收集的反馈,例如标签、评分、排名或文本。如果 Argilla 在您的数据集中识别出您不需要的问题,您可以删除它们。您还可以添加自己的问题。

Screenshot of the dataset configuration page

请注意,在从“数据集设置”页面创建数据集后,您将能够修改数据集配置的某些元素,例如字段和问题的标题。查看您可以在 更新数据集 部分修改的所有设置。

当您对结果感到满意时,您需要为数据集命名,选择一个工作区并选择一个拆分(如果适用)。然后,Argilla 将开始在后台导入数据集。现在您已完成所有设置,可以开始标注了!

导入长数据集

Argilla 将仅导入数据集的前 1 万行。如果您的数据集更大,您可以随时使用 Python SDK 导入其余记录。

为此,请打开您的数据集并复制“导入数据”下提供的代码片段。现在,打开 Jupyter 或 Google Colab 笔记本并安装 argilla

!pip install argilla
然后,粘贴并运行您的代码片段。这会将剩余的记录导入到您的数据集。

安装并连接 Python SDK

为了开始使用 Argilla 及其 SDK,我们建议使用 Jupyter Notebook 或 Google Colab。您将需要它来管理 Argilla 中的用户、工作区和数据集。

在您的笔记本中,您可以使用 pip 安装 Argilla SDK,如下所示

!pip install argilla

要开始与您的 Argilla 服务器交互,您需要使用 API 密钥和 API URL 实例化一个客户端

  • <api_key> 在您的 Argilla Space 的 My Settings 页面中,但请确保您使用用于创建 Space 的 owner 帐户登录。

  • <api_url> 是您的浏览器中显示的 URL,如果它以 *.hf.space 结尾。

import argilla as rg

client = rg.Argilla(
    api_url="<api_url>",
    api_key="<api_key>"
)

您找不到您的 API URL

如果您使用 Spaces,有时 Argilla UI 会嵌入到 Hub UI 中,因此浏览器的 URL 将与 API URL 不匹配。在这些情况下,您有几个选择

  1. 在 Argilla 的主页中,单击“从 SDK 导入”。您将在提供的代码片段中找到您的 API URL 和密钥。
  2. 单击 Space 顶部的三个点菜单,选择“嵌入此 Space”,然后打开直接 URL。
  3. 使用此模式:https://[您的所有者名称]-[您的 Space 名称].hf.space

要检查一切是否运行正常,您可以调用 me。这应该返回您的用户信息

client.me

从这里,您可以管理您在 Argilla 中的所有资产,包括更新我们之前创建的数据集并添加高级信息,例如向量、元数据或建议。要了解如何执行此操作,请查看我们的操作指南

将您的数据集导出到 Hub

在 Argilla 中花费一些时间标注您的数据集后,您可以将其上传回 Hugging Face Hub 以与他人共享或进行版本控制。

为此,首先按照上一节中的步骤使用 SDK 连接到您的 Argilla 服务器。然后,您可以加载您的数据集并将其导出到 Hub,如下所示

dataset = client.datasets(name="my_dataset")

dataset.to_hub(repo_id="<my_org>/<my_dataset>")

有关将数据集导出到 Hub 的更多信息,请阅读我们的关于导出数据集的指南。

下一步