快速入门¶
Argilla 是一个免费、开源、自托管的工具。这意味着您需要部署其 UI 才能开始使用它。部署 Argilla 主要有两种方式
在 Hugging Face Hub 上部署
入门的推荐选择。您可以在 5 分钟内启动并运行,无需维护服务器或运行任何命令。
如果您刚开始使用 Argilla,请单击下面的部署按钮
您可以按照以下步骤使用默认值
- 保留默认的 Space 所有者(您的个人帐户)
- 将
USERNAME
和PASSWORD
密钥留空,因为您将使用您的 HF 用户作为 Argilla Spaceowner
登录。 - 单击创建 Space 以启动 Argilla 🚀。
- 看到 Argilla UI 后,转到登录 Argilla UI 部分。如果您看到
Building
消息的时间超过 2-3 分钟,请刷新页面。
如果您想使用 Python SDK 部署 Argilla,请按照以下步骤操作
首先,安装 Argilla
接下来,我们可以使用 Argilla.deploy_on_spaces
方法,该方法将在 Hugging Face Hub 中创建一个 Space。此方法将自动执行以下操作
- 在 Hugging Face Hub 上部署 Argilla Space,使用 OAuth 登录 和类似
https://<your-username>-argilla.hf.space
的 URL,这大约需要 2-3 分钟。 - 创建一个名为
argilla
的默认工作区,所有者为<your-username>
,Argilla 令牌设置为api_key
。 - 自动返回经过身份验证的 Argilla 客户端,该客户端可以直接用于与您的 Argilla 服务器交互。
Argilla API 密钥
您的 Argilla API 密钥可以在 Argilla Space 的 My Settings
页面中找到。查看登录 UI 部分,了解如何检索它。
持久存储 SMALL
不将持久存储设置为 SMALL
意味着当 Space 重新启动时,您将丢失数据。Space 会因维护、不活动以及每次您更改 Space 设置时重新启动。如果您想仅用于测试目的使用 Space,您可以暂时使用 FREE
。
如果您想在 Hugging Face 组织内部署 Argilla,设置更稳定的 Space,或了解设置,请查看 HF Spaces 设置指南。
使用 Docker 部署
如果您想在您的机器或服务器上本地运行 Argilla,或调整服务器配置,请选择此选项。要使用此选项,请查看本指南。
登录 Argilla UI¶
如果一切顺利,您应该看到如下所示的 Argilla 登录页面
构建错误
如果您遇到构建错误,有时从“设置”页面重新启动 Space 会有效,否则请查看 HF Spaces 设置指南。
在登录页面中
-
单击使用 Hugging Face 登录。
-
授权应用程序,您将以
owner
身份登录 Argilla。
未授权错误
有时,在授权后,您会看到未授权错误,并被重定向到登录页面。通常,再次单击“登录”按钮将解决此问题。
恭喜!您的 Argilla 服务器已准备好开始您的第一个项目。
创建您的第一个数据集¶
开始探索该工具并创建您的第一个数据集的最快方法是从 Hugging Face Hub 导入一个现有的数据集。
为此,请登录 Argilla UI,然后在主页中单击“从 Hugging Face 导入数据集”。您可以选择一个示例数据集或在输入中粘贴一个 repo id。这看起来像 stanfordnlp/imdb
。
Argilla 将自动解释数据集中的列,以将其映射到字段和问题。
字段包括您希望获得反馈的数据,例如文本、聊天或图像。如果您想排除 Argilla 为您识别的任何字段,只需选择“无映射”选项。
问题是您想要收集的反馈,例如标签、评分、排名或文本。如果 Argilla 在您的数据集中识别出您不需要的问题,您可以删除它们。您还可以添加自己的问题。
请注意,在从“数据集设置”页面创建数据集后,您将能够修改数据集配置的某些元素,例如字段和问题的标题。查看您可以在 更新数据集 部分修改的所有设置。
当您对结果感到满意时,您需要为数据集命名,选择一个工作区并选择一个拆分(如果适用)。然后,Argilla 将开始在后台导入数据集。现在您已完成所有设置,可以开始标注了!
导入长数据集
Argilla 将仅导入数据集的前 1 万行。如果您的数据集更大,您可以随时使用 Python SDK 导入其余记录。
为此,请打开您的数据集并复制“导入数据”下提供的代码片段。现在,打开 Jupyter 或 Google Colab 笔记本并安装 argilla
然后,粘贴并运行您的代码片段。这会将剩余的记录导入到您的数据集。安装并连接 Python SDK¶
为了开始使用 Argilla 及其 SDK,我们建议使用 Jupyter Notebook 或 Google Colab。您将需要它来管理 Argilla 中的用户、工作区和数据集。
在您的笔记本中,您可以使用 pip 安装 Argilla SDK,如下所示
要开始与您的 Argilla 服务器交互,您需要使用 API 密钥和 API URL 实例化一个客户端
-
<api_key>
在您的 Argilla Space 的My Settings
页面中,但请确保您使用用于创建 Space 的owner
帐户登录。 -
<api_url>
是您的浏览器中显示的 URL,如果它以*.hf.space
结尾。
您找不到您的 API URL
如果您使用 Spaces,有时 Argilla UI 会嵌入到 Hub UI 中,因此浏览器的 URL 将与 API URL 不匹配。在这些情况下,您有几个选择
- 在 Argilla 的主页中,单击“从 SDK 导入”。您将在提供的代码片段中找到您的 API URL 和密钥。
- 单击 Space 顶部的三个点菜单,选择“嵌入此 Space”,然后打开直接 URL。
- 使用此模式:
https://[您的所有者名称]-[您的 Space 名称].hf.space
。
要检查一切是否运行正常,您可以调用 me
。这应该返回您的用户信息
从这里,您可以管理您在 Argilla 中的所有资产,包括更新我们之前创建的数据集并添加高级信息,例如向量、元数据或建议。要了解如何执行此操作,请查看我们的操作指南。
将您的数据集导出到 Hub¶
在 Argilla 中花费一些时间标注您的数据集后,您可以将其上传回 Hugging Face Hub 以与他人共享或进行版本控制。
为此,首先按照上一节中的步骤使用 SDK 连接到您的 Argilla 服务器。然后,您可以加载您的数据集并将其导出到 Hub,如下所示
有关将数据集导出到 Hub 的更多信息,请阅读我们的关于导出数据集的指南。
下一步¶
-
要了解如何创建自己的数据集、工作区和管理用户,请查看操作指南。
-
要通过动手示例学习 Argilla,请查看教程部分。
-
要进一步配置您的 Argilla Space,请查看Hugging Face Spaces 设置指南。