欢迎来到 Argilla¶

Argilla 是一款供 AI 工程师和领域专家协作的工具，用于构建高质量数据集。

开始入门

5 分钟快速入门！

在 Hugging Face Hub 上或使用 Docker 免费部署 Argilla。使用 pip 安装 Python SDK 并创建您的第一个项目。

快速入门
操作指南

熟悉 Argilla 的基本工作流程。学习如何管理 Users、Workspaces、Datasets 和 Records 以设置您的数据标注项目。

了解更多

或者，通过您的 Hugging Face 帐户登录来体验 Argilla UI

正在查找 Argilla 1.x？

正在查找 Argilla 1.x 的文档？访问最新版本。

迁移到 Argilla 2.x

想要了解如何从 Argilla 1.x 迁移到 2.x？请查看我们的迁移指南。

为何使用 Argilla？¶

Argilla 可用于为各种 AI 项目收集人工反馈，例如传统 NLP（文本分类、NER 等）、LLM（RAG、偏好调整等）或多模态模型（文本到图像等）。

Argilla 的程序化方法使您可以构建用于持续评估和模型改进的工作流程。Argilla 的目标是确保您的数据工作获得回报，通过快速迭代正确的数据和模型。

通过数据质量提高您的 AI 输出质量

计算成本高昂，输出质量至关重要。我们帮助您专注于数据，这可以一次性解决这两个问题的根本原因。Argilla 帮助您为您的数据实现并保持高质量标准。这意味着您可以提高 AI 输出的质量。

掌控您的数据和模型

大多数 AI 工具都是黑盒。Argilla 与众不同。我们认为您应该成为您的数据和模型的所有者。这就是为什么我们为您提供您的团队所需的所有工具，以以最适合您的方式管理您的数据和模型。

通过快速迭代正确的数据和模型来提高效率

收集数据是一个耗时的过程。Argilla 通过提供一种工具来提供帮助，该工具允许您以更具吸引力的方式与您的数据互动。这意味着您可以使用过滤器、AI 反馈建议和语义搜索快速轻松地标记您的数据。因此，您可以专注于训练您的模型并监控其性能。

数据集和模型

Argilla 是一款可以用来保持高质量数据标准的工具，专注于 NLP 和 LLM。社区使用 Argilla 创建了令人惊叹的开源数据集和模型，并且我们也喜欢对开源做出贡献。

cleaned UltraFeedback 数据集以及Notus 和 Notux 模型，我们通过使用人工反馈的更干净的数据改进了 Mistral 和 Mixtral 模型的基准和经验人类判断。
distilabeled Intel Orca DPO 数据集和改进的 OpenHermes 模型，展示了我们如何通过人工和 AI 反馈过滤掉原始数据集的 50% 来提高模型性能。

项目和管道

来自红十字会、Loris.ai 和 Prolific 等公司的 AI 团队使用 Argilla 来提高 AI 项目的质量和效率。他们在AI 社区聚会中分享了他们的经验。

AI 促进公益：红十字会的演示展示了他们的专家和 AI 团队如何协作，通过对来自乌克兰危机难民的请求进行分类和重定向，以简化红十字会的支持流程。
客户支持：在Loris 聚会期间，他们展示了他们的 AI 团队如何使用无监督和小样本对比学习来帮助他们快速验证并为大量多标签分类器获得标记样本。
研究性研究：来自 Prolific 的展示宣布了他们与 Argilla 的集成。他们使用它来积极地在他们的标注人员中分发数据收集项目。这使他们能够快速且高效地为他们的研究性研究收集高质量数据。