跳转到内容

常见问题

什么是 Argilla?

Argilla 是一个面向 AI 工程师和领域专家的协作工具,他们需要高质量的输出、完全的数据所有权和整体效率。它旨在帮助您实现并保持高质量的数据标准,存储您的训练数据,存储模型的结果,评估其性能,并通过人工和 AI 反馈改进数据。

Argilla 收费吗?

不。Argilla 是一个开源项目,可以免费使用。您可以将 Argilla 部署在 HF Spaces 或您自己的基础设施上。

Argilla 支持哪些数据类型?

文本和图像。但是,您可以使用自定义字段,这意味着您可以在 Argilla 中表示不同类型的数据。例如,您可以存储音频或视频,以及任何其他类型的数据,只要您可以将其转换为 base64 表示形式,或者例如在 IFrame 中将其呈现为 HTML。

Argilla 生成合成数据吗?

不。但是,我们为此提供了一个侧边库:distilabel,一个面向需要基于已验证的研究论文构建快速、可靠且可扩展的管道的工程师的合成数据和 AI 反馈框架。

Argilla 训练模型吗?

不。Argilla 是一个协作工具,旨在实现并保持高质量的数据标准。您可以使用 Argilla 存储您的训练数据、存储模型的结果、评估其性能并改进数据。对于训练模型,您可以使用您喜欢的任何机器学习框架或库,尽管我们建议从 Hugging Face Transformers 开始。

Argilla 提供标注工作团队吗?

是的,某种程度上是。我们不提供内部标注工作团队,但我们与工作团队提供商建立了合作伙伴关系,以确保符合道德规范的实践和安全的工作环境。请随时在此处安排会议或通过电子邮件联系我们。

Argilla 与 Lilac、Snorkel、Prodigy 和 Scale 等竞争对手有何不同?

Argilla 因其专注于特定用例和人机协作方法而脱颖而出。虽然它确实提供程序化功能,但 Argilla 的核心价值在于积极让人类专家参与到工具构建过程中,这使其与其他竞争对手区别开来。

此外,Argilla 特别强调与其他社区工具的顺畅集成,尤其是在 MLOps 和 NLP 领域。因此,它与 spaCy 和 Hugging Face 等流行框架的兼容性使其异常用户友好且易于访问。

最后,像 Snorkel、Prodigy 或 Scale 这样的平台虽然更全面,但通常需要大量的投入。另一方面,Argilla 更像是 MLOps 生态系统中的一个工具,允许用户从特定的用例开始,然后根据需要进行扩展。这种灵活性对于喜欢从小处着手并随着时间的推移扩展其应用程序的用户和客户尤其有利,而不是从一开始就投入到一个全方位的工具中。

Argilla 2.0 和 1.0 中的旧数据集之间有什么区别?

Argilla 1.0 依赖于 3 个主要任务数据集:DatasetForTextClassificationDatasetForTokenClassificationDatasetForText2Text。这些任务被设计为简单、易用且功能强大,但在适应性方面受到限制。随着大型语言模型 (LLM) 的引入以及 NLP 任务复杂性的增加,我们意识到我们需要扩展 Argilla 的功能以支持更高级的反馈机制,这导致了 FeedbackDataset 的引入。与其前身相比,它的适应性很高,但在功能方面仍然有限。在将旧任务的所有功能移植到新的 FeedbackDataset 之后,我们决定弃用旧任务,转而使用以 FeedbackDataset 为核心的全新 SDK。