跳到内容

标注您的数据集

要亲身体验 UI 功能,您可以查看演示 ↗

Argilla UI 提供了许多功能来帮助您管理标注工作流程,旨在提供最灵活的方法来适应社区处理的各种用例。

标注界面概述

灵活的布局

UI overview

UI 是响应式的,对于较大的设备使用两列布局,对于较小的设备使用一列布局。这使您可以使用手机为简单的数据集(即,不是很长的文本和 1-2 个问题)标注数据,或调整屏幕大小以获得更紧凑的 UI。

在导航路径的右侧,您可以自定义数据集设置并编辑您的个人资料。

此区域在顶部显示控制面板。控制面板用于执行基于关键字的搜索、应用过滤器和对结果进行排序。

在控制面板下方,记录卡逐个显示(焦点视图)或以垂直列表显示(批量视图)。

这是您标注数据集的地方。只需像填写表格一样填写它,然后选择提交保存为草稿放弃

此可展开区域显示标注指南。标注指南可以由数据集设置中的所有者和管理员角色编辑。

此可展开区域显示您的标注进度。

快捷键

Argilla UI 包含一系列快捷键。对于主要操作(提交、放弃、保存为草稿和选择标签),按键显示在相应的按钮中。

要了解如何使用键盘在一个问题与另一个问题之间或记录之间移动,请查看下表。

快捷键提供了更流畅的标注体验,尤其是在使用单个问题的数据集(标签、多标签、评分或排名)时。

可用的快捷键
操作 按键
激活表单 ⇥ Tab
在问题之间移动 ↓ 向下箭头 或 ↑ 向上箭头
选择和取消选择标签 1, 2, 3
在标签或排名选项之间移动 ⇥ Tab 或 ⇧ Shift ⇥ Tab
选择评分和排名 1, 2, 3
使跨度适合字符选择 按住 ⇧ Shift
激活文本区域 ⇧ Shift ↵ Enter
退出文本区域 Esc
放弃 ⌫ 退格键
保存草稿 (Mac os) ⌘ Cmd S
保存草稿 (其他) Ctrl S
提交 ↵ Enter
在页面之间移动 → 向右箭头 或 ← 向左箭头

按状态查看

视图选择器默认设置为“待处理”。

如果您正在开始标注工作,则所有记录最初都保存在“待处理”视图中。一旦您开始标注,记录将移动到其他队列:“草稿”、“已提交”、“已放弃”。

  • 待处理:没有响应的记录。
  • 草稿:具有部分响应的记录。它们可以稍后提交或放弃。您无法将它们移回“待处理”队列。
  • 已放弃:记录可能有也可能没有响应。它们可以编辑,但您无法将它们移回“待处理”队列。
  • 已提交:记录已完全标注并已提交。您可以将它们从此队列中移除并发送到“草稿”或“已放弃”队列,但永远不会返回到“待处理”队列。

注意

如果您是团队的一员,则您的“待处理”队列中的记录数量可能会随着团队的其他成员提交响应并且这些记录完成而发生变化。

提示

如果您是团队的一员,则草稿队列中已由其他团队成员完成的记录将显示一个复选标记,以指示无需提供响应。

建议

如果您的数据集包含模型预测,您将在标签或值按钮中看到它们用闪烁图标表示。我们称它们为“建议”,它们以预填充响应的形式出现在表单中。如果数据集管理员已包含置信度分数,则它们将与标签一起显示。此外,管理员可以选择始终在列表开头显示建议的标签。这可以在数据集设置中配置。

如果您同意这些建议,您只需单击提交按钮,它们将被视为您的响应。如果建议不正确,您可以修改它并提交您的最终响应。

焦点视图

Focus view

这是线性标注数据集的默认视图,一个接一个地显示记录。

提示

如果您有大量必填问题或需要强烈关注要标注的记录内容,则应使用此视图。这也是标注数据集样本的推荐视图,以避免因使用过滤器、搜索、排序和批量标注而引入潜在偏差。

一旦您提交您的第一个响应,下一个记录将自动出现。要再次查看您提交的响应,只需单击上一个

浏览记录

要浏览记录,您可以使用记录卡顶部的上一个(显示为<)和下一个>)按钮。

每次页面完全刷新时,状态已修改的记录(从“待处理”到“已放弃”、“待处理”到“保存为草稿”、“待处理”到“已提交”)都会发送到相应的队列。控制面板显示状态选择器,默认设置为“待处理”。

批量视图

Bulk view

批量视图旨在加快标注速度并快速概览整个数据集。

批量视图以垂直列表显示记录。一旦此视图处于活动状态,控制面板中的某些功能将被激活以优化视图。您可以定义每页显示的记录数,范围为102550100,以及记录是否以固定高度(折叠记录)或其自然高度(展开记录)显示。

提示

您应该使用此视图来快速浏览数据集。如果您对领域有很好的了解,并且想根据相似性和关键字搜索、过滤器和建议分数阈值等内容应用您的知识,也建议使用此视图。对于具有大量必填问题或非常长字段的数据集,焦点视图可能更合适。

对于多个问题,请考虑使用批量视图大规模标注一个问题。然后,您可以从草稿队列中完成每个记录的标注。

注意

请注意,批量视图中不显示建议(跨度除外),并且当您未提供对所有必填问题的响应时,您需要保存为草稿。

标注进度

您可以在数据集列表中显示的进度条和数据集内部的进度面板中跟踪标注任务的进度。此栏显示已完成的记录数(即,具有最少数量的已提交响应的记录)和待完成的记录数。

您还可以在数据集页面中展开右下方面板来实时跟踪自己的进度。在那里,您可以看到您具有待处理草稿已提交已放弃响应的记录数。

注意

您还可以从 SDK 探索数据集进度。查看跟踪您的团队的进度以了解更多信息。

使用搜索、过滤器和排序

UI 提供了专为数据探索和理解而设计的各种功能。将这些功能与批量标注相结合可以为您和您的团队节省数小时的时间。

提示

当您熟悉您的数据并且有大量数据需要根据经过验证的信念和经验进行标注时,您应该使用此功能。

从左侧面板顶部的控制面板中,您可以跨整个数据集按关键字搜索。如果您的记录中有多个字段,您可以指定搜索是在“所有”字段还是在特定字段上执行。匹配的结果以颜色突出显示。

注意

如果您引入多个关键字,搜索将返回所有关键字都有匹配项的结果。

提示

对于更高级的搜索,请查看高级查询 DSL

按记录语义相似度排序

如果已将向量添加到数据集,您可以根据记录与另一条记录的相似性检索记录。

注意

查看这些指南以了解如何将向量添加到您的数据集记录

要使用按语义相似度搜索功能,请在您希望用作参考的记录中单击查找相似项。如果多个向量可用,请选择所需的向量。您还可以选择检索最相似或最不相似的记录。

然后,检索到的记录按相似度排序,相似度得分显示在每个记录卡上。

在语义搜索处于活动状态时,您可以更新所选向量或调整相似度顺序,并指定所需的结果数。

要取消搜索,请单击参考记录旁边的叉号图标。

按元数据、响应和建议进行过滤和排序

过滤器

如果数据集包含元数据、响应和建议,请单击控制面板中的过滤器以显示可用的过滤器。您可以选择多个过滤器并将它们组合起来。

注意

包含元数据的记录信息可以从记录卡中的省略号菜单中查看。

元数据下拉列表中,键入并选择属性。您可以为整数和浮点属性设置范围,并为术语元数据选择特定值。

注意

请注意,如果元数据属性设置为visible_for_annotators=False,则此元数据属性将仅在具有adminowner角色的用户的元数据过滤器中显示。

响应下拉列表中,键入并选择问题。您可以为评分问题设置范围,并为标签、多标签和跨度问题选择特定值。

注意

文本和排名问题不可用于过滤。

从“建议”下拉列表中,按建议值分数代理过滤建议。

排序

您可以根据一个或多个属性对记录进行排序。

插入时间和上次更新对所有记录都是通用的。

评分问题的建议分数、响应和建议值以及元数据属性仅在提供时可用。