更新日志¶
此项目的所有重大更改都将记录在此文件中。
格式基于 Keep a Changelog,并且此项目遵守 语义版本控制。
未发布¶
2.7.0¶
已添加¶
已修复¶
- 修复了在 argilla 客户端初始化中传递
verify=False时的连接错误。( #5548
2.6.0¶
已修复¶
- 修复了迭代数据集时设置未正确加载的错误。( #5753)
- 修复了从原始字典加载字段时的错误。( #5756)
- 修复了从 Hub 导入已存在数据集时的错误。( #5756)
- 修复了导入没有响应的已丢弃响应时的错误。( #5756)
- 修复了从现有用户导入带有响应的数据集时的错误。( #5756)
2.5.0¶
已添加¶
- 添加了删除/覆盖数据集设置的支持。( #5584)
- 添加了更新问题属性的支持。( #5680)
- 添加了对 webhook 监听器的支持。( #5502)
- 添加了对 Python 3.13 的支持。( #5652)
已修复¶
- 修复了从默认值更新 settings.distribution.min_submitted 时的错误 ( #5719)
2.4.0¶
已添加¶
- 添加了
Argilla.deploy_on_spaces以在 Hugging Face Spaces 上部署 Argilla 服务器。( #5547)
已更改¶
- 现在可以使用客户端更新用户参数 ( #5614)
- 更改了
Dataset.from_hub方法,当settings="ui"时打开配置 URL。( #5622) - 术语元数据属性接受除
str以外的其他值。( #5594) - 添加了在获取记录以及搜索查询时对
with_vectors的支持。( #5638)
已移除¶
- 删除了数据集设置名称的名称清理。这可能会导致旧服务器版本出现问题。尤其是在使用
from_hub时。( #5574)
2.3.0¶
已添加¶
- 添加了对
CustomField的支持。( #5422) - 将
inserted_at和updated_at添加到Resource模型作为属性。( #5540) - 在获取记录时添加了
limit参数。( #5525 - 添加了相似度搜索支持。( #5546)
- 为
id、_server_id、inserted_at和updated_at记录属性添加了筛选器支持。( #5545) - 添加了从 colab secrets 读取 argilla 凭据的支持。( #5541)
已更改¶
已修复¶
- 修复了从 Hub 收集记录并导出到
datasets时ChatField的序列化。( #5554)
2.2.2¶
已修复¶
已更改¶
- 更改了
from_hub,仅为数据集中的字符串生成字段,而不是问题。( #5524)
2.2.1¶
已修复¶
- 修复了列名包含大写字母时
from_hub错误。( #5523) - 修复了类特征值包含未标记值时
from_hub错误。( #5523) - 修复了加载缓存数据集时
from_hub错误。( #5523)
2.2.0¶
- 添加了新的
ChatField,支持聊天消息。( #5376) - 为分类、评级和排序问题向
rg.Settings添加了模板设置。( #5426) - 在
rg.Dataset.from_hub中添加了基于datasets.Features的rg.Settings定义。( #5426) - 向
rg.Settings添加了持久记录映射,以在rg.Dataset.records.log中使用。( #5466) - 向
rg.Dataset.records.log方法添加了多种错误处理方法,以警告、忽略或引发错误。( #5466) - 更改了
rg.LabelQuestion的数据集导入和导出,以使用datasets.ClassLabel而不是datasets.Value。( #5474)
2.1.0¶
已添加¶
- 添加了新的
ImageField,支持 URL 和数据 URL。( #5279) - 添加了暗黑模式 ( #5412)
- 向
rg.Dataset.from_hub添加了设置参数,以在从 Hub 摄取数据集之前定义数据集设置。( #5418)
2.0.1¶
已修复¶
- 修复了创建可选字段时的错误。( #5362)
- 修复了使用
visible_for_annotators创建整数和浮点元数据时的错误。( #5364) - 修复了为不存在的问题记录
suggestions或responses时的错误。( #5396 by @maxserras) - 修复了并行运行测试时测试套件中冲突导致的错误。( #5349)
- 修复了使用
None值创建响应时响应模型中的错误。( #5343)
已更改¶
- 更改了
from_hub方法,当存在同名数据集时引发错误。( #5258) - 更改了
log方法,当摄取没有已知键的记录时引发描述性错误。( #5356) - 更改了
code snippets以添加新数据集 ( #5395)
已添加¶
- 向文档站点添加了 Google Analytics。( #5366)
- 向进度指标添加了前端骨架,以优化加载时间并改善用户体验。( #5391)
- 在 Python SDK 的 API 参考中的方法中添加了文档。( #5400)
已修复¶
- 修复了提交最新记录时的错误,有时您会导航到不存在的页面 #5419
2.0.0¶
已添加¶
已更改¶
- 将
FeedbackDataset更改为Dataset。 - 将
rg.init更改为rg.Argilla类以与 Argilla 服务器交互。
已弃用¶
- 已弃用特定于任务的数据集类,如
TextClassification和TokenClassification。要将旧数据集迁移到rg.Dataset类,请参阅 操作指南。 - 已弃用用例扩展,如
listeners和ArgillaTrainer。
2.0.0rc1¶
[!NOTE] 此 2.0.0rc1 版本不包含任何更新日志条目,因为它是 2.0.0 版本的第一个候选版本。以下版本将再次包含更新日志条目。有关 2.0.0 版本更改的总体概述,请参阅 我们的博客 或 我们的新文档。
1.29.0¶
已添加¶
- 添加了对评级问题的支持,以将
0作为有效值包括在内。( #4860) - 添加了对 Python 3.12 的支持。( #4837)
- 在
FeedbackDatasetUI 搜索中添加了按字段搜索。( #4746) - 在
FeedbackDatasetUI 中添加了记录元数据信息。( #4851) - 在
FeedbackDatasetUI 中添加了搜索结果高亮显示。( #4747)
已修复¶
1.28.0¶
已添加¶
- 添加了建议多得分属性。( #4730)
- 添加了按建议优先排序。( #4731)
- 为 span 标注重叠添加了多选实体下拉列表。( #4735)
- 为 span 标注添加了预选高亮显示。( #4726)
- 在持久存储未启用时添加了横幅。( #4744)
- 在 Python SDK 上为新的多标签问题
labels_order属性添加了支持。( #4757)
已更改¶
- 更改了 Hugging Face space 和用户在登录时的显示方式。( #4748)
已修复¶
- 修复了韩文字符反转的问题。( #4753)
已修复¶
- 修复了 wrapt 库版本与 Python 3.11 冲突的要求 ( #4693)
1.27.0¶
已添加¶
- 在
FeedbackDataset中添加了允许 span 重叠。( #4668) - 为 span 问题添加了
allow_overlapping参数。( #4697) - 在
Datasets表格中添加了总体进度条。( #4696) - 添加了德语翻译。( #4688)
已更改¶
- 建议的新 UI 设计。( #4682)
已修复¶
- 提高了超过 250 个标签的性能。( #4702)
1.26.1¶
已添加¶
- 添加了自动检测 RTL 语言的支持。( #4686)
1.26.0¶
已添加¶
- 如果您展开
single or multi标签问题的标签,则状态在整个标注过程中保持不变。( #4630) - 在 Python SDK 中添加了对 span 问题的支持。( #4617)
- 在建议和响应中添加了对 span 值的支持。( #4623)
- 为
FeedbackDataset添加了span问题。( #4622) - 添加了
ARGILLA_CACHE_DIR环境变量以配置客户端缓存目录。( #4509)
已修复¶
- 修复了上下文工作区。( #4665)
- 修复了将
RankingValueSchema实例传递给建议时准备训练的问题。( #4628) - 修复了从 HF 数据集中解析排序值的问题。( #4629)
- 修复了从 API 响应负载中读取描述的问题。( #4632)
- 修复了在使用
ds.pull或迭代数据集时拉取 (n*chunk_size)+1 条记录的问题。( #4662) - 修复了客户端在调用 Search 和 Metrics API 时解析枚举值的问题,以支持 Python >=3.11 枚举处理。( #4672)
1.25.0¶
[!NOTE] 有关 argilla-server 模块的更改,请访问 argilla-server 发行说明
已添加¶
已移除¶
- 删除了状态筛选器的
missing响应。请改用pending。( #4533)
已修复¶
- 修复了 FloatMetadataProperty:值不是有效的浮点数 ( #4570)
- 修复了重定向到
user-settings而不是 404user_settings的问题 ( #4609)
1.24.0¶
[!NOTE] 此版本不包含任何新功能,但它包括
argilla-server依赖项的重大更改。该软件包正在使用 此处 定义的argilla-server依赖项。( #4537)
已更改¶
1.23.1¶
已修复¶
- 修复了反馈数据集的响应式视图。( #4579)
1.23.0¶
已添加¶
- 添加了按筛选条件批量标注。( #4516)
- 在焦点选项卡上自动获取新数据集。( #4514)
- 现在,API v1 响应返回
Record架构始终包含dataset_id作为属性。( #4482) - 现在,API v1 响应返回
Response架构始终包含record_id作为属性。( #4482) - 现在,API v1 响应返回
Question架构始终包含dataset_id属性。( #4487) - 现在,API v1 响应返回
Field架构始终包含dataset_id属性。( #4488) - 现在,API v1 响应返回
MetadataProperty架构始终包含dataset_id属性。( #4489) - 现在,API v1 响应返回
VectorSettings架构始终包含dataset_id属性。( #4490) - 向
.html_utils模块添加了pdf_to_html函数,该函数将 PDF 转换为 dataURL,以便能够在 Argilla UI 中呈现它们。( #4481) - 添加了
ARGILLA_AUTH_SECRET_KEY环境变量。( #4539) - 添加了
ARGILLA_AUTH_ALGORITHM环境变量。( #4539) - 添加了
ARGILLA_AUTH_TOKEN_EXPIRATION环境变量。( #4539) - 添加了
ARGILLA_AUTH_OAUTH_CFG环境变量。( #4546) - 添加了对 HuggingFace Hub 的 OAuth2 支持。( #4546)
已弃用¶
- 已弃用
ARGILLA_LOCAL_AUTH_*环境变量。将在 v1.25.0 版本中删除。( #4539)
已更改¶
- 更改了
UserCreate中username属性的正则表达式模式。现在允许使用大写字母。( #4544)
已移除¶
- 从 python SDK 请求中删除发送
Authorization标头。( #4535)
已修复¶
- 修复了标签问题的键盘快捷键。( #4530)
1.22.0¶
已添加¶
- 添加了批量标注支持。( #4333)
- 从反馈数据集设置还原筛选器。([#4461])(https://github.com/argilla-io/argilla/pull/4461)
- 在离开具有未保存更改的页面时,反馈数据集设置发出警告。( #4461)
- 使用 python SDK 添加了 pydantic v2 支持。( #4459)
- 向
FeedbackDataset和RemoteFeedbackDataset的__repr__方法添加了vector_settings。( #4454) - 添加了使用
SentenceTransformersExtractor集成sentence-transformers,以在FeedbackDataset和FeedbackRecord中配置vector_settings。( #4454)
已更改¶
- 模块
argilla.cli.server定义已移动到argilla.server.cli模块。( #4472) - [重大更改] 将
vector_settings_by_name更改为通用property_by_name用法,这将返回None而不是引发错误。( #4454) - 模块
argilla._constants中的常量定义ES_INDEX_REGEX_PATTERN现在是私有的。( #4472) - 当创建/更新记录时,元数据属性中的
nan值将引发 422 错误。( #4300) - 现在允许在元数据属性中使用
None值。( #4300) - 重构并添加
width、height、autoplay和loop属性作为to_html函数中的可选参数。( #4481)
已修复¶
- 分页到新记录时,会自动向下滚动到选定的表单区域。( #4333)
已弃用¶
- 用于筛选记录的
missing响应状态已弃用,将在 v1.24.0 版本中删除。请改用pending。( #4433)
已移除¶
- 已删除已弃用的
python -m argilla database命令。( #4472)
1.21.0¶
已添加¶
- 为标注视图添加了新的草稿队列 ( #4334)
- 为
FeedbackDataset添加了标注指标模块 (argilla.client.feedback.metrics)。( #4175)。 - 添加了用于处理和翻译来自服务器的
401HTTP 状态代码错误的策略 `( #4362) - 添加了使用
TextDescriptivesExtractor集成textdescriptives,以在FeedbackDataset和FeedbackRecord中配置metadata_properties。( #4400)。由 @m-newhauser 贡献 - 添加了
POST /api/v1/me/responses/bulk端点,以批量为当前用户创建响应。( #4380) - 为术语元数据属性添加了列表支持。( 关闭 #4359)
- 添加了新的 CLI 任务,以将数据集和记录重新索引到搜索引擎中。( #4404)
- 向
rg.init和Argilla添加了httpx_extra_kwargs参数,以允许将额外的参数传递给Argilla使用的httpx.Client。( #4440) - 在 Argilla 的
__init__导入中添加了ResponseStatusFilter枚举 ( #4118)。由 @Piyush-Kumar-Ghosh 贡献。
已更改¶
- 更高效和更简单的快捷方式系统 ( #4215)
- 将
ArgillaSingleton、init和active_client移动到新模块singleton。( #4347) - 更新了
argilla.load函数,使其也适用于FeedbackDataset。( #4347) - [重大更改] 更新了
argilla.delete函数,使其也适用于FeedbackDataset。如果数据集不存在,现在会引发错误。( #4347) - 更新了
argilla.list_datasets函数,使其也适用于FeedbackDataset。( #4347)
已修复¶
- 修复了
TextClassificationSettings.from_dict方法中的错误,其中创建的label_schema是dict列表,而不是str列表。( #4347) - 修复了分页组件上的记录总数 ( #4424)
已移除¶
- 删除了标注视图的
draft自动保存 ( #4334)
1.20.0¶
新增¶
- 新增
GET /api/v1/datasets/:dataset_id/records/search/suggestions/options端点,用于返回搜索建议的可用选项。(<#4260) - 在
FeedbackDataset和RemoteFeedbackDataset的__repr__方法中添加了metadata_properties。(<#4192)。 - 在
ArgillaTrainer中添加了get_model_kwargs,get_trainer_kwargs,get_trainer_model,get_trainer_tokenizer和get_trainer方法,以提高跨框架的互操作性。(<#4214)。 - 在
ArgillaTrainer中添加了额外的格式检查,以更好地实现defaults和formatting_func用法的互操作性。(<#4214)。 - 在
ArgillaTrainer的update_config方法中添加了一个警告,以强调kwargs是否已正确更新。(<#4214)。 - 添加了
argilla.client.feedback.utils模块,包含html_utils(主要包括将媒体转换为 dataURL 以便在 Argilla UI 中渲染的video/audio/image_to_html,以及以自定义方式高亮 token 的create_token_highlights。两者都适用于use_markdown=True的 TextQuestion 和 TextField) 和assignments(主要包括根据注释者和记录的数量、重叠和 shuffle 选项来分配记录的assign_records;以及根据记录分配来分配和创建工作区的assign_workspace)。(<#4121)
修复¶
- 修复了
ArgillaTrainer中使用数值标签时,错误地使用RatingQuestion而不是RankingQuestion的问题 (<#4171) - 修复了
ArgillaTrainer中的错误,现在我们可以使用验证样本为extractive_question_answering进行训练 (<#4204) - 修复了
ArgillaTrainer中的错误,当为sentence-similarity训练时,它无法处理每个记录的值列表 (<#4211) - 修复了
RankingQuestion的统一策略中的错误 (<#4295) - 修复了
TextClassificationSettings.labels_schema顺序未被保留的问题。关闭了 <#3828 (<#4332) - 修复了请求不存在的 API 端点时发生的错误。关闭了 <#4073 (<#4325)
- 修复了将
draft响应传递到创建记录端点时发生的错误。(<#4354)
更改¶
- [breaking] 建议的
agent字段现在只接受某些特定字符和有限的长度。(<#4265) - [breaking] 建议的
score字段现在只接受0到1范围内的浮点数值。(<#4266) - 更新了
POST /api/v1/dataset/:dataset_id/records/search端点,以支持可选的query属性。(<#4327) - 更新了
POST /api/v1/dataset/:dataset_id/records/search端点,以支持filter和sort属性。(<#4327) - 更新了
POST /api/v1/me/datasets/:dataset_id/records/search端点,以支持可选的query属性。(<#4270) - 更新了
POST /api/v1/me/datasets/:dataset_id/records/search端点,以支持filter和sort属性。(<#4270) - 将从
tqdm风格更改为rich风格,以改进从 Argilla 拉取和推送FeedbackDataset时的日志记录样式。(<#4267)。由 @zucchini-nlp 贡献。 - 更新了
push_to_argilla,在推送后打印推送的RemoteFeedbackDataset的repr,并将show_progress默认更改为 True。(<#4223) - 更改了
ArgillaTrainer的models和tokenizer,以明确允许在需要时进行更改。(<#4214)。
1.19.0¶
新增¶
- 新增
POST /api/v1/datasets/:dataset_id/records/search端点,用于在没有用户上下文的情况下搜索记录,包括所有用户的响应。(<#4143) - 新增
POST /api/v1/datasets/:dataset_id/vectors-settings端点,用于为数据集创建向量设置。(<#3776) - 新增
GET /api/v1/datasets/:dataset_id/vectors-settings端点,用于列出数据集的向量设置。(<#3776) - 新增
DELETE /api/v1/vectors-settings/:vector_settings_id端点,用于删除向量设置。(<#3776) - 新增
PATCH /api/v1/vectors-settings/:vector_settings_id端点,用于更新向量设置。(<#4092) - 新增
GET /api/v1/records/:record_id端点,用于获取特定记录。(<#4039) - 添加了对
GET /api/v1/datasets/:dataset_id/records端点响应的支持,可以使用include查询参数包含向量。(<#4063) - 添加了对
GET /api/v1/me/datasets/:dataset_id/records端点响应的支持,可以使用include查询参数包含向量。(<#4063) - 添加了对
POST /api/v1/me/datasets/:dataset_id/records/search端点响应的支持,可以使用include查询参数包含向量。(<#4063) - 在
from_huggingface()方法中添加了show_progress参数,使解析记录过程的进度条成为可选。(<#4132)。 - 在
from_huggingface()方法中为解析记录过程添加了进度条,使用tqdm中的trange。(<#4132)。 - 为没有元数据的数据集添加了按
inserted_at或updated_at排序的功能。(<4147) - 为
RemoteFeedbackDataset的pull()方法添加了max_records参数。(<#4074) - 添加了使用
ArgillaTrainer.push_to_huggingface将您的模型推送到 Hugging Face Hub 的功能 (<#3976)。由 @Racso-3141 贡献。 - 为
ArgillaTrainer添加了filter_by参数,以按response_status进行过滤 (<#4120)。 - 为
ArgillaTrainer添加了sort_by参数,以按metadata进行排序 (<#4120)。 - 为
ArgillaTrainer添加了max_records参数,以限制用于训练的记录数量 (<#4120)。 - 为本地和远程
FeedbackDataset添加了add_vector_settings方法。(<#4055) - 为本地和远程
FeedbackDataset添加了update_vectors_settings方法。(<#4122) - 为本地和远程
FeedbackDataset添加了delete_vectors_settings方法。(<#4130) - 为本地和远程
FeedbackDataset添加了vector_settings_by_name方法。(<#4055) - 为本地和远程
FeedbackDataset添加了find_similar_records方法。(<#4023) - 添加了
ARGILLA_SEARCH_ENGINE环境变量,用于配置要使用的搜索引擎。(<#4019)
更改¶
- [breaking] 移除对 Elasticsearch < 8.5 和 OpenSearch < 2.4 的支持。(<#4173)
- [breaking] 使用 OpenSearch 引擎的用户必须使用版本 >=2.4 并设置
ARGILLA_SEARCH_ENGINE=opensearch。(<#4019 和 <#4111) - [breaking] 更改了
FeedbackDataset.*_by_name()方法,当未找到匹配项时返回None(<#4101)。 - [breaking]
GET /api/v1/datasets/:dataset_id/records端点的limit查询参数现在仅接受大于等于1且小于等于1000的值。(<#4143) - [breaking]
GET /api/v1/me/datasets/:dataset_id/records端点的limit查询参数现在仅接受大于等于1且小于等于1000的值。(<#4143) - 更新
GET /api/v1/datasets/:dataset_id/records端点,以使用搜索引擎获取记录。(<#4142) - 更新
GET /api/v1/me/datasets/:dataset_id/records端点,以使用搜索引擎获取记录。(<#4142) - 更新
POST /api/v1/datasets/:dataset_id/records端点,以允许创建带有vectors的记录 (<#4022) - 更新
PATCH /api/v1/datasets/:dataset_id端点,以允许更新allow_extra_metadata属性。(<#4112) - 更新
PATCH /api/v1/datasets/:dataset_id/records端点,以允许使用vectors更新记录。(<#4062) - 更新
PATCH /api/v1/records/:record_id端点,以允许使用vectors更新记录。(<#4062) - 更新
POST /api/v1/me/datasets/:dataset_id/records/search端点,以允许使用向量搜索记录。(<#4019) - 更新
BaseElasticAndOpenSearchEngine.index_records方法,以同时索引记录向量。(<#4062) - 更新
FeedbackDataset.__init__,以允许传递向量设置列表。(<#4055) - 更新
FeedbackDataset.push_to_argilla,以同时推送向量设置。(<#4055) - 更新
FeedbackDatasetRecord,以支持创建带有向量的记录。(<#4043) - 使用余弦相似度计算向量之间的相似度。(<#4124)
修复¶
- 修复了 svg 图像超出屏幕的问题,该问题由过大的图像引起 (<#4047)
- 修复了创建具有来自多个用户的响应的记录的问题。关闭了 <#3746 和 <#3808 (<#4142)
- 修复了作为所有者删除或更新注释者的响应的问题。(提交 <403a66d)
- 修复了按 ID 获取记录时传递 user_id 的问题。(提交 <98c7927)
- 修复了将数据集推送到 Hugging Face Hub 时,非基本标签被序列化的问题。关闭了 <#4089 (<#4200)
1.18.0¶
新增¶
- 新的
GET /api/v1/datasets/:dataset_id/metadata-properties端点,用于列出数据集元数据属性。(<#3813) - 新的
POST /api/v1/datasets/:dataset_id/metadata-properties端点,用于创建数据集元数据属性。(<#3813) - 新的
PATCH /api/v1/metadata-properties/:metadata_property_id端点,允许更新特定的元数据属性。(<#3952) - 新的
DELETE /api/v1/metadata-properties/:metadata_property_id端点,用于删除特定的元数据属性。(<#3911) - 新的
GET /api/v1/metadata-properties/:metadata_property_id/metrics端点,用于计算特定元数据属性的指标。(<#3856) - 新的
PATCH /api/v1/records/:record_id端点,用于更新记录。(<#3920) - 新的
PATCH /api/v1/dataset/:dataset_id/records端点,用于批量更新数据集的记录。(<#3934) PATCH /api/v1/questions/:question_id缺少验证。现在title和description使用与创建问题时相同的验证。(<#3967)- 添加了
TermsMetadataProperty、IntegerMetadataProperty和FloatMetadataProperty类,允许为FeedbackDataset定义元数据属性。(<#3818) - 在
RemoteFeedbackDataset的filter_by方法中添加了metadata_filters,以根据元数据进行过滤,例如TermsMetadataFilter、IntegerMetadataFilter和FloatMetadataFilter。(<#3834) - 在其模式以及作为
add_records和filter_by方法的一部分,为metadata_properties和metadata_filters都添加了验证层。(<#3860) - 为列表记录端点添加了
sort_by查询参数,允许按inserted_at、updated_at或元数据属性对记录进行排序。(<#3843) - 为
FeedbackDataset和RemoteFeedbackDataset(即 Argilla 中的FeedbackDataset) 都添加了add_metadata_property方法。(<#3900) - 在
RemoteResponseSchema中添加了字段inserted_at和updated_at。(<#3822) - 为
RemoteFeedbackDataset(即上传到 Argilla 的FeedbackDataset) 添加了sort_by支持。(<#3925) - 为
push_to_huggingface和from_huggingface添加了metadata_properties支持。(<#3947) - 添加了从 Python SDK 更新记录 (
metadata) 的支持。(<#3946) - 添加了
delete_metadata_properties方法以删除元数据属性。(<#3932) - 添加了
update_metadata_properties方法以更新metadata_properties。(<#3961) - 通过
ArgillaTrainer.save添加了自动模型卡片生成功能 (<#3857) - 为预定义的任务模板添加了
FeedbackDatasetTaskTemplateMixin。(<#3969) - 排序问题可以接受的最大选项数量限制为 50。(<#3975)
- 为
FeedbackDataset添加了新的last_activity_at字段,用于公开关联数据集的最后活动发生时间。(<#3992)
更改¶
GET /api/v1/datasets/{dataset_id}/records,GET /api/v1/me/datasets/{dataset_id}/records和POST /api/v1/me/datasets/{dataset_id}/records/search端点现在返回记录的total总数。(<#3848, <#3903)- 为已过滤的数据集实现了
__len__方法,以返回与提供的过滤器匹配的记录数。(<#3916) - 增加了为反馈数据集创建的 Elasticsearch 的默认最大结果窗口。(<#3929)
- 强制在创建记录后刷新 elastic 索引。(<#3929)
- 在 Python SDK 中验证用于过滤和排序的元数据字段。(<#3993)
- 在搜索引擎索引中索引数据时,使用元数据属性名称而不是 ID。(<#3994)
修复¶
- 修复了响应模式以允许
values为None,即当记录被丢弃时,response.values将设置为None。(<#3926)
1.17.0¶
新增¶
- 在
RemoteResponseSchema中添加了字段inserted_at和updated_at(<#3822)。 - 通过
ArgillaTrainer.save添加了自动模型卡片生成功能 (<#3857)。 - 为
FeedbackDataset添加了任务模板 (<#3973)。
更改¶
- 更新了
Dockerfile以使用多阶段构建 (<#3221 和 <#3793)。 - 更新了文本分类笔记本的 active learning 以使用最新的 small-text 版本 (<#3831)。
- 更改了文本分类笔记本的 active learning 中的 argilla 数据集名称,使其与 huggingface spaces 中的默认名称一致 (<#3831)。
- FeedbackDataset API 方法已对齐,可通过多种实现方式访问 (<#3937)。
- 远程数据集的
unify_responses支持 (<#3937)。
修复¶
- 修复了字段未按数据集设置中定义的顺序显示的问题。关闭了 <#3959 (<#3984)
- 更新了文本分类笔记本的 active learning,以将 int 类型的 ID 传递给
TextClassificationRecord(<#3831)。 - 修复了记录字段验证,该验证阻止了在字段值为
None时记录带有可选字段 (即required=True) 的记录 (<#3846)。 - 始终在
ArgillaTrainer中将pretrained_model_name_or_path属性设置为字符串 (<#3914)。 inserted_at和updated_at属性使用utcnow工厂创建,以避免时间戳创建时出现意外的竞争条件 (<#3945)- 修复了通过参数
workspace提供工作区时,configure_dataset_settings的问题 (<#3887)。 - 修复了使用带有
peft_config参数的ArgillaTrainer训练的模型的保存问题 (<#3795)。 - 修复了从 Hugging Face Hub 加载先前使用另一个 Argilla 版本 (从 1.8.0 开始,首次引入时) 转储的
FeedbackDataset时,from_huggingface的向后兼容性问题 (<#3829)。 - 修复了
TrainingTask的错误的__repr__问题。(<#3969) - 修复了
TrainingTask的prepare_for_training_with_*的错误键返回错误。(<#3969)
已弃用¶
- 函数
rg.configure_dataset已弃用,建议使用rg.configure_dataset_settings。前者将在 1.19.0 版本中移除
1.16.0¶
新增¶
- 添加了
ArgillaTrainer与 sentence-transformers 的集成,允许对句子相似度进行微调 (<#3739) - 添加了
ArgillaTrainer与TrainingTask.for_question_answering的集成 (<#3740) - 添加了
自动保存记录功能,以自动保存您正在处理的当前记录 (<#3541) - 添加了
ArgillaTrainer与 OpenAI 的集成,允许对聊天完成进行微调 (<#3615) - 添加了
workspaces list命令,用于列出 Argilla 工作区 (<#3594)。 - 添加了
datasets list命令,用于列出 Argilla 数据集 (<#3658)。 - 添加了
users create命令,用于创建用户 (<#3667)。 - 添加了
whoami命令,用于获取当前用户 (<#3673)。 - 添加了
users delete命令,用于删除用户 (<#3671)。 - 添加了
users list命令,用于列出用户 (<#3688)。 - 添加了
workspaces delete-user命令,用于从工作区中移除用户 (<#3699)。 - 添加了
datasets list命令,用于列出 Argilla 数据集 (<#3658)。 - 添加了
users create命令,用于创建用户 (<#3667)。 - 添加了
users delete命令,用于删除用户 (<#3671)。 - 添加了
workspaces create命令,用于创建 Argilla 工作区 (<#3676)。 - 添加了
datasets push-to-hub命令,用于将FeedbackDataset从 Argilla 推送到 HuggingFace Hub (<#3685)。 - 添加了
info命令,用于获取有关使用的 Argilla 客户端和服务器的信息 (<#3707)。 - 添加了
datasets delete命令,用于从 Argilla 中删除FeedbackDataset(<#3703)。 - 为
RemoteFeedbackDataset和FilteredRemoteFeedbackDataset添加了created_at和updated_at属性 (<#3709)。 - 添加了在以权限不足的已登录用户执行命令时处理
PermissionError的功能 (<#3717)。 - 添加了
workspaces add-user命令,用于向工作区添加用户 (<#3712)。 - 为
GET /api/v1/me/datasets端点添加了workspace_id参数 (<#3727)。 - 在 Python SDK 的
list_datasets中添加了workspace_id参数 (<#3727)。 - 添加了
argilla脚本,允许使用argilla命令执行 Argilla CLI (<#3730)。 - 添加了对将已初始化的
model和tokenizer实例传递给ArgillaTrainer的支持 (<#3751) - 添加了
server_info函数,用于检查 Argilla 服务器信息 (也可以通过rg.server_info访问) (<#3772)。
更改¶
- 将
database命令移动到server命令组下 (<#3710) - 仅当安装了
server额外要求时,server命令才包含在 CLI 应用中 (<#3710)。 - 更新了
PUT /api/v1/responses/{response_id},以使用请求中收到的values替换存储的values(<#3711)。 - 当
Workspace.add_user和Workspace.delete_user中的user_id是具有所有者角色的用户的 ID 时,显示UserWarning,因为他们不需要显式权限 (<#3716)。 - 将
tasks子包重命名为cli(<#3723)。 - 更改了 CLI 中的
argilla database命令,现在通过argilla server database访问,将在即将发布的版本中弃用 (<#3754)。 - 更改了后端中
visible_options(标签和多标签选择问题) 验证,以检查提供的值是否大于等于/等于 3 且小于等于/等于提供的选项数量 (<#3773)。
修复¶
- 修复了
清除答案时文本组件中的移除用户修改问题 (<#3775) - 修复了
数据集反馈任务中高亮显示原始文本字段问题 (<#3731) - 修复了
字段标题过长问题 (<#3734) - 修复了删除
DatasetForTextClassification时的错误消息 (<#3652) - 修复了数据标注期间的
待处理队列分页问题 (<#3677) - 修复了
visible_labels默认值,仅当未提供visible_labels且len(labels) > 20时才为 20,否则对于LabelQuestion和MultiLabelQuestion,它将是提供的visible_labels值或None(<#3702)。 - 修复了
RemoteFeedbackDataset包含建议时DatasetCard的生成问题 (<#3718)。 - 在
ResponseSchema中添加了缺失的draft状态,因为现在通过 UI 进行注释时可能会出现draft状态的响应 (<#3749)。 - 搜索在记录字段中分布的查询词 (<#3759)。
- 修复了 Python 3.11 兼容性问题,该问题是由端点 URL 中的
TaskType枚举替换导致的/api/datasets端点引起的 (<#3769)。 - 修复了
RankingValueSchema和FeedbackRankingValueModel模式,以允许在status=draft时rank=None(<#3781)。
1.15.1¶
修复¶
- 修复了
文本组件文本内容清理行为,仅针对 markdown,以防止文本消失 (<#3738) - 修复了
文本组件,现在您需要按 Escape 键才能退出文本区域 (<#3733) - 修复了
SearchEngine为每个FeedbackDataset创建相同数量的主分片和副本分片的问题 (<#3736)。
1.15.0¶
新增¶
- 添加了
在 UI 中直接更新反馈数据集的指南和数据集设置的功能(<#3489) - 添加了
ArgillaTrainer与 TRL 的集成,允许轻松进行监督微调、奖励建模、直接偏好优化和近端策略优化 (<#3467) - 为
ArgillaTrainer的FeedbackDataset数据集添加了formatting_func,为数据添加自定义格式 (<#3599)。 - 在
argilla.client.login中添加了login函数,用于登录 Argilla 服务器并在本地存储凭据 (<#3582)。 - 添加了
login命令,用于登录 Argilla 服务器 (<#3600)。 - 添加了
logout命令,用于从 Argilla 服务器注销 (<#3605)。 - 添加了
DELETE /api/v1/suggestions/{suggestion_id}端点,用于删除给定 ID 的建议 (<#3617)。 - 添加了
DELETE /api/v1/records/{record_id}/suggestions端点,用于删除链接到同一记录的多个建议,给定它们的 ID (<#3617)。 - 为
GET /api/v1/datasets/{dataset_id}/records添加了response_status参数,以便能够按response_status进行过滤,就像之前为GET /api/v1/me/datasets/{dataset_id}/records包含的那样 (<#3613)。 - 为
ArgillaMixin添加了list类方法,可以像FeedbackDataset.list()一样使用,还包括workspace作为参数来列出工作区 (<#3619)。 - 在
RemoteFeedbackDataset中添加了filter_by方法,以根据response_status进行过滤 (<#3610)。 - 添加了
list_workspaces函数 (用作rg.list_workspaces,但首选Workspace.list),用于列出 Argilla 中用户的所有工作区 (<#3641)。 - 添加了
list_datasets函数 (用作rg.list_datasets),用于列出 Argilla 中的TextClassification、TokenClassification和Text2Text数据集 (<#3638)。 - 添加了
RemoteSuggestionSchema来管理 Argilla 中的建议,包括delete方法,用于通过DELETE /api/v1/suggestions/{suggestion_id}从 Argilla 中删除建议 (<#3651)。 - 为
RemoteFeedbackRecord添加了delete_suggestions,用于通过DELETE /api/v1/records/{record_id}/suggestions从 Argilla 中删除建议 (<#3651)。
更改¶
- 更改了
可选标签的 * 标记,用于必填问题(<#3608) - 更新了
RemoteFeedbackDataset.delete_records以使用批量删除记录端点 (<#3580)。 - 为某些
RemoteFeedbackDataset、RemoteFeedbackRecords和RemoteFeedbackRecord方法包含了allowed_for_roles,这些方法仅允许具有owner和admin角色的用户使用 (<#3601)。 - 将
ArgillaToFromMixin重命名为ArgillaMixin(<#3619)。 - 将
usersCLI 应用移动到databaseCLI 应用下 (<#3593)。 - 将服务器
Enum类移动到argilla.server.enums模块 (<#3620)。
修复¶
- 修复了
面包屑导航中的按工作区过滤问题 (<#3577) - 修复了
数据集表中的按工作区过滤问题 (<#3604) - 修复了 Text2Text 和 TextClassification 的
查询搜索高亮问题 (<#3621) - 修复了
RatingQuestion.values验证,当值超出范围时 (例如 [1, 10]) 引发ValidationError(<#3626)。
移除¶
- 从
TaskType中移除了未使用的multi_task_text_token_classification(<#3640)。 - 从
RemoteFeedbackDataset中移除了argilla_id,改为使用id(<#3663)。 - 从
RemoteFeedbackDataset中移除了fetch_records,因为现在记录是从 Argilla 延迟获取的 (<#3663)。 - 从
RemoteFeedbackDataset中移除了push_to_argilla,因为它仅在通过本地FeedbackDataset调用时才起作用,因为现在远程数据集的更新会自动推送到 Argilla (<#3663)。 - 已移除
FeedbackRecord和RemoteFeedbackRecord中的set_suggestions,转而使用update(suggestions=...),因为记录的所有“可更新”属性的更新都将通过update进行 (#3663)。 - 移除了客户端 Dataset 数据模型中未使用的
owner属性 (#3665)
1.14.1¶
修复¶
- 修复了由于缺少
commit,导致在begin_nested之后 PostgreSQL 数据库未更新的问题 (#3567)。
修复¶
- 修复了在更新
rating或ranking问题时无法提供settings的问题 (#3552)。
1.14.0¶
新增¶
- 新增
PATCH /api/v1/fields/{field_id}端点,用于更新字段标题和 markdown 设置 (#3421)。 - 新增
PATCH /api/v1/datasets/{dataset_id}端点,用于更新数据集名称和指南 (#3402)。 - 新增
PATCH /api/v1/questions/{question_id}端点,用于更新问题标题、描述和一些设置(取决于问题类型) (#3477)。 - 新增
DELETE /api/v1/records/{record_id}端点,用于根据记录 ID 删除记录 (#3337)。 - 在
RemoteFeedbackDataset(推送到 Argilla 的FeedbackDataset)中新增pull方法,用于从 Argilla 中拉取所有记录,并作为FeedbackDataset的本地副本返回 (#3465)。 - 在
RemoteFeedbackDataset(推送到 Argilla 的FeedbackDataset)中新增delete方法 (#3512)。 - 在
RemoteFeedbackDataset中新增delete_records方法,并在RemoteFeedbackRecord中新增delete方法,用于从 Argilla 中删除记录 (#3526)。
已更改¶
- 提高了数据集包含向量时弱标签的效率 (#3444)。
- 新增
ArgillaDatasetMixin,用于从FeedbackDataset中分离出 Argilla 相关的功能 (#3427) - 将
FeedbackDataset相关的pydantic.BaseModel模式移动到argilla.client.feedback.schemas中,以便更好地组织结构,并更具可扩展性和可维护性 (#3427) - 更新 CLI 以使用数据库异步连接 (#3450)。
- 将评分问题的值限制在正数范围 [1, 10] 内 (#3451)。
- 更新了
POST /api/users端点,使其能够提供用户应链接到的工作区名称列表 (#3462)。 - 更新了 Python 客户端
User.create方法,使其能够提供用户应链接到的工作区名称列表 (#3462)。 - 更新了
GET /api/v1/me/datasets/{dataset_id}/records端点,允许获取与通过查询参数提供的响应状态之一匹配的记录 (#3359)。 - 更新了
POST /api/v1/me/datasets/{dataset_id}/records端点,允许搜索与通过查询参数提供的响应状态之一匹配的记录 (#3359)。 - 更新了
SearchEngine.search方法,允许搜索与提供的响应状态之一匹配的记录 (#3359)。 - 在调用
FeedbackDataset.push_to_argilla后,方法FeedbackDataset.add_records和FeedbackRecord.set_suggestions将自动调用 Argilla,无需显式调用push_to_argilla(#3465)。 - 现在调用
FeedbackDataset.push_to_huggingface会将responses转储为List[Dict[str, Any]]而不是Sequence,以便通过 🤗datasets更易读 (#3539)。
修复¶
- 修复了从
argilla_template.md生成 HuggingFaceDatasetCard时,Jinja2 中bool值和default引起的问题 (#3499)。 - 修复了
DatasetConfig.from_yaml在调用FeedbackDataset.from_huggingface时失败的问题,因为 UUID 无法被PyYAML自动反序列化,因此 UUID 不再被转储或加载 (#3502)。 - 修复了一个不允许 Argilla 服务器在代理后工作的问题 (#3543)。
TextClassificationSettings和TokenClassificationSettings标签在 Python 客户端和后端端点中均被正确解析为字符串 (#3495)。- 修复了
PUT /api/v1/datasets/{dataset_id}/publish以检查是否至少有一个字段和问题具有required=True(#3511)。 - 修复了
FeedbackDataset.from_huggingface,因为当没有responses时,suggestions会丢失 (#3539)。 - 修复了
QuestionSchema和FieldSchema未验证name属性的问题 (#3550)。
已弃用¶
- 在调用
FeedbackDataset.push_to_argilla后,再次调用push_to_argilla不会执行任何操作,因为数据集已推送到 Argilla (#3465)。 - 在调用
FeedbackDataset.push_to_argilla后,调用fetch_records不会执行任何操作,因为记录是从 Argilla 延迟获取的 (#3465)。 - 在调用
FeedbackDataset.push_to_argilla后,Argilla ID 不再存储在属性/属性argilla_id中,而是存储在id中 (#3465)。
1.13.3¶
修复¶
- 修复了
ModuleNotFoundError,原因是ArgillaTrainer中使用的argilla.utils.telemetry模块导入了一个默认情况下未安装的可选依赖项 (#3471)。 - 修复了
ImportError,原因是argilla.client.feedback.config模块导入了默认情况下未安装的pyyaml可选依赖项 (#3471)。
1.13.2¶
修复¶
- 修复了在 PostgreSQL 中创建的
suggestion_type_enumENUM 数据类型没有任何值的问题 (#3445)。
1.13.1¶
修复¶
- 修复了 PostgreSQL 的数据库迁移问题(参见 #3438)
1.13.0¶
新增¶
- 新增
GET /api/v1/users/{user_id}/workspaces端点,用于列出用户所属的工作区 (#3308 和 #3343)。 - 新增
HuggingFaceDatasetMixin用于内部使用,以将FeedbackDataset集成从类本身分离出来,并使用 Mixins 代替 (#3326)。 - 新增
GET /api/v1/records/{record_id}/suggestionsAPI 端点,用于获取与记录关联的响应的建议列表 (#3304)。 - 新增
POST /api/v1/records/{record_id}/suggestionsAPI 端点,用于为与记录关联的响应创建建议 (#3304)。 - 新增对
RankingQuestionStrategy、RankingQuestionUnification和TrainingTaskMapping的.for_text_classification方法的支持 (#3364) - 新增
PUT /api/v1/records/{record_id}/suggestionsAPI 端点,用于为与记录关联的响应创建或更新建议 (#3304 & 3391)。 - 为
FeedbackRecord新增suggestions属性,并允许从 Python 客户端添加和检索建议 (#3370) - 为
User和Workspace新增allowed_for_rolesPython 装饰器,用于检查当前用户是否具有访问装饰函数/方法所需的角色 (#3383) - 新增 API 和 Python 客户端对工作区删除的支持 (Closes #3260)
- 新增
GET /api/v1/me/workspaces端点,用于列出当前活动用户的工作区 (#3390)
已更改¶
- 更新了
GET /api/v1/datasets/{dataset_id}/records、GET /api/v1/me/datasets/{dataset_id}/records、POST /api/v1/me/datasets/{dataset_id}/records/search端点的输出有效负载,以根据include查询参数的值包含记录的建议 (#3304)。 - 更新了
POST /api/v1/datasets/{dataset_id}/records输入有效负载,以添加建议 (#3304)。 POST /api/datasets/:dataset-id/:task/bulk端点在数据集不存在时不会创建数据集 (Closes #3244)- 为
ArgillaTrainer新增 Telemetry 支持 (closes #3325) User.workspaces不再是属性,而是属性,并调用list_user_workspaces以列出给定用户 ID 的所有工作区名称 (#3334)- 将
FeedbackDatasetConfig重命名为DatasetConfig,并从 YAML 导出/导入作为默认设置,而不是 JSON(仅在FeedbackDataset的push_to_huggingface和from_huggingface方法内部使用) (#3326)。 - 受保护的元数据字段支持文本信息以外的其他信息 - 现有数据集必须重新索引。有关更多详细信息,请参阅 文档 (Closes #3332)。
- 更新了
Dockerfile父镜像,从python:3.9.16-slim升级到python:3.10.12-slim(#3425)。 - 更新了
quickstart.Dockerfile父镜像,从elasticsearch:8.5.3升级到argilla/argilla-server:${ARGILLA_VERSION}(#3425)。
已移除¶
- 移除了对非前缀环境变量的支持。所有有效的环境变量都以
ARGILLA_开头(参见 #3392)。
修复¶
- 修复了
GET /api/v1/me/datasets/{dataset_id}/records端点始终返回记录的响应,即使未通过include查询参数提供responses的问题 (#3304)。 - 受保护的元数据字段的值不再被截断 (Closes #3331)。
- 大数字 ID 在 UI 中正确呈现 (Closes #3265)
- 修复了
ArgillaDatasetCard以包含所有现有问题的 values/labels (#3366)
已弃用¶
- 文本分类、token 分类和 text2text 数据集中对记录 ID 的整数支持。
1.12.1¶
修复¶
- 使用默认
argilla用户的rg.init会跳过设置默认工作区(如果不可用)。(Closes #3340) - 解决了
ArgillaTrainer和TrainingTaskMapping的错误导入结构问题 (Closes #3345) - 将 pydantic 依赖项固定到版本 < 2 (Closes 3348)
1.12.0¶
新增¶
- 新增
RankingQuestionSettings类,允许在 API 中使用POST /api/v1/datasets/{dataset_id}/questions端点创建排序问题 (#3232) - 在 Python 客户端中新增
RankingQuestion以创建排序问题 (#3275)。 - 在反馈任务问题表单中新增
Ranking组件 (#3177 & #3246)。 - 为
FeedbackDataset.prepare_for_training方法新增功能,用于为RatingQuestion、LabelQuestion和MultiLabelQuestion提供的响应生成特定于框架的数据集 (#3151)。 - 新增
ArgillaSpaCyTransformersTrainer类,用于支持使用spacy-transformers进行训练 (#3256)。
文档¶
- 在开发者文档中新增了关于如何运行 Argilla 前端的说明 (#3314)。
已更改¶
- 所有 docker 相关文件都已移动到
docker文件夹中 (#3053)。 release.Dockerfile已重命名为Dockerfile(#3133)。- 更新了
rg.load函数,对于用户尝试使用该函数加载FeedbackDataset的情况,会引发带有解释性消息的ValueError(#3289)。 - 更新了
ArgillaSpaCyTrainer以允许重用tok2vec(#3256)。
修复¶
- 在
rg.set_workspace上检查 Argilla 上可用的工作区 (Closes #3262)
1.11.0¶
修复¶
- 将
np.float别名替换为float,以避免在numpy>=1.24.0的情况下使用find_label_errors函数时出现AttributeError(#3214)。 - 修复了当
FeedbackRecord中没有响应或可选响应时,format_as("datasets")将其值设置为 🤗 Datasets 期望的值,而不是仅仅设置为None的问题 (#3224)。 - 修复了
push_to_huggingface()在generate_card=True(默认行为)时的问题,因为我们将示例记录传递给ArgillaDatasetCard类,并且 1.10.0 中引入的UUID(#3192) 不可 JSON 序列化 (#3231)。 - 修复了
from_argilla和push_to_argilla以确保字段和问题重建的一致性,并确保UUID分别正确序列化为str(#3234)。 - 重构了
import argilla as rg的用法,以澄清包导航 (#3279)。
文档¶
- 修复了使用 Sentence Transformers 教程进行弱监督中的 URL #3243。
- 修复了教程页面上库按钮的格式 (#3255)。
- 修改了笔记本中错误代码输出的样式 (#3270)。
- 新增了 ElasticSearch 和 OpenSearch 版本 (#3280)。
- 从目录中移除了模板笔记本 (#3271)。
- 修复了使用
pip install argilla的教程,以避免使用软件包的旧版本 (#3282)。
新增¶
- 为
FeedbackDataset的Record新增了metadata属性 (#3194) - 新增
users update命令,用于更新现有用户的角色 (#3188) - 新增
Workspace类,允许用户通过 Python 客户端管理其 Argilla 工作区以及分配给这些工作区的用户 (#3180) - 新增
User类,让用户可以通过 Python 客户端管理其 Argilla 用户 (#3169)。 - 为
FeedbackDataset.push_to_argilla添加了一个选项,用于在循环上传记录时显示tqdm进度条 (#3233)。
已更改¶
- 角色系统现在支持三种不同的角色:
owner、admin和annotator(#3104) admin角色被限定于工作区级别的操作 (#3115)owner用户是在快速入门中默认用户池中创建的,服务器中的默认用户现在具有owner角色 (#3248),恢复 (#3188)。
已弃用¶
- 由于 Python 3.7 于 2023-06-27 终止生命周期 (EOL),Argilla 将不再支持 Python 3.7 (#3188)。更多信息请访问 https://peps.pythonlang.cn/pep-0537/
1.10.0¶
新增¶
已更改¶
- 更新了
SearchEngine和POST /api/v1/me/datasets/{dataset_id}/records/search以返回与搜索查询匹配的记录总数total(#3166)
修复¶
- 在客户端 API 调用的 URL 中将 Enum 替换为字符串值 (Closes #3149)
- 解决了
ArgillaSpanMarkerTrainer对于 Named Entity Recognition 与span_markerv1.1.x 及更高版本的突破性问题。 - 将
ArgillaDatasetCard导入移动到@requires_version装饰器下,以便正确处理huggingface_hub上的ImportError(#3174) - 允许在不同的数据集名称和/或工作区下进行
FeedbackDataset.from_argilla->FeedbackDataset.push_to_argilla流 (#3192)
文档¶
1.9.0¶
新增¶
- 为
TextFieldSettings模型新增布尔值use_markdown属性。 - 为
TextQuestionSettings模型新增布尔值use_markdown属性。 - 为
Response模型新增状态draft。 - 新增
LabelSelectionQuestionSettings类,允许在 API 中创建标签选择(单选)问题 (#3005) - 新增
MultiLabelSelectionQuestionSettings类,允许在 API 中创建多标签选择(多选)问题 (#3010)。 - 新增
POST /api/v1/me/datasets/{dataset_id}/records/search端点 (#3068)。 - 在反馈任务问题表单中新增组件:MultiLabel (#3064) 和 SingleLabel (#3016)。
- 为
argilla/client/feedback/schemas.py中定义的pydantic.BaseModel添加了文档字符串 (#3137) - 在开发者文档中添加了关于执行测试的信息 ([#3143])。
已更改¶
- 更新了
GET /api/v1/me/datasets/:dataset_id/metrics输出有效负载,以包含draft状态的响应计数。 - 新增
LabelSelectionQuestionSettings类,允许在 API 中创建标签选择(单选)问题。 - 新增
MultiLabelSelectionQuestionSettings类,允许在 API 中创建多标签选择(多选)问题。 - 单元测试的数据库设置。现在单元测试使用与本地 Argilla 服务器使用的数据库不同的数据库 (Closes #2987)。
- 更新了
alembic设置,以便能够使用 Argilla 服务器模型中的 SQLAlchemy 元数据自动生成修订/迁移脚本 (#3044) - 改进了
FeedbackDataset.push_to_huggingface在generate_card=True时的DatasetCard生成,遵循了官方 HuggingFace Hub 模板,但更适合来自 Argilla 的FeedbackDataset(#3110)
修复¶
- 禁止
FeedbackDataset中具有相同名称的fields和questions(#3126)。 - 修复了文档中的断开链接,并将开发分支名称从
development更新为develop([#3145])。
1.8.0¶
新增¶
/api/v1/datasets新端点,用于列出和创建数据集 (#2615)。/api/v1/datasets/{dataset_id}新端点,用于获取和删除数据集 (#2615)。/api/v1/datasets/{dataset_id}/publish新端点,用于发布数据集 (#2615)。/api/v1/datasets/{dataset_id}/questions新端点,用于列出和创建数据集问题 (#2615)/api/v1/datasets/{dataset_id}/fields新端点,用于列出和创建数据集字段 (#2615)/api/v1/datasets/{dataset_id}/questions/{question_id}新端点,用于删除数据集问题 (#2615)/api/v1/datasets/{dataset_id}/fields/{field_id}新端点,用于删除数据集字段 (#2615)/api/v1/workspaces/{workspace_id}新端点,用于按 ID 获取工作区 (#2615)/api/v1/responses/{response_id}新端点,用于更新和删除响应 (#2615)/api/v1/datasets/{dataset_id}/records新端点,用于创建和列出数据集记录 (#2615)/api/v1/me/datasets新端点,用于列出用户可见的数据集 (#2615)/api/v1/me/dataset/{dataset_id}/records新端点,用于列出包含用户响应的数据集记录 (#2615)/api/v1/me/datasets/{dataset_id}/metrics新端点,用于获取数据集用户指标 (#2615)/api/v1/me/records/{record_id}/responses新端点,用于创建记录用户响应 (#2615)- 在数据集列表中显示新的反馈任务数据集 ([#2719])
- 反馈任务的新页面 ([#2680])
- 显示反馈任务指标 ([#2822])
- 用户可以在数据集设置页面删除数据集 ([#2792])
- Python 客户端中对
FeedbackDataset的支持(父 PR #2615,以及嵌套 PR:[#2949]、[#2827]、[#2943]、[#2945]、[#2962] 和 [#3003]) - 与 HuggingFace Hub 集成 ([#2949])
- 为文本和 token 分类新增
ArgillaPeftTrainer#2854 - 为
ArgillaSetFitTrainer新增predict_proba()方法 - 为文本分类新增
ArgillaAutoTrainTrainer#2664 - 新的
database revisions命令,显示数据库修订信息
修复¶
- 避免在 Text2text 中为无效的 html 字符串渲染 html ([#2911]https://github.com/argilla-io/argilla/issues/2911)
已更改¶
database migrate命令接受--revision参数以提供特定的修订 IDtokens_length指标函数返回空数据 (#3045)token_length指标函数返回空数据 (#3045)mention_length指标函数返回空数据 (#3045)entity_density指标函数返回空数据 (#3045)
已弃用¶
- 不建议将 Argilla 与 Python 3.7 运行时一起使用,并且从 1.11.0 版本开始将移除支持 (#2902)
tokens_length指标函数已被弃用,将在 1.10.0 版本中移除 (#3045)token_length指标函数已被弃用,将在 1.10.0 版本中移除 (#3045)mention_length指标函数已被弃用,将在 1.10.0 版本中移除 (#3045)entity_density指标函数已被弃用,将在 1.10.0 版本中移除 (#3045)
已移除¶
- 从 token 分类指标存储中移除了 mention
density、tokens_length和chars_length指标 (#3045) - 从 token 分类指标存储中移除了 token
char_start、char_end、tag和score指标 (#3045) - 从 token 分类指标存储中移除了与标签相关的指标 (#3045)
1.7.0¶
新增¶
- 为
rg.log添加max_retries和num_threads参数,以使用退避重试策略并发运行数据日志记录请求。请参阅 #2458 和 #2533 rg.load在加载数据时接受include_vectors和include_metrics。Closes #2398- 为
prepare_for_training添加settings参数 (#2689) - 为
openai添加prepare_for_training(#2658) - 新增
ArgillaOpenAITrainer(#2659) - 为 Named Entity Recognition 新增
ArgillaSpanMarkerTrainer(#2693) - 新增
ArgillaTrainerCLI 支持。Closes (#2809)
修复¶
- 修复 token 分类中的图像对齐问题
已更改¶
- Argilla 快速入门镜像依赖项被外部化到
quickstart.requirements.txt中。请参阅 #2666 - 当记录
id存在时,批量端点将更新数据。Closes #2535 - 从
click迁移到typerCLI 支持。Closes (#2815) - Argilla 服务器 docker 镜像使用 PostgreSQL 支持构建。Closes #2686
rg.log计算所有批次,并为所有失败的批次引发错误。rg.log的默认批次大小现在为 100。
修复¶
argilla.trainingbug 修复和统一 (#2665)- 解决了
ArgillaTrainer中的几个小 bug。
已弃用¶
rg.log_async函数已弃用,将在下一个次要版本中移除。
1.6.0¶
新增¶
ARGILLA_HOME_PATH新环境变量 (#2564)。ARGILLA_DATABASE_URL新环境变量 (#2564)。- 对用户角色的基本支持,包括
admin和annotator(#2564)。 id、first_name、last_name、role、inserted_at和updated_at新的用户字段 (#2564)。/api/users新端点,用于列出和创建用户 (#2564)。/api/users/{user_id}新端点,用于删除用户 (#2564)。/api/workspaces新端点,用于列出和创建工作区 (#2564)。/api/workspaces/{workspace_id}/users新端点,用于列出工作区用户 (#2564)。/api/workspaces/{workspace_id}/users/{user_id}新端点,用于创建和删除工作区用户 (#2564)。argilla.tasks.users.migrate新任务,用于将用户从旧 YAML 文件迁移到数据库 (#2564)。argilla.tasks.users.create新任务,用于创建用户 (#2564)。argilla.tasks.users.create_default新任务,用于使用默认凭据创建用户 (#2564)。argilla.tasks.database.migrate新任务,用于执行数据库迁移 (#2564)。release.Dockerfile和quickstart.Dockerfile现在创建默认的argilladata卷以持久化数据 (#2564)。- 添加用户设置页面。 关闭 #2496
- 添加了
Argilla.training模块,支持spacy、setfit和transformers。 关闭 #2504
修复¶
- 现在当
multi_label=True时,prepare_for_training方法可以正常工作了。 关闭 #2606
已更改¶
ARGILLA_USERS_DB_FILE环境变量现在仅用于将用户从 YAML 文件迁移到数据库 (#2564)。full_name用户字段现已弃用,应使用first_name和last_name代替 (#2564)。password用户字段现在要求最小8个字符,最大100个字符 (#2564)。quickstart.Dockerfile镜像默认用户从team和argilla更改为admin和annotator,包括新的密码和 API 密钥 (#2564)。- 数据集现在仅由具有
admin角色的用户管理 (#2564)。 - 现在在计算指标时可以访问规则列表。 关闭 #2117
- 弱标签的样式更新,并在删除规则时添加反馈 toast。 请参阅 #2626 和 #2648
已移除¶
email用户字段 (#2564)。disabled用户字段 (#2564)。- 私有工作空间的支持 (#2564)。
ARGILLA_LOCAL_AUTH_DEFAULT_APIKEY和ARGILLA_LOCAL_AUTH_DEFAULT_PASSWORD环境变量。 请改用python -m argilla.tasks.users.create_default(#2564)。- 来自 python 客户端的旧版
API Key和workspace标头 - 旧版
API Key常量的默认值。 关闭 #2251
1.5.1 - 2023-03-30¶
修复¶
- 修复在工作空间之间复制数据集时所有者/工作空间信息不正确的问题。 关闭 #2562
- 将空工作空间的数据集复制到默认用户工作空间 905d4de
- 使用 elasticsearch 配置请求后端版本。 关闭 #2311
- 移除标签中按分数排序的功能。 关闭 #2622
已更改¶
1.5.0 - 2023-03-21¶
已添加¶
- 添加了从 argilla 加载数据时要检索的字段。
rg.load因为向量字段而耗时过长,即使用户不需要它。 关闭 #2398 - 为数据集设置添加新页面和组件。 关闭 #2442
- 如果 URL 通过元数据和键 _image_url 传入,则添加在记录中显示图像的功能(用于 TokenClassification 和 TextClassification)
- 元数据中支持非搜索字段。 #2570
- 将记录 ID 引用添加到训练准备方法中。 关闭 #2483
- 添加图像分类教程。 #2420
- 添加“训练”按钮,对 “admin” 角色可见,其中包含来自精选库的代码片段。 关闭 [#2591] (https://github.com/argilla-io/argilla/pull/2591)
已更改¶
- 标签现在集中在一个名为 GlobalLabel Model 的特定 vuex ORM 中,请参阅 https://github.com/argilla-io/argilla/issues/2210。 此模型对于 TokenClassification 和 TextClassification 都是相同的(因此两个任务在 vuex ORM 中都具有带有 color_id 和 shortcuts 参数的标签)
- 标签的快捷方式改进 #2339 已移至数据集设置功能中的 vuex ORM #2444
- 更新文档中的“定义标注模式”部分。
- 默认情况下,记录输入在 UI 中按字母顺序排序。 #2581
- 当分页大小为 1 且折叠区域大小对于笔记本电脑屏幕较大时,记录输入完全可见。 #2587
修复¶
- 再次允许 URL 在 Jupyter notebook 中可点击。 关闭 #2527
已移除¶
- 移除旧客户端使用的一些数据扫描弃用端点。 此更改将破坏与客户端
<v1.3.0的兼容性 - 停止在 python 客户端中使用旧的扫描弃用端点。 此逻辑将破坏客户端与服务器版本
<1.3.0的兼容性 - 移除先前通过数据集页面添加标签的方式。 现在只能通过数据集设置页面添加标签。