更新日志¶

添加了新的 ChatField，支持聊天消息。( #5376)
为分类、评级和排序问题向 rg.Settings 添加了模板设置。( #5426)
在 rg.Dataset.from_hub 中添加了基于 datasets.Features 的 rg.Settings 定义。( #5426)
向 rg.Settings 添加了持久记录映射，以在 rg.Dataset.records.log 中使用。( #5466)
向 rg.Dataset.records.log 方法添加了多种错误处理方法，以警告、忽略或引发错误。( #5466)
更改了 rg.LabelQuestion 的数据集导入和导出，以使用 datasets.ClassLabel 而不是 datasets.Value。( #5474)

2.1.0 ¶

已添加¶

添加了新的 ImageField，支持 URL 和数据 URL。( #5279)
添加了暗黑模式 ( #5412)
向 rg.Dataset.from_hub 添加了设置参数，以在从 Hub 摄取数据集之前定义数据集设置。( #5418)

2.0.1 ¶

已修复¶

修复了创建可选字段时的错误。( #5362)
修复了使用 visible_for_annotators 创建整数和浮点元数据时的错误。( #5364)
修复了为不存在的问题记录 suggestions 或 responses 时的错误。( #5396 by @maxserras)
修复了并行运行测试时测试套件中冲突导致的错误。( #5349)
修复了使用 None 值创建响应时响应模型中的错误。( #5343)

已更改¶

更改了 from_hub 方法，当存在同名数据集时引发错误。( #5258)
更改了 log 方法，当摄取没有已知键的记录时引发描述性错误。( #5356)
更改了 code snippets 以添加新数据集 ( #5395)

已添加¶

向文档站点添加了 Google Analytics。( #5366)
向进度指标添加了前端骨架，以优化加载时间并改善用户体验。( #5391)
在 Python SDK 的 API 参考中的方法中添加了文档。( #5400)

已修复¶

修复了提交最新记录时的错误，有时您会导航到不存在的页面 #5419

2.0.0 ¶

已添加¶

添加了核心类重构。有关概述，请参阅这篇博客文章
添加了 TaskDistribution 以定义记录到用户的分配。
添加了新的文档站点和结构，并迁移了旧文档。

已更改¶

将 FeedbackDataset 更改为 Dataset。
将 rg.init 更改为 rg.Argilla 类以与 Argilla 服务器交互。

已弃用¶

已弃用特定于任务的数据集类，如 TextClassification 和 TokenClassification。要将旧数据集迁移到 rg.Dataset 类，请参阅操作指南。
已弃用用例扩展，如 listeners 和 ArgillaTrainer。

2.0.0rc1 ¶

[!NOTE] 此 2.0.0rc1 版本不包含任何更新日志条目，因为它是 2.0.0 版本的第一个候选版本。以下版本将再次包含更新日志条目。有关 2.0.0 版本更改的总体概述，请参阅我们的博客或我们的新文档。

1.29.0 ¶

已添加¶

添加了对评级问题的支持，以将 0 作为有效值包括在内。( #4860)
添加了对 Python 3.12 的支持。( #4837)
在 FeedbackDataset UI 搜索中添加了按字段搜索。( #4746)
在 FeedbackDataset UI 中添加了记录元数据信息。( #4851)
在 FeedbackDataset UI 中添加了搜索结果高亮显示。( #4747)

已修复¶

修复了整个 argilla 模块的通配符导入。( #4874)
修复了记录没有相关向量时的问题。( #4856)
修复了字符级别的问题。( #4836)

1.28.0 ¶

已添加¶

添加了建议多得分属性。( #4730)
添加了按建议优先排序。( #4731)
为 span 标注重叠添加了多选实体下拉列表。( #4735)
为 span 标注添加了预选高亮显示。( #4726)
在持久存储未启用时添加了横幅。( #4744)
在 Python SDK 上为新的多标签问题 labels_order 属性添加了支持。( #4757)

已更改¶

更改了 Hugging Face space 和用户在登录时的显示方式。( #4748)

已修复¶

修复了韩文字符反转的问题。( #4753)

已修复¶

修复了 wrapt 库版本与 Python 3.11 冲突的要求 ( #4693)

1.27.0 ¶

已添加¶

在 FeedbackDataset 中添加了允许 span 重叠。( #4668)
为 span 问题添加了 allow_overlapping 参数。( #4697)
在 Datasets 表格中添加了总体进度条。( #4696)
添加了德语翻译。( #4688)

已更改¶

建议的新 UI 设计。( #4682)

已修复¶

提高了超过 250 个标签的性能。( #4702)

1.26.1 ¶

已添加¶

添加了自动检测 RTL 语言的支持。( #4686)

1.26.0 ¶

已添加¶

如果您展开 single or multi 标签问题的标签，则状态在整个标注过程中保持不变。( #4630)
在 Python SDK 中添加了对 span 问题的支持。( #4617)
在建议和响应中添加了对 span 值的支持。( #4623)
为 FeedbackDataset 添加了 span 问题。( #4622)
添加了 ARGILLA_CACHE_DIR 环境变量以配置客户端缓存目录。( #4509)

已修复¶

修复了上下文工作区。( #4665)
修复了将 RankingValueSchema 实例传递给建议时准备训练的问题。( #4628)
修复了从 HF 数据集中解析排序值的问题。( #4629)
修复了从 API 响应负载中读取描述的问题。( #4632)
修复了在使用 ds.pull 或迭代数据集时拉取 (n*chunk_size)+1 条记录的问题。( #4662)
修复了客户端在调用 Search 和 Metrics API 时解析枚举值的问题，以支持 Python >=3.11 枚举处理。( #4672)

1.25.0 ¶

[!NOTE] 有关 argilla-server 模块的更改，请访问 argilla-server 发行说明

已添加¶

重新排序单标签/多标签问题的 数据集设置页面 中的标签 ( #4598)
使用 Python SDK 添加了 pandas v2 支持。( #4600)

已移除¶

删除了状态筛选器的 missing 响应。请改用 pending。( #4533)

已修复¶

修复了 FloatMetadataProperty：值不是有效的浮点数 ( #4570)
修复了重定向到 user-settings 而不是 404 user_settings 的问题 ( #4609)

1.24.0 ¶

[!NOTE] 此版本不包含任何新功能，但它包括 argilla-server 依赖项的重大更改。该软件包正在使用此处定义的 argilla-server 依赖项。( #4537)

已更改¶

该软件包正在使用此处定义的 argilla-server 依赖项。( #4537)

1.23.1 ¶

已修复¶

修复了反馈数据集的响应式视图。( #4579)

1.23.0 ¶

已添加¶

添加了按筛选条件批量标注。( #4516)
在焦点选项卡上自动获取新数据集。( #4514)
现在，API v1 响应返回 Record 架构始终包含 dataset_id 作为属性。( #4482)
现在，API v1 响应返回 Response 架构始终包含 record_id 作为属性。( #4482)
现在，API v1 响应返回 Question 架构始终包含 dataset_id 属性。( #4487)
现在，API v1 响应返回 Field 架构始终包含 dataset_id 属性。( #4488)
现在，API v1 响应返回 MetadataProperty 架构始终包含 dataset_id 属性。( #4489)
现在，API v1 响应返回 VectorSettings 架构始终包含 dataset_id 属性。( #4490)
向 .html_utils 模块添加了 pdf_to_html 函数，该函数将 PDF 转换为 dataURL，以便能够在 Argilla UI 中呈现它们。( #4481)
添加了 ARGILLA_AUTH_SECRET_KEY 环境变量。( #4539)
添加了 ARGILLA_AUTH_ALGORITHM 环境变量。( #4539)
添加了 ARGILLA_AUTH_TOKEN_EXPIRATION 环境变量。( #4539)
添加了 ARGILLA_AUTH_OAUTH_CFG 环境变量。( #4546)
添加了对 HuggingFace Hub 的 OAuth2 支持。( #4546)

已弃用¶

已弃用 ARGILLA_LOCAL_AUTH_* 环境变量。将在 v1.25.0 版本中删除。( #4539)

已更改¶

更改了 UserCreate 中 username 属性的正则表达式模式。现在允许使用大写字母。( #4544)

已移除¶

从 python SDK 请求中删除发送 Authorization 标头。( #4535)

已修复¶

修复了标签问题的键盘快捷键。( #4530)

1.22.0 ¶

已添加¶

添加了批量标注支持。( #4333)
从反馈数据集设置还原筛选器。([#4461])(https://github.com/argilla-io/argilla/pull/4461)
在离开具有未保存更改的页面时，反馈数据集设置发出警告。( #4461)
使用 python SDK 添加了 pydantic v2 支持。( #4459)
向 FeedbackDataset 和 RemoteFeedbackDataset 的 __repr__ 方法添加了 vector_settings。( #4454)
添加了使用 SentenceTransformersExtractor 集成 sentence-transformers，以在 FeedbackDataset 和 FeedbackRecord 中配置 vector_settings。( #4454)

已更改¶

模块 argilla.cli.server 定义已移动到 argilla.server.cli 模块。( #4472)
[重大更改] 将 vector_settings_by_name 更改为通用 property_by_name 用法，这将返回 None 而不是引发错误。( #4454)
模块 argilla._constants 中的常量定义 ES_INDEX_REGEX_PATTERN 现在是私有的。( #4472)
当创建/更新记录时，元数据属性中的 nan 值将引发 422 错误。( #4300)
现在允许在元数据属性中使用 None 值。( #4300)
重构并添加 width、height、autoplay 和 loop 属性作为 to_html 函数中的可选参数。( #4481)

已修复¶

分页到新记录时，会自动向下滚动到选定的表单区域。( #4333)

已弃用¶

用于筛选记录的 missing 响应状态已弃用，将在 v1.24.0 版本中删除。请改用 pending。( #4433)

已移除¶

已删除已弃用的 python -m argilla database 命令。( #4472)

1.21.0 ¶

已添加¶

为标注视图添加了新的草稿队列 ( #4334)
为 FeedbackDataset 添加了标注指标模块 (argilla.client.feedback.metrics)。( #4175)。
添加了用于处理和翻译来自服务器的 401 HTTP 状态代码错误的策略 `( #4362)
添加了使用 TextDescriptivesExtractor 集成 textdescriptives，以在 FeedbackDataset 和 FeedbackRecord 中配置 metadata_properties。( #4400)。由 @m-newhauser 贡献
添加了 POST /api/v1/me/responses/bulk 端点，以批量为当前用户创建响应。( #4380)
为术语元数据属性添加了列表支持。( 关闭 #4359)
添加了新的 CLI 任务，以将数据集和记录重新索引到搜索引擎中。( #4404)
向 rg.init 和 Argilla 添加了 httpx_extra_kwargs 参数，以允许将额外的参数传递给 Argilla 使用的 httpx.Client。( #4440)
在 Argilla 的 __init__ 导入中添加了 ResponseStatusFilter 枚举 ( #4118)。由 @Piyush-Kumar-Ghosh 贡献。

已更改¶

更高效和更简单的快捷方式系统 ( #4215)
将 ArgillaSingleton、init 和 active_client 移动到新模块 singleton。( #4347)
更新了 argilla.load 函数，使其也适用于 FeedbackDataset。( #4347)
[重大更改] 更新了 argilla.delete 函数，使其也适用于 FeedbackDataset。如果数据集不存在，现在会引发错误。( #4347)
更新了 argilla.list_datasets 函数，使其也适用于 FeedbackDataset。( #4347)

已修复¶

修复了 TextClassificationSettings.from_dict 方法中的错误，其中创建的 label_schema 是 dict 列表，而不是 str 列表。( #4347)
修复了分页组件上的记录总数 ( #4424)

已移除¶

删除了标注视图的 draft 自动保存 ( #4334)

1.20.0 ¶

新增¶

新增 GET /api/v1/datasets/:dataset_id/records/search/suggestions/options 端点，用于返回搜索建议的可用选项。(<#4260)
在 FeedbackDataset 和 RemoteFeedbackDataset 的 __repr__ 方法中添加了 metadata_properties。(<#4192)。
在 ArgillaTrainer 中添加了 get_model_kwargs, get_trainer_kwargs, get_trainer_model, get_trainer_tokenizer 和 get_trainer 方法，以提高跨框架的互操作性。(<#4214)。
在 ArgillaTrainer 中添加了额外的格式检查，以更好地实现 defaults 和 formatting_func 用法的互操作性。(<#4214)。
在 ArgillaTrainer 的 update_config 方法中添加了一个警告，以强调 kwargs 是否已正确更新。(<#4214)。
添加了 argilla.client.feedback.utils 模块，包含 html_utils (主要包括将媒体转换为 dataURL 以便在 Argilla UI 中渲染的 video/audio/image_to_html，以及以自定义方式高亮 token 的 create_token_highlights。两者都适用于 use_markdown=True 的 TextQuestion 和 TextField) 和 assignments (主要包括根据注释者和记录的数量、重叠和 shuffle 选项来分配记录的 assign_records；以及根据记录分配来分配和创建工作区的 assign_workspace)。(<#4121)

修复¶

修复了 ArgillaTrainer 中使用数值标签时，错误地使用 RatingQuestion 而不是 RankingQuestion 的问题 (<#4171)
修复了 ArgillaTrainer 中的错误，现在我们可以使用验证样本为 extractive_question_answering 进行训练 (<#4204)
修复了 ArgillaTrainer 中的错误，当为 sentence-similarity 训练时，它无法处理每个记录的值列表 (<#4211)
修复了 RankingQuestion 的统一策略中的错误 (<#4295)
修复了 TextClassificationSettings.labels_schema 顺序未被保留的问题。关闭了 <#3828 (<#4332)
修复了请求不存在的 API 端点时发生的错误。关闭了 <#4073 (<#4325)
修复了将 draft 响应传递到创建记录端点时发生的错误。(<#4354)

更改¶

[breaking] 建议的 agent 字段现在只接受某些特定字符和有限的长度。(<#4265)
[breaking] 建议的 score 字段现在只接受 0 到 1 范围内的浮点数值。(<#4266)
更新了 POST /api/v1/dataset/:dataset_id/records/search 端点，以支持可选的 query 属性。(<#4327)
更新了 POST /api/v1/dataset/:dataset_id/records/search 端点，以支持 filter 和 sort 属性。(<#4327)
更新了 POST /api/v1/me/datasets/:dataset_id/records/search 端点，以支持可选的 query 属性。(<#4270)
更新了 POST /api/v1/me/datasets/:dataset_id/records/search 端点，以支持 filter 和 sort 属性。(<#4270)
将从 tqdm 风格更改为 rich 风格，以改进从 Argilla 拉取和推送 FeedbackDataset 时的日志记录样式。(<#4267)。由 @zucchini-nlp 贡献。
更新了 push_to_argilla，在推送后打印推送的 RemoteFeedbackDataset 的 repr，并将 show_progress 默认更改为 True。(<#4223)
更改了 ArgillaTrainer 的 models 和 tokenizer，以明确允许在需要时进行更改。(<#4214)。

1.19.0 ¶

新增¶

新增 POST /api/v1/datasets/:dataset_id/records/search 端点，用于在没有用户上下文的情况下搜索记录，包括所有用户的响应。(<#4143)
新增 POST /api/v1/datasets/:dataset_id/vectors-settings 端点，用于为数据集创建向量设置。(<#3776)
新增 GET /api/v1/datasets/:dataset_id/vectors-settings 端点，用于列出数据集的向量设置。(<#3776)
新增 DELETE /api/v1/vectors-settings/:vector_settings_id 端点，用于删除向量设置。(<#3776)
新增 PATCH /api/v1/vectors-settings/:vector_settings_id 端点，用于更新向量设置。(<#4092)
新增 GET /api/v1/records/:record_id 端点，用于获取特定记录。(<#4039)
添加了对 GET /api/v1/datasets/:dataset_id/records 端点响应的支持，可以使用 include 查询参数包含向量。(<#4063)
添加了对 GET /api/v1/me/datasets/:dataset_id/records 端点响应的支持，可以使用 include 查询参数包含向量。(<#4063)
添加了对 POST /api/v1/me/datasets/:dataset_id/records/search 端点响应的支持，可以使用 include 查询参数包含向量。(<#4063)
在 from_huggingface() 方法中添加了 show_progress 参数，使解析记录过程的进度条成为可选。(<#4132)。
在 from_huggingface() 方法中为解析记录过程添加了进度条，使用 tqdm 中的 trange。(<#4132)。
为没有元数据的数据集添加了按 inserted_at 或 updated_at 排序的功能。(<4147)
为 RemoteFeedbackDataset 的 pull() 方法添加了 max_records 参数。(<#4074)
添加了使用 ArgillaTrainer.push_to_huggingface 将您的模型推送到 Hugging Face Hub 的功能 (<#3976)。由 @Racso-3141 贡献。
为 ArgillaTrainer 添加了 filter_by 参数，以按 response_status 进行过滤 (<#4120)。
为 ArgillaTrainer 添加了 sort_by 参数，以按 metadata 进行排序 (<#4120)。
为 ArgillaTrainer 添加了 max_records 参数，以限制用于训练的记录数量 (<#4120)。
为本地和远程 FeedbackDataset 添加了 add_vector_settings 方法。(<#4055)
为本地和远程 FeedbackDataset 添加了 update_vectors_settings 方法。(<#4122)
为本地和远程 FeedbackDataset 添加了 delete_vectors_settings 方法。(<#4130)
为本地和远程 FeedbackDataset 添加了 vector_settings_by_name 方法。(<#4055)
为本地和远程 FeedbackDataset 添加了 find_similar_records 方法。(<#4023)
添加了 ARGILLA_SEARCH_ENGINE 环境变量，用于配置要使用的搜索引擎。(<#4019)

更改¶

[breaking] 移除对 Elasticsearch < 8.5 和 OpenSearch < 2.4 的支持。(<#4173)
[breaking] 使用 OpenSearch 引擎的用户必须使用版本 >=2.4 并设置 ARGILLA_SEARCH_ENGINE=opensearch。(<#4019 和 <#4111)
[breaking] 更改了 FeedbackDataset.*_by_name() 方法，当未找到匹配项时返回 None (<#4101)。
[breaking] GET /api/v1/datasets/:dataset_id/records 端点的 limit 查询参数现在仅接受大于等于 1 且小于等于 1000 的值。(<#4143)
[breaking] GET /api/v1/me/datasets/:dataset_id/records 端点的 limit 查询参数现在仅接受大于等于 1 且小于等于 1000 的值。(<#4143)
更新 GET /api/v1/datasets/:dataset_id/records 端点，以使用搜索引擎获取记录。(<#4142)
更新 GET /api/v1/me/datasets/:dataset_id/records 端点，以使用搜索引擎获取记录。(<#4142)
更新 POST /api/v1/datasets/:dataset_id/records 端点，以允许创建带有 vectors 的记录 (<#4022)
更新 PATCH /api/v1/datasets/:dataset_id 端点，以允许更新 allow_extra_metadata 属性。(<#4112)
更新 PATCH /api/v1/datasets/:dataset_id/records 端点，以允许使用 vectors 更新记录。(<#4062)
更新 PATCH /api/v1/records/:record_id 端点，以允许使用 vectors 更新记录。(<#4062)
更新 POST /api/v1/me/datasets/:dataset_id/records/search 端点，以允许使用向量搜索记录。(<#4019)
更新 BaseElasticAndOpenSearchEngine.index_records 方法，以同时索引记录向量。(<#4062)
更新 FeedbackDataset.__init__，以允许传递向量设置列表。(<#4055)
更新 FeedbackDataset.push_to_argilla，以同时推送向量设置。(<#4055)
更新 FeedbackDatasetRecord，以支持创建带有向量的记录。(<#4043)
使用余弦相似度计算向量之间的相似度。(<#4124)

修复¶

修复了 svg 图像超出屏幕的问题，该问题由过大的图像引起 (<#4047)
修复了创建具有来自多个用户的响应的记录的问题。关闭了 <#3746 和 <#3808 (<#4142)
修复了作为所有者删除或更新注释者的响应的问题。(提交 <403a66d)
修复了按 ID 获取记录时传递 user_id 的问题。(提交 <98c7927)
修复了将数据集推送到 Hugging Face Hub 时，非基本标签被序列化的问题。关闭了 <#4089 (<#4200)

1.18.0 ¶

新增¶

新的 GET /api/v1/datasets/:dataset_id/metadata-properties 端点，用于列出数据集元数据属性。(<#3813)
新的 POST /api/v1/datasets/:dataset_id/metadata-properties 端点，用于创建数据集元数据属性。(<#3813)
新的 PATCH /api/v1/metadata-properties/:metadata_property_id 端点，允许更新特定的元数据属性。(<#3952)
新的 DELETE /api/v1/metadata-properties/:metadata_property_id 端点，用于删除特定的元数据属性。(<#3911)
新的 GET /api/v1/metadata-properties/:metadata_property_id/metrics 端点，用于计算特定元数据属性的指标。(<#3856)
新的 PATCH /api/v1/records/:record_id 端点，用于更新记录。(<#3920)
新的 PATCH /api/v1/dataset/:dataset_id/records 端点，用于批量更新数据集的记录。(<#3934)
PATCH /api/v1/questions/:question_id 缺少验证。现在 title 和 description 使用与创建问题时相同的验证。(<#3967)
添加了 TermsMetadataProperty、IntegerMetadataProperty 和 FloatMetadataProperty 类，允许为 FeedbackDataset 定义元数据属性。(<#3818)
在 RemoteFeedbackDataset 的 filter_by 方法中添加了 metadata_filters，以根据元数据进行过滤，例如 TermsMetadataFilter、IntegerMetadataFilter 和 FloatMetadataFilter。(<#3834)
在其模式以及作为 add_records 和 filter_by 方法的一部分，为 metadata_properties 和 metadata_filters 都添加了验证层。(<#3860)
为列表记录端点添加了 sort_by 查询参数，允许按 inserted_at、updated_at 或元数据属性对记录进行排序。(<#3843)
为 FeedbackDataset 和 RemoteFeedbackDataset (即 Argilla 中的 FeedbackDataset) 都添加了 add_metadata_property 方法。(<#3900)
在 RemoteResponseSchema 中添加了字段 inserted_at 和 updated_at。(<#3822)
为 RemoteFeedbackDataset (即上传到 Argilla 的 FeedbackDataset) 添加了 sort_by 支持。(<#3925)
为 push_to_huggingface 和 from_huggingface 添加了 metadata_properties 支持。(<#3947)
添加了从 Python SDK 更新记录 (metadata) 的支持。(<#3946)
添加了 delete_metadata_properties 方法以删除元数据属性。(<#3932)
添加了 update_metadata_properties 方法以更新 metadata_properties。(<#3961)
通过 ArgillaTrainer.save 添加了自动模型卡片生成功能 (<#3857)
为预定义的任务模板添加了 FeedbackDataset TaskTemplateMixin。(<#3969)
排序问题可以接受的最大选项数量限制为 50。(<#3975)
为 FeedbackDataset 添加了新的 last_activity_at 字段，用于公开关联数据集的最后活动发生时间。(<#3992)

更改¶

GET /api/v1/datasets/{dataset_id}/records, GET /api/v1/me/datasets/{dataset_id}/records 和 POST /api/v1/me/datasets/{dataset_id}/records/search 端点现在返回记录的 total 总数。(<#3848, <#3903)
为已过滤的数据集实现了 __len__ 方法，以返回与提供的过滤器匹配的记录数。(<#3916)
增加了为反馈数据集创建的 Elasticsearch 的默认最大结果窗口。(<#3929)
强制在创建记录后刷新 elastic 索引。(<#3929)
在 Python SDK 中验证用于过滤和排序的元数据字段。(<#3993)
在搜索引擎索引中索引数据时，使用元数据属性名称而不是 ID。(<#3994)

修复¶

修复了响应模式以允许 values 为 None，即当记录被丢弃时，response.values 将设置为 None。(<#3926)

1.17.0 ¶

新增¶

在 RemoteResponseSchema 中添加了字段 inserted_at 和 updated_at (<#3822)。
通过 ArgillaTrainer.save 添加了自动模型卡片生成功能 (<#3857)。
为 FeedbackDataset 添加了任务模板 (<#3973)。

更改¶

更新了 Dockerfile 以使用多阶段构建 (<#3221 和 <#3793)。
更新了文本分类笔记本的 active learning 以使用最新的 small-text 版本 (<#3831)。
更改了文本分类笔记本的 active learning 中的 argilla 数据集名称，使其与 huggingface spaces 中的默认名称一致 (<#3831)。
FeedbackDataset API 方法已对齐，可通过多种实现方式访问 (<#3937)。
远程数据集的 unify_responses 支持 (<#3937)。

修复¶

修复了字段未按数据集设置中定义的顺序显示的问题。关闭了 <#3959 (<#3984)
更新了文本分类笔记本的 active learning，以将 int 类型的 ID 传递给 TextClassificationRecord (<#3831)。
修复了记录字段验证，该验证阻止了在字段值为 None 时记录带有可选字段 (即 required=True) 的记录 (<#3846)。
始终在 ArgillaTrainer 中将 pretrained_model_name_or_path 属性设置为字符串 (<#3914)。
inserted_at 和 updated_at 属性使用 utcnow 工厂创建，以避免时间戳创建时出现意外的竞争条件 (<#3945)
修复了通过参数 workspace 提供工作区时，configure_dataset_settings 的问题 (<#3887)。
修复了使用带有 peft_config 参数的 ArgillaTrainer 训练的模型的保存问题 (<#3795)。
修复了从 Hugging Face Hub 加载先前使用另一个 Argilla 版本 (从 1.8.0 开始，首次引入时) 转储的 FeedbackDataset 时，from_huggingface 的向后兼容性问题 (<#3829)。
修复了 TrainingTask 的错误的 __repr__ 问题。(<#3969)
修复了 TrainingTask 的 prepare_for_training_with_* 的错误键返回错误。(<#3969)

已弃用¶

函数 rg.configure_dataset 已弃用，建议使用 rg.configure_dataset_settings。前者将在 1.19.0 版本中移除

1.16.0 ¶

新增¶

添加了 ArgillaTrainer 与 sentence-transformers 的集成，允许对句子相似度进行微调 (<#3739)
添加了 ArgillaTrainer 与 TrainingTask.for_question_answering 的集成 (<#3740)
添加了 自动保存记录 功能，以自动保存您正在处理的当前记录 (<#3541)
添加了 ArgillaTrainer 与 OpenAI 的集成，允许对聊天完成进行微调 (<#3615)
添加了 workspaces list 命令，用于列出 Argilla 工作区 (<#3594)。
添加了 datasets list 命令，用于列出 Argilla 数据集 (<#3658)。
添加了 users create 命令，用于创建用户 (<#3667)。
添加了 whoami 命令，用于获取当前用户 (<#3673)。
添加了 users delete 命令，用于删除用户 (<#3671)。
添加了 users list 命令，用于列出用户 (<#3688)。
添加了 workspaces delete-user 命令，用于从工作区中移除用户 (<#3699)。
添加了 datasets list 命令，用于列出 Argilla 数据集 (<#3658)。
添加了 users create 命令，用于创建用户 (<#3667)。
添加了 users delete 命令，用于删除用户 (<#3671)。
添加了 workspaces create 命令，用于创建 Argilla 工作区 (<#3676)。
添加了 datasets push-to-hub 命令，用于将 FeedbackDataset 从 Argilla 推送到 HuggingFace Hub (<#3685)。
添加了 info 命令，用于获取有关使用的 Argilla 客户端和服务器的信息 (<#3707)。
添加了 datasets delete 命令，用于从 Argilla 中删除 FeedbackDataset (<#3703)。
为 RemoteFeedbackDataset 和 FilteredRemoteFeedbackDataset 添加了 created_at 和 updated_at 属性 (<#3709)。
添加了在以权限不足的已登录用户执行命令时处理 PermissionError 的功能 (<#3717)。
添加了 workspaces add-user 命令，用于向工作区添加用户 (<#3712)。
为 GET /api/v1/me/datasets 端点添加了 workspace_id 参数 (<#3727)。
在 Python SDK 的 list_datasets 中添加了 workspace_id 参数 (<#3727)。
添加了 argilla 脚本，允许使用 argilla 命令执行 Argilla CLI (<#3730)。
添加了对将已初始化的 model 和 tokenizer 实例传递给 ArgillaTrainer 的支持 (<#3751)
添加了 server_info 函数，用于检查 Argilla 服务器信息 (也可以通过 rg.server_info 访问) (<#3772)。

更改¶

将 database 命令移动到 server 命令组下 (<#3710)
仅当安装了 server 额外要求时，server 命令才包含在 CLI 应用中 (<#3710)。
更新了 PUT /api/v1/responses/{response_id}，以使用请求中收到的 values 替换存储的 values (<#3711)。
当 Workspace.add_user 和 Workspace.delete_user 中的 user_id 是具有所有者角色的用户的 ID 时，显示 UserWarning，因为他们不需要显式权限 (<#3716)。
将 tasks 子包重命名为 cli (<#3723)。
更改了 CLI 中的 argilla database 命令，现在通过 argilla server database 访问，将在即将发布的版本中弃用 (<#3754)。
更改了后端中 visible_options (标签和多标签选择问题) 验证，以检查提供的值是否大于等于/等于 3 且小于等于/等于提供的选项数量 (<#3773)。

修复¶

修复了 清除答案时文本组件中的移除用户修改 问题 (<#3775)
修复了 数据集反馈任务中高亮显示原始文本字段 问题 (<#3731)
修复了 字段标题过长 问题 (<#3734)
修复了删除 DatasetForTextClassification 时的错误消息 (<#3652)
修复了数据标注期间的 待处理队列 分页问题 (<#3677)
修复了 visible_labels 默认值，仅当未提供 visible_labels 且 len(labels) > 20 时才为 20，否则对于 LabelQuestion 和 MultiLabelQuestion，它将是提供的 visible_labels 值或 None (<#3702)。
修复了 RemoteFeedbackDataset 包含建议时 DatasetCard 的生成问题 (<#3718)。
在 ResponseSchema 中添加了缺失的 draft 状态，因为现在通过 UI 进行注释时可能会出现 draft 状态的响应 (<#3749)。
搜索在记录字段中分布的查询词 (<#3759)。
修复了 Python 3.11 兼容性问题，该问题是由端点 URL 中的 TaskType 枚举替换导致的 /api/datasets 端点引起的 (<#3769)。
修复了 RankingValueSchema 和 FeedbackRankingValueModel 模式，以允许在 status=draft 时 rank=None (<#3781)。

1.15.1 ¶

修复¶

修复了 文本组件 文本内容清理行为，仅针对 markdown，以防止文本消失 (<#3738)
修复了 文本组件，现在您需要按 Escape 键才能退出文本区域 (<#3733)
修复了 SearchEngine 为每个 FeedbackDataset 创建相同数量的主分片和副本分片的问题 (<#3736)。

1.15.0 ¶

新增¶

添加了 在 UI 中直接更新反馈数据集的指南和数据集设置的功能 (<#3489)
添加了 ArgillaTrainer 与 TRL 的集成，允许轻松进行监督微调、奖励建模、直接偏好优化和近端策略优化 (<#3467)
为 ArgillaTrainer 的 FeedbackDataset 数据集添加了 formatting_func，为数据添加自定义格式 (<#3599)。
在 argilla.client.login 中添加了 login 函数，用于登录 Argilla 服务器并在本地存储凭据 (<#3582)。
添加了 login 命令，用于登录 Argilla 服务器 (<#3600)。
添加了 logout 命令，用于从 Argilla 服务器注销 (<#3605)。
添加了 DELETE /api/v1/suggestions/{suggestion_id} 端点，用于删除给定 ID 的建议 (<#3617)。
添加了 DELETE /api/v1/records/{record_id}/suggestions 端点，用于删除链接到同一记录的多个建议，给定它们的 ID (<#3617)。
为 GET /api/v1/datasets/{dataset_id}/records 添加了 response_status 参数，以便能够按 response_status 进行过滤，就像之前为 GET /api/v1/me/datasets/{dataset_id}/records 包含的那样 (<#3613)。
为 ArgillaMixin 添加了 list 类方法，可以像 FeedbackDataset.list() 一样使用，还包括 workspace 作为参数来列出工作区 (<#3619)。
在 RemoteFeedbackDataset 中添加了 filter_by 方法，以根据 response_status 进行过滤 (<#3610)。
添加了 list_workspaces 函数 (用作 rg.list_workspaces，但首选 Workspace.list)，用于列出 Argilla 中用户的所有工作区 (<#3641)。
添加了 list_datasets 函数 (用作 rg.list_datasets)，用于列出 Argilla 中的 TextClassification、TokenClassification 和 Text2Text 数据集 (<#3638)。
添加了 RemoteSuggestionSchema 来管理 Argilla 中的建议，包括 delete 方法，用于通过 DELETE /api/v1/suggestions/{suggestion_id} 从 Argilla 中删除建议 (<#3651)。
为 RemoteFeedbackRecord 添加了 delete_suggestions，用于通过 DELETE /api/v1/records/{record_id}/suggestions 从 Argilla 中删除建议 (<#3651)。

更改¶

更改了 可选标签的 * 标记，用于必填问题 (<#3608)
更新了 RemoteFeedbackDataset.delete_records 以使用批量删除记录端点 (<#3580)。
为某些 RemoteFeedbackDataset、RemoteFeedbackRecords 和 RemoteFeedbackRecord 方法包含了 allowed_for_roles，这些方法仅允许具有 owner 和 admin 角色的用户使用 (<#3601)。
将 ArgillaToFromMixin 重命名为 ArgillaMixin (<#3619)。
将 users CLI 应用移动到 database CLI 应用下 (<#3593)。
将服务器 Enum 类移动到 argilla.server.enums 模块 (<#3620)。

修复¶

修复了 面包屑导航中的按工作区过滤 问题 (<#3577)
修复了 数据集表中的按工作区过滤 问题 (<#3604)
修复了 Text2Text 和 TextClassification 的 查询搜索高亮 问题 (<#3621)
修复了 RatingQuestion.values 验证，当值超出范围时 (例如 [1, 10]) 引发 ValidationError (<#3626)。

移除¶

从 TaskType 中移除了未使用的 multi_task_text_token_classification (<#3640)。
从 RemoteFeedbackDataset 中移除了 argilla_id，改为使用 id (<#3663)。
从 RemoteFeedbackDataset 中移除了 fetch_records，因为现在记录是从 Argilla 延迟获取的 (<#3663)。
从 RemoteFeedbackDataset 中移除了 push_to_argilla，因为它仅在通过本地 FeedbackDataset 调用时才起作用，因为现在远程数据集的更新会自动推送到 Argilla (<#3663)。
已移除 FeedbackRecord 和 RemoteFeedbackRecord 中的 set_suggestions，转而使用 update(suggestions=...)，因为记录的所有“可更新”属性的更新都将通过 update 进行 (#3663)。
移除了客户端 Dataset 数据模型中未使用的 owner 属性 (#3665)

1.14.1 ¶

修复¶

修复了由于缺少 commit，导致在 begin_nested 之后 PostgreSQL 数据库未更新的问题 (#3567)。

修复¶

修复了在更新 rating 或 ranking 问题时无法提供 settings 的问题 (#3552)。

1.14.0 ¶

新增¶

新增 PATCH /api/v1/fields/{field_id} 端点，用于更新字段标题和 markdown 设置 (#3421)。
新增 PATCH /api/v1/datasets/{dataset_id} 端点，用于更新数据集名称和指南 (#3402)。
新增 PATCH /api/v1/questions/{question_id} 端点，用于更新问题标题、描述和一些设置（取决于问题类型） (#3477)。
新增 DELETE /api/v1/records/{record_id} 端点，用于根据记录 ID 删除记录 (#3337)。
在 RemoteFeedbackDataset（推送到 Argilla 的 FeedbackDataset）中新增 pull 方法，用于从 Argilla 中拉取所有记录，并作为 FeedbackDataset 的本地副本返回 (#3465)。
在 RemoteFeedbackDataset（推送到 Argilla 的 FeedbackDataset）中新增 delete 方法 (#3512)。
在 RemoteFeedbackDataset 中新增 delete_records 方法，并在 RemoteFeedbackRecord 中新增 delete 方法，用于从 Argilla 中删除记录 (#3526)。

已更改¶

提高了数据集包含向量时弱标签的效率 (#3444)。
新增 ArgillaDatasetMixin，用于从 FeedbackDataset 中分离出 Argilla 相关的功能 (#3427)
将 FeedbackDataset 相关的 pydantic.BaseModel 模式移动到 argilla.client.feedback.schemas 中，以便更好地组织结构，并更具可扩展性和可维护性 (#3427)
更新 CLI 以使用数据库异步连接 (#3450)。
将评分问题的值限制在正数范围 [1, 10] 内 (#3451)。
更新了 POST /api/users 端点，使其能够提供用户应链接到的工作区名称列表 (#3462)。
更新了 Python 客户端 User.create 方法，使其能够提供用户应链接到的工作区名称列表 (#3462)。
更新了 GET /api/v1/me/datasets/{dataset_id}/records 端点，允许获取与通过查询参数提供的响应状态之一匹配的记录 (#3359)。
更新了 POST /api/v1/me/datasets/{dataset_id}/records 端点，允许搜索与通过查询参数提供的响应状态之一匹配的记录 (#3359)。
更新了 SearchEngine.search 方法，允许搜索与提供的响应状态之一匹配的记录 (#3359)。
在调用 FeedbackDataset.push_to_argilla 后，方法 FeedbackDataset.add_records 和 FeedbackRecord.set_suggestions 将自动调用 Argilla，无需显式调用 push_to_argilla (#3465)。
现在调用 FeedbackDataset.push_to_huggingface 会将 responses 转储为 List[Dict[str, Any]] 而不是 Sequence，以便通过 🤗datasets 更易读 (#3539)。

修复¶

修复了从 argilla_template.md 生成 HuggingFace DatasetCard 时，Jinja2 中 bool 值和 default 引起的问题 (#3499)。
修复了 DatasetConfig.from_yaml 在调用 FeedbackDataset.from_huggingface 时失败的问题，因为 UUID 无法被 PyYAML 自动反序列化，因此 UUID 不再被转储或加载 (#3502)。
修复了一个不允许 Argilla 服务器在代理后工作的问题 (#3543)。
TextClassificationSettings 和 TokenClassificationSettings 标签在 Python 客户端和后端端点中均被正确解析为字符串 (#3495)。
修复了 PUT /api/v1/datasets/{dataset_id}/publish 以检查是否至少有一个字段和问题具有 required=True (#3511)。
修复了 FeedbackDataset.from_huggingface，因为当没有 responses 时，suggestions 会丢失 (#3539)。
修复了 QuestionSchema 和 FieldSchema 未验证 name 属性的问题 (#3550)。

已弃用¶

在调用 FeedbackDataset.push_to_argilla 后，再次调用 push_to_argilla 不会执行任何操作，因为数据集已推送到 Argilla (#3465)。
在调用 FeedbackDataset.push_to_argilla 后，调用 fetch_records 不会执行任何操作，因为记录是从 Argilla 延迟获取的 (#3465)。
在调用 FeedbackDataset.push_to_argilla 后，Argilla ID 不再存储在属性/属性 argilla_id 中，而是存储在 id 中 (#3465)。

1.13.3 ¶

修复¶

修复了 ModuleNotFoundError，原因是 ArgillaTrainer 中使用的 argilla.utils.telemetry 模块导入了一个默认情况下未安装的可选依赖项 (#3471)。
修复了 ImportError，原因是 argilla.client.feedback.config 模块导入了默认情况下未安装的 pyyaml 可选依赖项 (#3471)。

1.13.2 ¶

修复¶

修复了在 PostgreSQL 中创建的 suggestion_type_enum ENUM 数据类型没有任何值的问题 (#3445)。

1.13.1 ¶

修复¶

修复了 PostgreSQL 的数据库迁移问题（参见 #3438）

1.13.0 ¶

新增¶

新增 GET /api/v1/users/{user_id}/workspaces 端点，用于列出用户所属的工作区 (#3308 和 #3343)。
新增 HuggingFaceDatasetMixin 用于内部使用，以将 FeedbackDataset 集成从类本身分离出来，并使用 Mixins 代替 (#3326)。
新增 GET /api/v1/records/{record_id}/suggestions API 端点，用于获取与记录关联的响应的建议列表 (#3304)。
新增 POST /api/v1/records/{record_id}/suggestions API 端点，用于为与记录关联的响应创建建议 (#3304)。
新增对 RankingQuestionStrategy、RankingQuestionUnification 和 TrainingTaskMapping 的 .for_text_classification 方法的支持 (#3364)
新增 PUT /api/v1/records/{record_id}/suggestions API 端点，用于为与记录关联的响应创建或更新建议 (#3304 & 3391)。
为 FeedbackRecord 新增 suggestions 属性，并允许从 Python 客户端添加和检索建议 (#3370)
为 User 和 Workspace 新增 allowed_for_roles Python 装饰器，用于检查当前用户是否具有访问装饰函数/方法所需的角色 (#3383)
新增 API 和 Python 客户端对工作区删除的支持 (Closes #3260)
新增 GET /api/v1/me/workspaces 端点，用于列出当前活动用户的工作区 (#3390)

已更改¶

更新了 GET /api/v1/datasets/{dataset_id}/records、GET /api/v1/me/datasets/{dataset_id}/records、POST /api/v1/me/datasets/{dataset_id}/records/search 端点的输出有效负载，以根据 include 查询参数的值包含记录的建议 (#3304)。
更新了 POST /api/v1/datasets/{dataset_id}/records 输入有效负载，以添加建议 (#3304)。
POST /api/datasets/:dataset-id/:task/bulk 端点在数据集不存在时不会创建数据集 (Closes #3244)
为 ArgillaTrainer 新增 Telemetry 支持 (closes #3325)
User.workspaces 不再是属性，而是属性，并调用 list_user_workspaces 以列出给定用户 ID 的所有工作区名称 (#3334)
将 FeedbackDatasetConfig 重命名为 DatasetConfig，并从 YAML 导出/导入作为默认设置，而不是 JSON（仅在 FeedbackDataset 的 push_to_huggingface 和 from_huggingface 方法内部使用） (#3326)。
受保护的元数据字段支持文本信息以外的其他信息 - 现有数据集必须重新索引。有关更多详细信息，请参阅文档 (Closes #3332)。
更新了 Dockerfile 父镜像，从 python:3.9.16-slim 升级到 python:3.10.12-slim (#3425)。
更新了 quickstart.Dockerfile 父镜像，从 elasticsearch:8.5.3 升级到 argilla/argilla-server:${ARGILLA_VERSION} (#3425)。

已移除¶

移除了对非前缀环境变量的支持。所有有效的环境变量都以 ARGILLA_ 开头（参见 #3392）。

修复¶

修复了 GET /api/v1/me/datasets/{dataset_id}/records 端点始终返回记录的响应，即使未通过 include 查询参数提供 responses 的问题 (#3304)。
受保护的元数据字段的值不再被截断 (Closes #3331)。
大数字 ID 在 UI 中正确呈现 (Closes #3265)
修复了 ArgillaDatasetCard 以包含所有现有问题的 values/labels (#3366)

已弃用¶

文本分类、token 分类和 text2text 数据集中对记录 ID 的整数支持。

1.12.1 ¶

修复¶

使用默认 argilla 用户的 rg.init 会跳过设置默认工作区（如果不可用）。(Closes #3340)
解决了 ArgillaTrainer 和 TrainingTaskMapping 的错误导入结构问题 (Closes #3345)
将 pydantic 依赖项固定到版本 < 2 (Closes 3348)

1.12.0 ¶

新增¶

新增 RankingQuestionSettings 类，允许在 API 中使用 POST /api/v1/datasets/{dataset_id}/questions 端点创建排序问题 (#3232)
在 Python 客户端中新增 RankingQuestion 以创建排序问题 (#3275)。
在反馈任务问题表单中新增 Ranking 组件 (#3177 & #3246)。
为 FeedbackDataset.prepare_for_training 方法新增功能，用于为 RatingQuestion、LabelQuestion 和 MultiLabelQuestion 提供的响应生成特定于框架的数据集 (#3151)。
新增 ArgillaSpaCyTransformersTrainer 类，用于支持使用 spacy-transformers 进行训练 (#3256)。

文档¶

在开发者文档中新增了关于如何运行 Argilla 前端的说明 (#3314)。

已更改¶

所有 docker 相关文件都已移动到 docker 文件夹中 (#3053)。
release.Dockerfile 已重命名为 Dockerfile (#3133)。
更新了 rg.load 函数，对于用户尝试使用该函数加载 FeedbackDataset 的情况，会引发带有解释性消息的 ValueError (#3289)。
更新了 ArgillaSpaCyTrainer 以允许重用 tok2vec (#3256)。

修复¶

在 rg.set_workspace 上检查 Argilla 上可用的工作区 (Closes #3262)

1.11.0 ¶

修复¶

将 np.float 别名替换为 float，以避免在 numpy>=1.24.0 的情况下使用 find_label_errors 函数时出现 AttributeError (#3214)。
修复了当 FeedbackRecord 中没有响应或可选响应时，format_as("datasets") 将其值设置为 🤗 Datasets 期望的值，而不是仅仅设置为 None 的问题 (#3224)。
修复了 push_to_huggingface() 在 generate_card=True（默认行为）时的问题，因为我们将示例记录传递给 ArgillaDatasetCard 类，并且 1.10.0 中引入的 UUID (#3192) 不可 JSON 序列化 (#3231)。
修复了 from_argilla 和 push_to_argilla 以确保字段和问题重建的一致性，并确保 UUID 分别正确序列化为 str (#3234)。
重构了 import argilla as rg 的用法，以澄清包导航 (#3279)。

文档¶

修复了使用 Sentence Transformers 教程进行弱监督中的 URL #3243。
修复了教程页面上库按钮的格式 (#3255)。
修改了笔记本中错误代码输出的样式 (#3270)。
新增了 ElasticSearch 和 OpenSearch 版本 (#3280)。
从目录中移除了模板笔记本 (#3271)。
修复了使用 pip install argilla 的教程，以避免使用软件包的旧版本 (#3282)。

新增¶

为 FeedbackDataset 的 Record 新增了 metadata 属性 (#3194)
新增 users update 命令，用于更新现有用户的角色 (#3188)
新增 Workspace 类，允许用户通过 Python 客户端管理其 Argilla 工作区以及分配给这些工作区的用户 (#3180)
新增 User 类，让用户可以通过 Python 客户端管理其 Argilla 用户 (#3169)。
为 FeedbackDataset.push_to_argilla 添加了一个选项，用于在循环上传记录时显示 tqdm 进度条 (#3233)。

已更改¶

角色系统现在支持三种不同的角色：owner、admin 和 annotator (#3104)
admin 角色被限定于工作区级别的操作 (#3115)
owner 用户是在快速入门中默认用户池中创建的，服务器中的默认用户现在具有 owner 角色 (#3248)，恢复 (#3188)。

已弃用¶

由于 Python 3.7 于 2023-06-27 终止生命周期 (EOL)，Argilla 将不再支持 Python 3.7 (#3188)。更多信息请访问 https://peps.pythonlang.cn/pep-0537/

1.10.0 ¶

新增¶

为反馈数据集新增搜索组件 (#3138)
为反馈数据集指南新增 markdown 支持 (#3153)
为反馈数据集新增训练按钮 (#3170)

已更改¶

更新了 SearchEngine 和 POST /api/v1/me/datasets/{dataset_id}/records/search 以返回与搜索查询匹配的记录总数 total (#3166)

修复¶

在客户端 API 调用的 URL 中将 Enum 替换为字符串值 (Closes #3149)
解决了 ArgillaSpanMarkerTrainer 对于 Named Entity Recognition 与 span_marker v1.1.x 及更高版本的突破性问题。
将 ArgillaDatasetCard 导入移动到 @requires_version 装饰器下，以便正确处理 huggingface_hub 上的 ImportError (#3174)
允许在不同的数据集名称和/或工作区下进行 FeedbackDataset.from_argilla -> FeedbackDataset.push_to_argilla 流 (#3192)

文档¶

解决了文档中的错别字问题 (#3240)。
修复了对 master 分支的提及 (#3254)。

1.9.0 ¶

新增¶

为 TextFieldSettings 模型新增布尔值 use_markdown 属性。
为 TextQuestionSettings 模型新增布尔值 use_markdown 属性。
为 Response 模型新增状态 draft。
新增 LabelSelectionQuestionSettings 类，允许在 API 中创建标签选择（单选）问题 (#3005)
新增 MultiLabelSelectionQuestionSettings 类，允许在 API 中创建多标签选择（多选）问题 (#3010)。
新增 POST /api/v1/me/datasets/{dataset_id}/records/search 端点 (#3068)。
在反馈任务问题表单中新增组件：MultiLabel (#3064) 和 SingleLabel (#3016)。
为 argilla/client/feedback/schemas.py 中定义的 pydantic.BaseModel 添加了文档字符串 (#3137)
在开发者文档中添加了关于执行测试的信息 ([#3143])。

已更改¶

更新了 GET /api/v1/me/datasets/:dataset_id/metrics 输出有效负载，以包含 draft 状态的响应计数。
新增 LabelSelectionQuestionSettings 类，允许在 API 中创建标签选择（单选）问题。
新增 MultiLabelSelectionQuestionSettings 类，允许在 API 中创建多标签选择（多选）问题。
单元测试的数据库设置。现在单元测试使用与本地 Argilla 服务器使用的数据库不同的数据库 (Closes #2987)。
更新了 alembic 设置，以便能够使用 Argilla 服务器模型中的 SQLAlchemy 元数据自动生成修订/迁移脚本 (#3044)
改进了 FeedbackDataset.push_to_huggingface 在 generate_card=True 时的 DatasetCard 生成，遵循了官方 HuggingFace Hub 模板，但更适合来自 Argilla 的 FeedbackDataset (#3110)

修复¶

禁止 FeedbackDataset 中具有相同名称的 fields 和 questions (#3126)。
修复了文档中的断开链接，并将开发分支名称从 development 更新为 develop ([#3145])。

1.8.0 ¶

新增¶

/api/v1/datasets 新端点，用于列出和创建数据集 (#2615)。
/api/v1/datasets/{dataset_id} 新端点，用于获取和删除数据集 (#2615)。
/api/v1/datasets/{dataset_id}/publish 新端点，用于发布数据集 (#2615)。
/api/v1/datasets/{dataset_id}/questions 新端点，用于列出和创建数据集问题 (#2615)
/api/v1/datasets/{dataset_id}/fields 新端点，用于列出和创建数据集字段 (#2615)
/api/v1/datasets/{dataset_id}/questions/{question_id} 新端点，用于删除数据集问题 (#2615)
/api/v1/datasets/{dataset_id}/fields/{field_id} 新端点，用于删除数据集字段 (#2615)
/api/v1/workspaces/{workspace_id} 新端点，用于按 ID 获取工作区 (#2615)
/api/v1/responses/{response_id} 新端点，用于更新和删除响应 (#2615)
/api/v1/datasets/{dataset_id}/records 新端点，用于创建和列出数据集记录 (#2615)
/api/v1/me/datasets 新端点，用于列出用户可见的数据集 (#2615)
/api/v1/me/dataset/{dataset_id}/records 新端点，用于列出包含用户响应的数据集记录 (#2615)
/api/v1/me/datasets/{dataset_id}/metrics 新端点，用于获取数据集用户指标 (#2615)
/api/v1/me/records/{record_id}/responses 新端点，用于创建记录用户响应 (#2615)
在数据集列表中显示新的反馈任务数据集 ([#2719])
反馈任务的新页面 ([#2680])
显示反馈任务指标 ([#2822])
用户可以在数据集设置页面删除数据集 ([#2792])
Python 客户端中对 FeedbackDataset 的支持（父 PR #2615，以及嵌套 PR：[#2949]、[#2827]、[#2943]、[#2945]、[#2962] 和 [#3003]）
与 HuggingFace Hub 集成 ([#2949])
为文本和 token 分类新增 ArgillaPeftTrainer #2854
为 ArgillaSetFitTrainer 新增 predict_proba() 方法
为文本分类新增 ArgillaAutoTrainTrainer #2664
新的 database revisions 命令，显示数据库修订信息

修复¶

避免在 Text2text 中为无效的 html 字符串渲染 html ([#2911]https://github.com/argilla-io/argilla/issues/2911)

已更改¶

database migrate 命令接受 --revision 参数以提供特定的修订 ID
tokens_length 指标函数返回空数据 (#3045)
token_length 指标函数返回空数据 (#3045)
mention_length 指标函数返回空数据 (#3045)
entity_density 指标函数返回空数据 (#3045)

已弃用¶

不建议将 Argilla 与 Python 3.7 运行时一起使用，并且从 1.11.0 版本开始将移除支持 (#2902)
tokens_length 指标函数已被弃用，将在 1.10.0 版本中移除 (#3045)
token_length 指标函数已被弃用，将在 1.10.0 版本中移除 (#3045)
mention_length 指标函数已被弃用，将在 1.10.0 版本中移除 (#3045)
entity_density 指标函数已被弃用，将在 1.10.0 版本中移除 (#3045)

已移除¶

从 token 分类指标存储中移除了 mention density、tokens_length 和 chars_length 指标 (#3045)
从 token 分类指标存储中移除了 token char_start、char_end、tag 和 score 指标 (#3045)
从 token 分类指标存储中移除了与标签相关的指标 (#3045)

1.7.0 ¶

新增¶

为 rg.log 添加 max_retries 和 num_threads 参数，以使用退避重试策略并发运行数据日志记录请求。请参阅 #2458 和 #2533
rg.load 在加载数据时接受 include_vectors 和 include_metrics。Closes #2398
为 prepare_for_training 添加 settings 参数 (#2689)
为 openai 添加 prepare_for_training (#2658)
新增 ArgillaOpenAITrainer (#2659)
为 Named Entity Recognition 新增 ArgillaSpanMarkerTrainer (#2693)
新增 ArgillaTrainer CLI 支持。Closes (#2809)

修复¶

修复 token 分类中的图像对齐问题

已更改¶

Argilla 快速入门镜像依赖项被外部化到 quickstart.requirements.txt 中。请参阅 #2666
当记录 id 存在时，批量端点将更新数据。Closes #2535
从 click 迁移到 typer CLI 支持。Closes (#2815)
Argilla 服务器 docker 镜像使用 PostgreSQL 支持构建。Closes #2686
rg.log 计算所有批次，并为所有失败的批次引发错误。
rg.log 的默认批次大小现在为 100。

修复¶

argilla.training bug 修复和统一 (#2665)
解决了 ArgillaTrainer 中的几个小 bug。

已弃用¶

rg.log_async 函数已弃用，将在下一个次要版本中移除。

1.6.0 ¶

新增¶

ARGILLA_HOME_PATH 新环境变量 (#2564)。
ARGILLA_DATABASE_URL 新环境变量 (#2564)。
对用户角色的基本支持，包括 admin 和 annotator (#2564)。
id、first_name、last_name、role、inserted_at 和 updated_at 新的用户字段 (#2564)。
/api/users 新端点，用于列出和创建用户 (#2564)。
/api/users/{user_id} 新端点，用于删除用户 (#2564)。
/api/workspaces 新端点，用于列出和创建工作区 (#2564)。
/api/workspaces/{workspace_id}/users 新端点，用于列出工作区用户 (#2564)。
/api/workspaces/{workspace_id}/users/{user_id} 新端点，用于创建和删除工作区用户 (#2564)。
argilla.tasks.users.migrate 新任务，用于将用户从旧 YAML 文件迁移到数据库 (#2564)。
argilla.tasks.users.create 新任务，用于创建用户 (#2564)。
argilla.tasks.users.create_default 新任务，用于使用默认凭据创建用户 (#2564)。
argilla.tasks.database.migrate 新任务，用于执行数据库迁移 (#2564)。
release.Dockerfile 和 quickstart.Dockerfile 现在创建默认的 argilladata 卷以持久化数据 (#2564)。
添加用户设置页面。关闭 #2496
添加了 Argilla.training 模块，支持 spacy、setfit 和 transformers。关闭 #2504

修复¶

现在当 multi_label=True 时，prepare_for_training 方法可以正常工作了。关闭 #2606

已更改¶

ARGILLA_USERS_DB_FILE 环境变量现在仅用于将用户从 YAML 文件迁移到数据库 (#2564)。
full_name 用户字段现已弃用，应使用 first_name 和 last_name 代替 (#2564)。
password 用户字段现在要求最小 8 个字符，最大 100 个字符 (#2564)。
quickstart.Dockerfile 镜像默认用户从 team 和 argilla 更改为 admin 和 annotator，包括新的密码和 API 密钥 (#2564)。
数据集现在仅由具有 admin 角色的用户管理 (#2564)。
现在在计算指标时可以访问规则列表。关闭 #2117
弱标签的样式更新，并在删除规则时添加反馈 toast。请参阅 #2626 和 #2648

已移除¶

email 用户字段 (#2564)。
disabled 用户字段 (#2564)。
私有工作空间的支持 (#2564)。
ARGILLA_LOCAL_AUTH_DEFAULT_APIKEY 和 ARGILLA_LOCAL_AUTH_DEFAULT_PASSWORD 环境变量。请改用 python -m argilla.tasks.users.create_default (#2564)。
来自 python 客户端的旧版 API Key 和 workspace 标头
旧版 API Key 常量的默认值。关闭 #2251

1.5.1 - 2023-03-30¶

修复¶

修复在工作空间之间复制数据集时所有者/工作空间信息不正确的问题。关闭 #2562
将空工作空间的数据集复制到默认用户工作空间 905d4de
使用 elasticsearch 配置请求后端版本。关闭 #2311
移除标签中按分数排序的功能。关闭 #2622

已更改¶

更新图像 URL 元数据中的字段名称。请参阅 #2609
改进了教程文档卡片。关闭 #2216

1.5.0 - 2023-03-21¶

已添加¶

添加了从 argilla 加载数据时要检索的字段。 rg.load 因为向量字段而耗时过长，即使用户不需要它。关闭 #2398
为数据集设置添加新页面和组件。关闭 #2442
如果 URL 通过元数据和键 _image_url 传入，则添加在记录中显示图像的功能（用于 TokenClassification 和 TextClassification）
元数据中支持非搜索字段。 #2570
将记录 ID 引用添加到训练准备方法中。关闭 #2483
添加图像分类教程。 #2420
添加“训练”按钮，对 “admin” 角色可见，其中包含来自精选库的代码片段。关闭 [#2591] (https://github.com/argilla-io/argilla/pull/2591)

已更改¶

标签现在集中在一个名为 GlobalLabel Model 的特定 vuex ORM 中，请参阅 https://github.com/argilla-io/argilla/issues/2210。此模型对于 TokenClassification 和 TextClassification 都是相同的（因此两个任务在 vuex ORM 中都具有带有 color_id 和 shortcuts 参数的标签）
标签的快捷方式改进 #2339 已移至数据集设置功能中的 vuex ORM #2444
更新文档中的“定义标注模式”部分。
默认情况下，记录输入在 UI 中按字母顺序排序。 #2581
当分页大小为 1 且折叠区域大小对于笔记本电脑屏幕较大时，记录输入完全可见。 #2587

修复¶

再次允许 URL 在 Jupyter notebook 中可点击。关闭 #2527

已移除¶

移除旧客户端使用的一些数据扫描弃用端点。此更改将破坏与客户端 <v1.3.0 的兼容性
停止在 python 客户端中使用旧的扫描弃用端点。此逻辑将破坏客户端与服务器版本 <1.3.0 的兼容性
移除先前通过数据集页面添加标签的方式。现在只能通过数据集设置页面添加标签。