跳到内容

更新日志

此项目的所有重大更改都将记录在此文件中。

格式基于 Keep a Changelog,并且此项目遵守 语义版本控制

未发布

2.7.0

已添加

  • 在按相似度搜索时返回相似度得分。( #5778)
  • 添加了使用预定义 ID 创建用户的支持。( #5786)
  • 添加了使用预定义 ID 创建工作区的支持。( #5786)

已修复

  • 修复了在 argilla 客户端初始化中传递 verify=False 时的连接错误。( #5548

2.6.0

已修复

  • 修复了迭代数据集时设置未正确加载的错误。( #5753)
  • 修复了从原始字典加载字段时的错误。( #5756)
  • 修复了从 Hub 导入已存在数据集时的错误。( #5756)
  • 修复了导入没有响应的已丢弃响应时的错误。( #5756)
  • 修复了从现有用户导入带有响应的数据集时的错误。( #5756)

2.5.0

已添加

  • 添加了删除/覆盖数据集设置的支持。( #5584)
  • 添加了更新问题属性的支持。( #5680)
  • 添加了对 webhook 监听器的支持。( #5502)
  • 添加了对 Python 3.13 的支持。( #5652)

已修复

  • 修复了从默认值更新 settings.distribution.min_submitted 时的错误 ( #5719)

2.4.0

已添加

  • 添加了 Argilla.deploy_on_spaces 以在 Hugging Face Spaces 上部署 Argilla 服务器。( #5547)

已更改

  • 现在可以使用客户端更新用户参数 ( #5614)
  • 更改了 Dataset.from_hub 方法,当 settings="ui" 时打开配置 URL。( #5622)
  • 术语元数据属性接受除 str 以外的其他值。( #5594)
  • 添加了在获取记录以及搜索查询时对 with_vectors 的支持。( #5638)

已移除

  • 删除了数据集设置名称的名称清理。这可能会导致旧服务器版本出现问题。尤其是在使用 from_hub 时。( #5574)

2.3.0

已添加

  • 添加了对 CustomField 的支持。( #5422)
  • inserted_atupdated_at 添加到 Resource 模型作为属性。( #5540)
  • 在获取记录时添加了 limit 参数。( #5525
  • 添加了相似度搜索支持。( #5546)
  • id_server_idinserted_atupdated_at 记录属性添加了筛选器支持。( #5545)
  • 添加了从 colab secrets 读取 argilla 凭据的支持。( #5541)

已更改

  • 更改了 SettingsPropertiesrepr 方法,以显示 Setting 对象中所有属性的详细信息。( #5380)
  • 更改了在权限不足的情况下创建数据集时的错误消息。( #5540)

已修复

  • 修复了从 Hub 收集记录并导出到 datasetsChatField 的序列化。( #5554)

2.2.2

已修复

  • 修复了 from_hub 与不受支持的列名的问题。( #5524)
  • 修复了 from_hub 缺少数据集 subset 配置值的问题。( #5524)

已更改

  • 更改了 from_hub,仅为数据集中的字符串生成字段,而不是问题。( #5524)

2.2.1

已修复

  • 修复了列名包含大写字母时 from_hub 错误。( #5523)
  • 修复了类特征值包含未标记值时 from_hub 错误。( #5523)
  • 修复了加载缓存数据集时 from_hub 错误。( #5523)

2.2.0

  • 添加了新的 ChatField,支持聊天消息。( #5376)
  • 为分类、评级和排序问题向 rg.Settings 添加了模板设置。( #5426)
  • rg.Dataset.from_hub 中添加了基于 datasets.Featuresrg.Settings 定义。( #5426)
  • rg.Settings 添加了持久记录映射,以在 rg.Dataset.records.log 中使用。( #5466)
  • rg.Dataset.records.log 方法添加了多种错误处理方法,以警告、忽略或引发错误。( #5466)
  • 更改了 rg.LabelQuestion 的数据集导入和导出,以使用 datasets.ClassLabel 而不是 datasets.Value。( #5474)

2.1.0

已添加

  • 添加了新的 ImageField,支持 URL 和数据 URL。( #5279)
  • 添加了暗黑模式 ( #5412)
  • rg.Dataset.from_hub 添加了设置参数,以在从 Hub 摄取数据集之前定义数据集设置。( #5418)

2.0.1

已修复

  • 修复了创建可选字段时的错误。( #5362)
  • 修复了使用 visible_for_annotators 创建整数和浮点元数据时的错误。( #5364)
  • 修复了为不存在的问题记录 suggestionsresponses 时的错误。( #5396 by @maxserras)
  • 修复了并行运行测试时测试套件中冲突导致的错误。( #5349)
  • 修复了使用 None 值创建响应时响应模型中的错误。( #5343)

已更改

  • 更改了 from_hub 方法,当存在同名数据集时引发错误。( #5258)
  • 更改了 log 方法,当摄取没有已知键的记录时引发描述性错误。( #5356)
  • 更改了 code snippets 以添加新数据集 ( #5395)

已添加

  • 向文档站点添加了 Google Analytics。( #5366)
  • 向进度指标添加了前端骨架,以优化加载时间并改善用户体验。( #5391)
  • 在 Python SDK 的 API 参考中的方法中添加了文档。( #5400)

已修复

  • 修复了提交最新记录时的错误,有时您会导航到不存在的页面 #5419

2.0.0

已添加

  • 添加了核心类重构。有关概述,请参阅 这篇博客文章
  • 添加了 TaskDistribution 以定义记录到用户的分配。
  • 添加了新的 文档站点 和结构,并迁移了 旧文档

已更改

  • FeedbackDataset 更改为 Dataset
  • rg.init 更改为 rg.Argilla 类以与 Argilla 服务器交互。

已弃用

  • 已弃用特定于任务的数据集类,如 TextClassificationTokenClassification。要将旧数据集迁移到 rg.Dataset 类,请参阅 操作指南
  • 已弃用用例扩展,如 listenersArgillaTrainer

2.0.0rc1

[!NOTE] 此 2.0.0rc1 版本不包含任何更新日志条目,因为它是 2.0.0 版本的第一个候选版本。以下版本将再次包含更新日志条目。有关 2.0.0 版本更改的总体概述,请参阅 我们的博客我们的新文档

1.29.0

已添加

  • 添加了对评级问题的支持,以将 0 作为有效值包括在内。( #4860)
  • 添加了对 Python 3.12 的支持。( #4837)
  • FeedbackDataset UI 搜索中添加了按字段搜索。( #4746)
  • FeedbackDataset UI 中添加了记录元数据信息。( #4851)
  • FeedbackDataset UI 中添加了搜索结果高亮显示。( #4747)

已修复

  • 修复了整个 argilla 模块的通配符导入。( #4874)
  • 修复了记录没有相关向量时的问题。( #4856)
  • 修复了字符级别的问题。( #4836)

1.28.0

已添加

  • 添加了建议多得分属性。( #4730)
  • 添加了按建议优先排序。( #4731)
  • 为 span 标注重叠添加了多选实体下拉列表。( #4735)
  • 为 span 标注添加了预选高亮显示。( #4726)
  • 在持久存储未启用时添加了横幅。( #4744)
  • 在 Python SDK 上为新的多标签问题 labels_order 属性添加了支持。( #4757)

已更改

  • 更改了 Hugging Face space 和用户在登录时的显示方式。( #4748)

已修复

  • 修复了韩文字符反转的问题。( #4753)

已修复

  • 修复了 wrapt 库版本与 Python 3.11 冲突的要求 ( #4693)

1.27.0

已添加

  • FeedbackDataset 中添加了允许 span 重叠。( #4668)
  • 为 span 问题添加了 allow_overlapping 参数。( #4697)
  • Datasets 表格中添加了总体进度条。( #4696)
  • 添加了德语翻译。( #4688)

已更改

  • 建议的新 UI 设计。( #4682)

已修复

  • 提高了超过 250 个标签的性能。( #4702)

1.26.1

已添加

  • 添加了自动检测 RTL 语言的支持。( #4686)

1.26.0

已添加

  • 如果您展开 single or multi 标签问题的标签,则状态在整个标注过程中保持不变。( #4630)
  • 在 Python SDK 中添加了对 span 问题的支持。( #4617)
  • 在建议和响应中添加了对 span 值的支持。( #4623)
  • FeedbackDataset 添加了 span 问题。( #4622)
  • 添加了 ARGILLA_CACHE_DIR 环境变量以配置客户端缓存目录。( #4509)

已修复

  • 修复了上下文工作区。( #4665)
  • 修复了将 RankingValueSchema 实例传递给建议时准备训练的问题。( #4628)
  • 修复了从 HF 数据集中解析排序值的问题。( #4629)
  • 修复了从 API 响应负载中读取描述的问题。( #4632)
  • 修复了在使用 ds.pull 或迭代数据集时拉取 (n*chunk_size)+1 条记录的问题。( #4662)
  • 修复了客户端在调用 Search 和 Metrics API 时解析枚举值的问题,以支持 Python >=3.11 枚举处理。( #4672)

1.25.0

[!NOTE] 有关 argilla-server 模块的更改,请访问 argilla-server 发行说明

已添加

  • 重新排序单标签/多标签问题的 数据集设置页面 中的标签 ( #4598)
  • 使用 Python SDK 添加了 pandas v2 支持。( #4600)

已移除

  • 删除了状态筛选器的 missing 响应。请改用 pending。( #4533)

已修复

  • 修复了 FloatMetadataProperty:值不是有效的浮点数 ( #4570)
  • 修复了重定向到 user-settings 而不是 404 user_settings 的问题 ( #4609)

1.24.0

[!NOTE] 此版本不包含任何新功能,但它包括 argilla-server 依赖项的重大更改。该软件包正在使用 此处 定义的 argilla-server 依赖项。( #4537)

已更改

  • 该软件包正在使用 此处 定义的 argilla-server 依赖项。( #4537)

1.23.1

已修复

  • 修复了反馈数据集的响应式视图。( #4579)

1.23.0

已添加

  • 添加了按筛选条件批量标注。( #4516)
  • 在焦点选项卡上自动获取新数据集。( #4514)
  • 现在,API v1 响应返回 Record 架构始终包含 dataset_id 作为属性。( #4482)
  • 现在,API v1 响应返回 Response 架构始终包含 record_id 作为属性。( #4482)
  • 现在,API v1 响应返回 Question 架构始终包含 dataset_id 属性。( #4487)
  • 现在,API v1 响应返回 Field 架构始终包含 dataset_id 属性。( #4488)
  • 现在,API v1 响应返回 MetadataProperty 架构始终包含 dataset_id 属性。( #4489)
  • 现在,API v1 响应返回 VectorSettings 架构始终包含 dataset_id 属性。( #4490)
  • .html_utils 模块添加了 pdf_to_html 函数,该函数将 PDF 转换为 dataURL,以便能够在 Argilla UI 中呈现它们。( #4481)
  • 添加了 ARGILLA_AUTH_SECRET_KEY 环境变量。( #4539)
  • 添加了 ARGILLA_AUTH_ALGORITHM 环境变量。( #4539)
  • 添加了 ARGILLA_AUTH_TOKEN_EXPIRATION 环境变量。( #4539)
  • 添加了 ARGILLA_AUTH_OAUTH_CFG 环境变量。( #4546)
  • 添加了对 HuggingFace Hub 的 OAuth2 支持。( #4546)

已弃用

  • 已弃用 ARGILLA_LOCAL_AUTH_* 环境变量。将在 v1.25.0 版本中删除。( #4539)

已更改

  • 更改了 UserCreateusername 属性的正则表达式模式。现在允许使用大写字母。( #4544)

已移除

  • 从 python SDK 请求中删除发送 Authorization 标头。( #4535)

已修复

  • 修复了标签问题的键盘快捷键。( #4530)

1.22.0

已添加

  • 添加了批量标注支持。( #4333)
  • 从反馈数据集设置还原筛选器。([#4461])(https://github.com/argilla-io/argilla/pull/4461)
  • 在离开具有未保存更改的页面时,反馈数据集设置发出警告。( #4461)
  • 使用 python SDK 添加了 pydantic v2 支持。( #4459)
  • FeedbackDatasetRemoteFeedbackDataset__repr__ 方法添加了 vector_settings。( #4454)
  • 添加了使用 SentenceTransformersExtractor 集成 sentence-transformers,以在 FeedbackDatasetFeedbackRecord 中配置 vector_settings。( #4454)

已更改

  • 模块 argilla.cli.server 定义已移动到 argilla.server.cli 模块。( #4472)
  • [重大更改] 将 vector_settings_by_name 更改为通用 property_by_name 用法,这将返回 None 而不是引发错误。( #4454)
  • 模块 argilla._constants 中的常量定义 ES_INDEX_REGEX_PATTERN 现在是私有的。( #4472)
  • 当创建/更新记录时,元数据属性中的 nan 值将引发 422 错误。( #4300)
  • 现在允许在元数据属性中使用 None 值。( #4300)
  • 重构并添加 widthheightautoplayloop 属性作为 to_html 函数中的可选参数。( #4481)

已修复

  • 分页到新记录时,会自动向下滚动到选定的表单区域。( #4333)

已弃用

  • 用于筛选记录的 missing 响应状态已弃用,将在 v1.24.0 版本中删除。请改用 pending。( #4433)

已移除

  • 已删除已弃用的 python -m argilla database 命令。( #4472)

1.21.0

已添加

  • 为标注视图添加了新的草稿队列 ( #4334)
  • FeedbackDataset 添加了标注指标模块 (argilla.client.feedback.metrics)。( #4175)。
  • 添加了用于处理和翻译来自服务器的 401 HTTP 状态代码错误的策略 `( #4362)
  • 添加了使用 TextDescriptivesExtractor 集成 textdescriptives,以在 FeedbackDatasetFeedbackRecord 中配置 metadata_properties。( #4400)。由 @m-newhauser 贡献
  • 添加了 POST /api/v1/me/responses/bulk 端点,以批量为当前用户创建响应。( #4380)
  • 为术语元数据属性添加了列表支持。( 关闭 #4359)
  • 添加了新的 CLI 任务,以将数据集和记录重新索引到搜索引擎中。( #4404)
  • rg.initArgilla 添加了 httpx_extra_kwargs 参数,以允许将额外的参数传递给 Argilla 使用的 httpx.Client。( #4440)
  • 在 Argilla 的 __init__ 导入中添加了 ResponseStatusFilter 枚举 ( #4118)。由 @Piyush-Kumar-Ghosh 贡献。

已更改

  • 更高效和更简单的快捷方式系统 ( #4215)
  • ArgillaSingletoninitactive_client 移动到新模块 singleton。( #4347)
  • 更新了 argilla.load 函数,使其也适用于 FeedbackDataset。( #4347)
  • [重大更改] 更新了 argilla.delete 函数,使其也适用于 FeedbackDataset。如果数据集不存在,现在会引发错误。( #4347)
  • 更新了 argilla.list_datasets 函数,使其也适用于 FeedbackDataset。( #4347)

已修复

  • 修复了 TextClassificationSettings.from_dict 方法中的错误,其中创建的 label_schemadict 列表,而不是 str 列表。( #4347)
  • 修复了分页组件上的记录总数 ( #4424)

已移除

  • 删除了标注视图的 draft 自动保存 ( #4334)

1.20.0

新增

  • 新增 GET /api/v1/datasets/:dataset_id/records/search/suggestions/options 端点,用于返回搜索建议的可用选项。(<#4260)
  • FeedbackDatasetRemoteFeedbackDataset__repr__ 方法中添加了 metadata_properties。(<#4192)。
  • ArgillaTrainer 中添加了 get_model_kwargs, get_trainer_kwargs, get_trainer_model, get_trainer_tokenizerget_trainer 方法,以提高跨框架的互操作性。(<#4214)。
  • ArgillaTrainer 中添加了额外的格式检查,以更好地实现 defaultsformatting_func 用法的互操作性。(<#4214)。
  • ArgillaTrainerupdate_config 方法中添加了一个警告,以强调 kwargs 是否已正确更新。(<#4214)。
  • 添加了 argilla.client.feedback.utils 模块,包含 html_utils (主要包括将媒体转换为 dataURL 以便在 Argilla UI 中渲染的 video/audio/image_to_html,以及以自定义方式高亮 token 的 create_token_highlights。两者都适用于 use_markdown=True 的 TextQuestion 和 TextField) 和 assignments (主要包括根据注释者和记录的数量、重叠和 shuffle 选项来分配记录的 assign_records;以及根据记录分配来分配和创建工作区的 assign_workspace)。(<#4121)

修复

  • 修复了 ArgillaTrainer 中使用数值标签时,错误地使用 RatingQuestion 而不是 RankingQuestion 的问题 (<#4171)
  • 修复了 ArgillaTrainer 中的错误,现在我们可以使用验证样本为 extractive_question_answering 进行训练 (<#4204)
  • 修复了 ArgillaTrainer 中的错误,当为 sentence-similarity 训练时,它无法处理每个记录的值列表 (<#4211)
  • 修复了 RankingQuestion 的统一策略中的错误 (<#4295)
  • 修复了 TextClassificationSettings.labels_schema 顺序未被保留的问题。关闭了 <#3828 (<#4332)
  • 修复了请求不存在的 API 端点时发生的错误。关闭了 <#4073 (<#4325)
  • 修复了将 draft 响应传递到创建记录端点时发生的错误。(<#4354)

更改

  • [breaking] 建议的 agent 字段现在只接受某些特定字符和有限的长度。(<#4265)
  • [breaking] 建议的 score 字段现在只接受 01 范围内的浮点数值。(<#4266)
  • 更新了 POST /api/v1/dataset/:dataset_id/records/search 端点,以支持可选的 query 属性。(<#4327)
  • 更新了 POST /api/v1/dataset/:dataset_id/records/search 端点,以支持 filtersort 属性。(<#4327)
  • 更新了 POST /api/v1/me/datasets/:dataset_id/records/search 端点,以支持可选的 query 属性。(<#4270)
  • 更新了 POST /api/v1/me/datasets/:dataset_id/records/search 端点,以支持 filtersort 属性。(<#4270)
  • 将从 tqdm 风格更改为 rich 风格,以改进从 Argilla 拉取和推送 FeedbackDataset 时的日志记录样式。(<#4267)。由 @zucchini-nlp 贡献。
  • 更新了 push_to_argilla,在推送后打印推送的 RemoteFeedbackDatasetrepr,并将 show_progress 默认更改为 True。(<#4223)
  • 更改了 ArgillaTrainermodelstokenizer,以明确允许在需要时进行更改。(<#4214)。

1.19.0

新增

  • 新增 POST /api/v1/datasets/:dataset_id/records/search 端点,用于在没有用户上下文的情况下搜索记录,包括所有用户的响应。(<#4143)
  • 新增 POST /api/v1/datasets/:dataset_id/vectors-settings 端点,用于为数据集创建向量设置。(<#3776)
  • 新增 GET /api/v1/datasets/:dataset_id/vectors-settings 端点,用于列出数据集的向量设置。(<#3776)
  • 新增 DELETE /api/v1/vectors-settings/:vector_settings_id 端点,用于删除向量设置。(<#3776)
  • 新增 PATCH /api/v1/vectors-settings/:vector_settings_id 端点,用于更新向量设置。(<#4092)
  • 新增 GET /api/v1/records/:record_id 端点,用于获取特定记录。(<#4039)
  • 添加了对 GET /api/v1/datasets/:dataset_id/records 端点响应的支持,可以使用 include 查询参数包含向量。(<#4063)
  • 添加了对 GET /api/v1/me/datasets/:dataset_id/records 端点响应的支持,可以使用 include 查询参数包含向量。(<#4063)
  • 添加了对 POST /api/v1/me/datasets/:dataset_id/records/search 端点响应的支持,可以使用 include 查询参数包含向量。(<#4063)
  • from_huggingface() 方法中添加了 show_progress 参数,使解析记录过程的进度条成为可选。(<#4132)。
  • from_huggingface() 方法中为解析记录过程添加了进度条,使用 tqdm 中的 trange。(<#4132)。
  • 为没有元数据的数据集添加了按 inserted_atupdated_at 排序的功能。(<4147)
  • RemoteFeedbackDatasetpull() 方法添加了 max_records 参数。(<#4074)
  • 添加了使用 ArgillaTrainer.push_to_huggingface 将您的模型推送到 Hugging Face Hub 的功能 (<#3976)。由 @Racso-3141 贡献。
  • ArgillaTrainer 添加了 filter_by 参数,以按 response_status 进行过滤 (<#4120)。
  • ArgillaTrainer 添加了 sort_by 参数,以按 metadata 进行排序 (<#4120)。
  • ArgillaTrainer 添加了 max_records 参数,以限制用于训练的记录数量 (<#4120)。
  • 为本地和远程 FeedbackDataset 添加了 add_vector_settings 方法。(<#4055)
  • 为本地和远程 FeedbackDataset 添加了 update_vectors_settings 方法。(<#4122)
  • 为本地和远程 FeedbackDataset 添加了 delete_vectors_settings 方法。(<#4130)
  • 为本地和远程 FeedbackDataset 添加了 vector_settings_by_name 方法。(<#4055)
  • 为本地和远程 FeedbackDataset 添加了 find_similar_records 方法。(<#4023)
  • 添加了 ARGILLA_SEARCH_ENGINE 环境变量,用于配置要使用的搜索引擎。(<#4019)

更改

  • [breaking] 移除对 Elasticsearch < 8.5 和 OpenSearch < 2.4 的支持。(<#4173)
  • [breaking] 使用 OpenSearch 引擎的用户必须使用版本 >=2.4 并设置 ARGILLA_SEARCH_ENGINE=opensearch。(<#4019 和 <#4111)
  • [breaking] 更改了 FeedbackDataset.*_by_name() 方法,当未找到匹配项时返回 None (<#4101)。
  • [breaking] GET /api/v1/datasets/:dataset_id/records 端点的 limit 查询参数现在仅接受大于等于 1 且小于等于 1000 的值。(<#4143)
  • [breaking] GET /api/v1/me/datasets/:dataset_id/records 端点的 limit 查询参数现在仅接受大于等于 1 且小于等于 1000 的值。(<#4143)
  • 更新 GET /api/v1/datasets/:dataset_id/records 端点,以使用搜索引擎获取记录。(<#4142)
  • 更新 GET /api/v1/me/datasets/:dataset_id/records 端点,以使用搜索引擎获取记录。(<#4142)
  • 更新 POST /api/v1/datasets/:dataset_id/records 端点,以允许创建带有 vectors 的记录 (<#4022)
  • 更新 PATCH /api/v1/datasets/:dataset_id 端点,以允许更新 allow_extra_metadata 属性。(<#4112)
  • 更新 PATCH /api/v1/datasets/:dataset_id/records 端点,以允许使用 vectors 更新记录。(<#4062)
  • 更新 PATCH /api/v1/records/:record_id 端点,以允许使用 vectors 更新记录。(<#4062)
  • 更新 POST /api/v1/me/datasets/:dataset_id/records/search 端点,以允许使用向量搜索记录。(<#4019)
  • 更新 BaseElasticAndOpenSearchEngine.index_records 方法,以同时索引记录向量。(<#4062)
  • 更新 FeedbackDataset.__init__,以允许传递向量设置列表。(<#4055)
  • 更新 FeedbackDataset.push_to_argilla,以同时推送向量设置。(<#4055)
  • 更新 FeedbackDatasetRecord,以支持创建带有向量的记录。(<#4043)
  • 使用余弦相似度计算向量之间的相似度。(<#4124)

修复

  • 修复了 svg 图像超出屏幕的问题,该问题由过大的图像引起 (<#4047)
  • 修复了创建具有来自多个用户的响应的记录的问题。关闭了 <#3746 和 <#3808 (<#4142)
  • 修复了作为所有者删除或更新注释者的响应的问题。(提交 <403a66d)
  • 修复了按 ID 获取记录时传递 user_id 的问题。(提交 <98c7927)
  • 修复了将数据集推送到 Hugging Face Hub 时,非基本标签被序列化的问题。关闭了 <#4089 (<#4200)

1.18.0

新增

  • 新的 GET /api/v1/datasets/:dataset_id/metadata-properties 端点,用于列出数据集元数据属性。(<#3813)
  • 新的 POST /api/v1/datasets/:dataset_id/metadata-properties 端点,用于创建数据集元数据属性。(<#3813)
  • 新的 PATCH /api/v1/metadata-properties/:metadata_property_id 端点,允许更新特定的元数据属性。(<#3952)
  • 新的 DELETE /api/v1/metadata-properties/:metadata_property_id 端点,用于删除特定的元数据属性。(<#3911)
  • 新的 GET /api/v1/metadata-properties/:metadata_property_id/metrics 端点,用于计算特定元数据属性的指标。(<#3856)
  • 新的 PATCH /api/v1/records/:record_id 端点,用于更新记录。(<#3920)
  • 新的 PATCH /api/v1/dataset/:dataset_id/records 端点,用于批量更新数据集的记录。(<#3934)
  • PATCH /api/v1/questions/:question_id 缺少验证。现在 titledescription 使用与创建问题时相同的验证。(<#3967)
  • 添加了 TermsMetadataPropertyIntegerMetadataPropertyFloatMetadataProperty 类,允许为 FeedbackDataset 定义元数据属性。(<#3818)
  • RemoteFeedbackDatasetfilter_by 方法中添加了 metadata_filters,以根据元数据进行过滤,例如 TermsMetadataFilterIntegerMetadataFilterFloatMetadataFilter。(<#3834)
  • 在其模式以及作为 add_recordsfilter_by 方法的一部分,为 metadata_propertiesmetadata_filters 都添加了验证层。(<#3860)
  • 为列表记录端点添加了 sort_by 查询参数,允许按 inserted_atupdated_at 或元数据属性对记录进行排序。(<#3843)
  • FeedbackDatasetRemoteFeedbackDataset (即 Argilla 中的 FeedbackDataset) 都添加了 add_metadata_property 方法。(<#3900)
  • RemoteResponseSchema 中添加了字段 inserted_atupdated_at。(<#3822)
  • RemoteFeedbackDataset (即上传到 Argilla 的 FeedbackDataset) 添加了 sort_by 支持。(<#3925)
  • push_to_huggingfacefrom_huggingface 添加了 metadata_properties 支持。(<#3947)
  • 添加了从 Python SDK 更新记录 (metadata) 的支持。(<#3946)
  • 添加了 delete_metadata_properties 方法以删除元数据属性。(<#3932)
  • 添加了 update_metadata_properties 方法以更新 metadata_properties。(<#3961)
  • 通过 ArgillaTrainer.save 添加了自动模型卡片生成功能 (<#3857)
  • 为预定义的任务模板添加了 FeedbackDataset TaskTemplateMixin。(<#3969)
  • 排序问题可以接受的最大选项数量限制为 50。(<#3975)
  • FeedbackDataset 添加了新的 last_activity_at 字段,用于公开关联数据集的最后活动发生时间。(<#3992)

更改

  • GET /api/v1/datasets/{dataset_id}/records, GET /api/v1/me/datasets/{dataset_id}/recordsPOST /api/v1/me/datasets/{dataset_id}/records/search 端点现在返回记录的 total 总数。(<#3848, <#3903)
  • 为已过滤的数据集实现了 __len__ 方法,以返回与提供的过滤器匹配的记录数。(<#3916)
  • 增加了为反馈数据集创建的 Elasticsearch 的默认最大结果窗口。(<#3929)
  • 强制在创建记录后刷新 elastic 索引。(<#3929)
  • 在 Python SDK 中验证用于过滤和排序的元数据字段。(<#3993)
  • 在搜索引擎索引中索引数据时,使用元数据属性名称而不是 ID。(<#3994)

修复

  • 修复了响应模式以允许 valuesNone,即当记录被丢弃时,response.values 将设置为 None。(<#3926)

1.17.0

新增

  • RemoteResponseSchema 中添加了字段 inserted_atupdated_at (<#3822)。
  • 通过 ArgillaTrainer.save 添加了自动模型卡片生成功能 (<#3857)。
  • FeedbackDataset 添加了任务模板 (<#3973)。

更改

  • 更新了 Dockerfile 以使用多阶段构建 (<#3221 和 <#3793)。
  • 更新了文本分类笔记本的 active learning 以使用最新的 small-text 版本 (<#3831)。
  • 更改了文本分类笔记本的 active learning 中的 argilla 数据集名称,使其与 huggingface spaces 中的默认名称一致 (<#3831)。
  • FeedbackDataset API 方法已对齐,可通过多种实现方式访问 (<#3937)。
  • 远程数据集的 unify_responses 支持 (<#3937)。

修复

  • 修复了字段未按数据集设置中定义的顺序显示的问题。关闭了 <#3959 (<#3984)
  • 更新了文本分类笔记本的 active learning,以将 int 类型的 ID 传递给 TextClassificationRecord (<#3831)。
  • 修复了记录字段验证,该验证阻止了在字段值为 None 时记录带有可选字段 (即 required=True) 的记录 (<#3846)。
  • 始终在 ArgillaTrainer 中将 pretrained_model_name_or_path 属性设置为字符串 (<#3914)。
  • inserted_atupdated_at 属性使用 utcnow 工厂创建,以避免时间戳创建时出现意外的竞争条件 (<#3945)
  • 修复了通过参数 workspace 提供工作区时,configure_dataset_settings 的问题 (<#3887)。
  • 修复了使用带有 peft_config 参数的 ArgillaTrainer 训练的模型的保存问题 (<#3795)。
  • 修复了从 Hugging Face Hub 加载先前使用另一个 Argilla 版本 (从 1.8.0 开始,首次引入时) 转储的 FeedbackDataset 时,from_huggingface 的向后兼容性问题 (<#3829)。
  • 修复了 TrainingTask 的错误的 __repr__ 问题。(<#3969)
  • 修复了 TrainingTaskprepare_for_training_with_* 的错误键返回错误。(<#3969)

已弃用

  • 函数 rg.configure_dataset 已弃用,建议使用 rg.configure_dataset_settings。前者将在 1.19.0 版本中移除

1.16.0

新增

  • 添加了 ArgillaTrainer 与 sentence-transformers 的集成,允许对句子相似度进行微调 (<#3739)
  • 添加了 ArgillaTrainerTrainingTask.for_question_answering 的集成 (<#3740)
  • 添加了 自动保存记录 功能,以自动保存您正在处理的当前记录 (<#3541)
  • 添加了 ArgillaTrainer 与 OpenAI 的集成,允许对聊天完成进行微调 (<#3615)
  • 添加了 workspaces list 命令,用于列出 Argilla 工作区 (<#3594)。
  • 添加了 datasets list 命令,用于列出 Argilla 数据集 (<#3658)。
  • 添加了 users create 命令,用于创建用户 (<#3667)。
  • 添加了 whoami 命令,用于获取当前用户 (<#3673)。
  • 添加了 users delete 命令,用于删除用户 (<#3671)。
  • 添加了 users list 命令,用于列出用户 (<#3688)。
  • 添加了 workspaces delete-user 命令,用于从工作区中移除用户 (<#3699)。
  • 添加了 datasets list 命令,用于列出 Argilla 数据集 (<#3658)。
  • 添加了 users create 命令,用于创建用户 (<#3667)。
  • 添加了 users delete 命令,用于删除用户 (<#3671)。
  • 添加了 workspaces create 命令,用于创建 Argilla 工作区 (<#3676)。
  • 添加了 datasets push-to-hub 命令,用于将 FeedbackDataset 从 Argilla 推送到 HuggingFace Hub (<#3685)。
  • 添加了 info 命令,用于获取有关使用的 Argilla 客户端和服务器的信息 (<#3707)。
  • 添加了 datasets delete 命令,用于从 Argilla 中删除 FeedbackDataset (<#3703)。
  • RemoteFeedbackDatasetFilteredRemoteFeedbackDataset 添加了 created_atupdated_at 属性 (<#3709)。
  • 添加了在以权限不足的已登录用户执行命令时处理 PermissionError 的功能 (<#3717)。
  • 添加了 workspaces add-user 命令,用于向工作区添加用户 (<#3712)。
  • GET /api/v1/me/datasets 端点添加了 workspace_id 参数 (<#3727)。
  • 在 Python SDK 的 list_datasets 中添加了 workspace_id 参数 (<#3727)。
  • 添加了 argilla 脚本,允许使用 argilla 命令执行 Argilla CLI (<#3730)。
  • 添加了对将已初始化的 modeltokenizer 实例传递给 ArgillaTrainer 的支持 (<#3751)
  • 添加了 server_info 函数,用于检查 Argilla 服务器信息 (也可以通过 rg.server_info 访问) (<#3772)。

更改

  • database 命令移动到 server 命令组下 (<#3710)
  • 仅当安装了 server 额外要求时,server 命令才包含在 CLI 应用中 (<#3710)。
  • 更新了 PUT /api/v1/responses/{response_id},以使用请求中收到的 values 替换存储的 values (<#3711)。
  • Workspace.add_userWorkspace.delete_user 中的 user_id 是具有所有者角色的用户的 ID 时,显示 UserWarning,因为他们不需要显式权限 (<#3716)。
  • tasks 子包重命名为 cli (<#3723)。
  • 更改了 CLI 中的 argilla database 命令,现在通过 argilla server database 访问,将在即将发布的版本中弃用 (<#3754)。
  • 更改了后端中 visible_options (标签和多标签选择问题) 验证,以检查提供的值是否大于等于/等于 3 且小于等于/等于提供的选项数量 (<#3773)。

修复

  • 修复了 清除答案时文本组件中的移除用户修改 问题 (<#3775)
  • 修复了 数据集反馈任务中高亮显示原始文本字段 问题 (<#3731)
  • 修复了 字段标题过长 问题 (<#3734)
  • 修复了删除 DatasetForTextClassification 时的错误消息 (<#3652)
  • 修复了数据标注期间的 待处理队列 分页问题 (<#3677)
  • 修复了 visible_labels 默认值,仅当未提供 visible_labelslen(labels) > 20 时才为 20,否则对于 LabelQuestionMultiLabelQuestion,它将是提供的 visible_labels 值或 None (<#3702)。
  • 修复了 RemoteFeedbackDataset 包含建议时 DatasetCard 的生成问题 (<#3718)。
  • ResponseSchema 中添加了缺失的 draft 状态,因为现在通过 UI 进行注释时可能会出现 draft 状态的响应 (<#3749)。
  • 搜索在记录字段中分布的查询词 (<#3759)。
  • 修复了 Python 3.11 兼容性问题,该问题是由端点 URL 中的 TaskType 枚举替换导致的 /api/datasets 端点引起的 (<#3769)。
  • 修复了 RankingValueSchemaFeedbackRankingValueModel 模式,以允许在 status=draftrank=None (<#3781)。

1.15.1

修复

  • 修复了 文本组件 文本内容清理行为,仅针对 markdown,以防止文本消失 (<#3738)
  • 修复了 文本组件,现在您需要按 Escape 键才能退出文本区域 (<#3733)
  • 修复了 SearchEngine 为每个 FeedbackDataset 创建相同数量的主分片和副本分片的问题 (<#3736)。

1.15.0

新增

  • 添加了 在 UI 中直接更新反馈数据集的指南和数据集设置的功能 (<#3489)
  • 添加了 ArgillaTrainer 与 TRL 的集成,允许轻松进行监督微调、奖励建模、直接偏好优化和近端策略优化 (<#3467)
  • ArgillaTrainerFeedbackDataset 数据集添加了 formatting_func,为数据添加自定义格式 (<#3599)。
  • argilla.client.login 中添加了 login 函数,用于登录 Argilla 服务器并在本地存储凭据 (<#3582)。
  • 添加了 login 命令,用于登录 Argilla 服务器 (<#3600)。
  • 添加了 logout 命令,用于从 Argilla 服务器注销 (<#3605)。
  • 添加了 DELETE /api/v1/suggestions/{suggestion_id} 端点,用于删除给定 ID 的建议 (<#3617)。
  • 添加了 DELETE /api/v1/records/{record_id}/suggestions 端点,用于删除链接到同一记录的多个建议,给定它们的 ID (<#3617)。
  • GET /api/v1/datasets/{dataset_id}/records 添加了 response_status 参数,以便能够按 response_status 进行过滤,就像之前为 GET /api/v1/me/datasets/{dataset_id}/records 包含的那样 (<#3613)。
  • ArgillaMixin 添加了 list 类方法,可以像 FeedbackDataset.list() 一样使用,还包括 workspace 作为参数来列出工作区 (<#3619)。
  • RemoteFeedbackDataset 中添加了 filter_by 方法,以根据 response_status 进行过滤 (<#3610)。
  • 添加了 list_workspaces 函数 (用作 rg.list_workspaces,但首选 Workspace.list),用于列出 Argilla 中用户的所有工作区 (<#3641)。
  • 添加了 list_datasets 函数 (用作 rg.list_datasets),用于列出 Argilla 中的 TextClassificationTokenClassificationText2Text 数据集 (<#3638)。
  • 添加了 RemoteSuggestionSchema 来管理 Argilla 中的建议,包括 delete 方法,用于通过 DELETE /api/v1/suggestions/{suggestion_id} 从 Argilla 中删除建议 (<#3651)。
  • RemoteFeedbackRecord 添加了 delete_suggestions,用于通过 DELETE /api/v1/records/{record_id}/suggestions 从 Argilla 中删除建议 (<#3651)。

更改

  • 更改了 可选标签的 * 标记,用于必填问题 (<#3608)
  • 更新了 RemoteFeedbackDataset.delete_records 以使用批量删除记录端点 (<#3580)。
  • 为某些 RemoteFeedbackDatasetRemoteFeedbackRecordsRemoteFeedbackRecord 方法包含了 allowed_for_roles,这些方法仅允许具有 owneradmin 角色的用户使用 (<#3601)。
  • ArgillaToFromMixin 重命名为 ArgillaMixin (<#3619)。
  • users CLI 应用移动到 database CLI 应用下 (<#3593)。
  • 将服务器 Enum 类移动到 argilla.server.enums 模块 (<#3620)。

修复

  • 修复了 面包屑导航中的按工作区过滤 问题 (<#3577)
  • 修复了 数据集表中的按工作区过滤 问题 (<#3604)
  • 修复了 Text2Text 和 TextClassification 的 查询搜索高亮 问题 (<#3621)
  • 修复了 RatingQuestion.values 验证,当值超出范围时 (例如 [1, 10]) 引发 ValidationError (<#3626)。

移除

  • TaskType 中移除了未使用的 multi_task_text_token_classification (<#3640)。
  • RemoteFeedbackDataset 中移除了 argilla_id,改为使用 id (<#3663)。
  • RemoteFeedbackDataset 中移除了 fetch_records,因为现在记录是从 Argilla 延迟获取的 (<#3663)。
  • RemoteFeedbackDataset 中移除了 push_to_argilla,因为它仅在通过本地 FeedbackDataset 调用时才起作用,因为现在远程数据集的更新会自动推送到 Argilla (<#3663)。
  • 已移除 FeedbackRecordRemoteFeedbackRecord 中的 set_suggestions,转而使用 update(suggestions=...),因为记录的所有“可更新”属性的更新都将通过 update 进行 (#3663)。
  • 移除了客户端 Dataset 数据模型中未使用的 owner 属性 (#3665)

1.14.1

修复

  • 修复了由于缺少 commit,导致在 begin_nested 之后 PostgreSQL 数据库未更新的问题 (#3567)。

修复

  • 修复了在更新 ratingranking 问题时无法提供 settings 的问题 (#3552)。

1.14.0

新增

  • 新增 PATCH /api/v1/fields/{field_id} 端点,用于更新字段标题和 markdown 设置 (#3421)。
  • 新增 PATCH /api/v1/datasets/{dataset_id} 端点,用于更新数据集名称和指南 (#3402)。
  • 新增 PATCH /api/v1/questions/{question_id} 端点,用于更新问题标题、描述和一些设置(取决于问题类型) (#3477)。
  • 新增 DELETE /api/v1/records/{record_id} 端点,用于根据记录 ID 删除记录 (#3337)。
  • RemoteFeedbackDataset(推送到 Argilla 的 FeedbackDataset)中新增 pull 方法,用于从 Argilla 中拉取所有记录,并作为 FeedbackDataset 的本地副本返回 (#3465)。
  • RemoteFeedbackDataset(推送到 Argilla 的 FeedbackDataset)中新增 delete 方法 (#3512)。
  • RemoteFeedbackDataset 中新增 delete_records 方法,并在 RemoteFeedbackRecord 中新增 delete 方法,用于从 Argilla 中删除记录 (#3526)。

已更改

  • 提高了数据集包含向量时弱标签的效率 (#3444)。
  • 新增 ArgillaDatasetMixin,用于从 FeedbackDataset 中分离出 Argilla 相关的功能 (#3427)
  • FeedbackDataset 相关的 pydantic.BaseModel 模式移动到 argilla.client.feedback.schemas 中,以便更好地组织结构,并更具可扩展性和可维护性 (#3427)
  • 更新 CLI 以使用数据库异步连接 (#3450)。
  • 将评分问题的值限制在正数范围 [1, 10] 内 (#3451)。
  • 更新了 POST /api/users 端点,使其能够提供用户应链接到的工作区名称列表 (#3462)。
  • 更新了 Python 客户端 User.create 方法,使其能够提供用户应链接到的工作区名称列表 (#3462)。
  • 更新了 GET /api/v1/me/datasets/{dataset_id}/records 端点,允许获取与通过查询参数提供的响应状态之一匹配的记录 (#3359)。
  • 更新了 POST /api/v1/me/datasets/{dataset_id}/records 端点,允许搜索与通过查询参数提供的响应状态之一匹配的记录 (#3359)。
  • 更新了 SearchEngine.search 方法,允许搜索与提供的响应状态之一匹配的记录 (#3359)。
  • 在调用 FeedbackDataset.push_to_argilla 后,方法 FeedbackDataset.add_recordsFeedbackRecord.set_suggestions 将自动调用 Argilla,无需显式调用 push_to_argilla (#3465)。
  • 现在调用 FeedbackDataset.push_to_huggingface 会将 responses 转储为 List[Dict[str, Any]] 而不是 Sequence,以便通过 🤗datasets 更易读 (#3539)。

修复

  • 修复了从 argilla_template.md 生成 HuggingFace DatasetCard 时,Jinja2 中 bool 值和 default 引起的问题 (#3499)。
  • 修复了 DatasetConfig.from_yaml 在调用 FeedbackDataset.from_huggingface 时失败的问题,因为 UUID 无法被 PyYAML 自动反序列化,因此 UUID 不再被转储或加载 (#3502)。
  • 修复了一个不允许 Argilla 服务器在代理后工作的问题 (#3543)。
  • TextClassificationSettingsTokenClassificationSettings 标签在 Python 客户端和后端端点中均被正确解析为字符串 (#3495)。
  • 修复了 PUT /api/v1/datasets/{dataset_id}/publish 以检查是否至少有一个字段和问题具有 required=True (#3511)。
  • 修复了 FeedbackDataset.from_huggingface,因为当没有 responses 时,suggestions 会丢失 (#3539)。
  • 修复了 QuestionSchemaFieldSchema 未验证 name 属性的问题 (#3550)。

已弃用

  • 在调用 FeedbackDataset.push_to_argilla 后,再次调用 push_to_argilla 不会执行任何操作,因为数据集已推送到 Argilla (#3465)。
  • 在调用 FeedbackDataset.push_to_argilla 后,调用 fetch_records 不会执行任何操作,因为记录是从 Argilla 延迟获取的 (#3465)。
  • 在调用 FeedbackDataset.push_to_argilla 后,Argilla ID 不再存储在属性/属性 argilla_id 中,而是存储在 id 中 (#3465)。

1.13.3

修复

  • 修复了 ModuleNotFoundError,原因是 ArgillaTrainer 中使用的 argilla.utils.telemetry 模块导入了一个默认情况下未安装的可选依赖项 (#3471)。
  • 修复了 ImportError,原因是 argilla.client.feedback.config 模块导入了默认情况下未安装的 pyyaml 可选依赖项 (#3471)。

1.13.2

修复

  • 修复了在 PostgreSQL 中创建的 suggestion_type_enum ENUM 数据类型没有任何值的问题 (#3445)。

1.13.1

修复

  • 修复了 PostgreSQL 的数据库迁移问题(参见 #3438

1.13.0

新增

  • 新增 GET /api/v1/users/{user_id}/workspaces 端点,用于列出用户所属的工作区 (#3308#3343)。
  • 新增 HuggingFaceDatasetMixin 用于内部使用,以将 FeedbackDataset 集成从类本身分离出来,并使用 Mixins 代替 (#3326)。
  • 新增 GET /api/v1/records/{record_id}/suggestions API 端点,用于获取与记录关联的响应的建议列表 (#3304)。
  • 新增 POST /api/v1/records/{record_id}/suggestions API 端点,用于为与记录关联的响应创建建议 (#3304)。
  • 新增对 RankingQuestionStrategyRankingQuestionUnificationTrainingTaskMapping.for_text_classification 方法的支持 (#3364)
  • 新增 PUT /api/v1/records/{record_id}/suggestions API 端点,用于为与记录关联的响应创建或更新建议 (#3304 & 3391)。
  • FeedbackRecord 新增 suggestions 属性,并允许从 Python 客户端添加和检索建议 (#3370)
  • UserWorkspace 新增 allowed_for_roles Python 装饰器,用于检查当前用户是否具有访问装饰函数/方法所需的角色 (#3383)
  • 新增 API 和 Python 客户端对工作区删除的支持 (Closes #3260)
  • 新增 GET /api/v1/me/workspaces 端点,用于列出当前活动用户的工作区 (#3390)

已更改

  • 更新了 GET /api/v1/datasets/{dataset_id}/recordsGET /api/v1/me/datasets/{dataset_id}/recordsPOST /api/v1/me/datasets/{dataset_id}/records/search 端点的输出有效负载,以根据 include 查询参数的值包含记录的建议 (#3304)。
  • 更新了 POST /api/v1/datasets/{dataset_id}/records 输入有效负载,以添加建议 (#3304)。
  • POST /api/datasets/:dataset-id/:task/bulk 端点在数据集不存在时不会创建数据集 (Closes #3244)
  • ArgillaTrainer 新增 Telemetry 支持 (closes #3325)
  • User.workspaces 不再是属性,而是属性,并调用 list_user_workspaces 以列出给定用户 ID 的所有工作区名称 (#3334)
  • FeedbackDatasetConfig 重命名为 DatasetConfig,并从 YAML 导出/导入作为默认设置,而不是 JSON(仅在 FeedbackDatasetpush_to_huggingfacefrom_huggingface 方法内部使用) (#3326)。
  • 受保护的元数据字段支持文本信息以外的其他信息 - 现有数据集必须重新索引。有关更多详细信息,请参阅 文档 (Closes #3332)。
  • 更新了 Dockerfile 父镜像,从 python:3.9.16-slim 升级到 python:3.10.12-slim (#3425)。
  • 更新了 quickstart.Dockerfile 父镜像,从 elasticsearch:8.5.3 升级到 argilla/argilla-server:${ARGILLA_VERSION} (#3425)。

已移除

  • 移除了对非前缀环境变量的支持。所有有效的环境变量都以 ARGILLA_ 开头(参见 #3392)。

修复

  • 修复了 GET /api/v1/me/datasets/{dataset_id}/records 端点始终返回记录的响应,即使未通过 include 查询参数提供 responses 的问题 (#3304)。
  • 受保护的元数据字段的值不再被截断 (Closes #3331)。
  • 大数字 ID 在 UI 中正确呈现 (Closes #3265)
  • 修复了 ArgillaDatasetCard 以包含所有现有问题的 values/labels (#3366)

已弃用

  • 文本分类、token 分类和 text2text 数据集中对记录 ID 的整数支持。

1.12.1

修复

  • 使用默认 argilla 用户的 rg.init 会跳过设置默认工作区(如果不可用)。(Closes #3340)
  • 解决了 ArgillaTrainerTrainingTaskMapping 的错误导入结构问题 (Closes #3345)
  • 将 pydantic 依赖项固定到版本 < 2 (Closes 3348)

1.12.0

新增

  • 新增 RankingQuestionSettings 类,允许在 API 中使用 POST /api/v1/datasets/{dataset_id}/questions 端点创建排序问题 (#3232)
  • 在 Python 客户端中新增 RankingQuestion 以创建排序问题 (#3275)。
  • 在反馈任务问题表单中新增 Ranking 组件 (#3177 & #3246)。
  • FeedbackDataset.prepare_for_training 方法新增功能,用于为 RatingQuestionLabelQuestionMultiLabelQuestion 提供的响应生成特定于框架的数据集 (#3151)。
  • 新增 ArgillaSpaCyTransformersTrainer 类,用于支持使用 spacy-transformers 进行训练 (#3256)。

文档

  • 在开发者文档中新增了关于如何运行 Argilla 前端的说明 (#3314)。

已更改

  • 所有 docker 相关文件都已移动到 docker 文件夹中 (#3053)。
  • release.Dockerfile 已重命名为 Dockerfile (#3133)。
  • 更新了 rg.load 函数,对于用户尝试使用该函数加载 FeedbackDataset 的情况,会引发带有解释性消息的 ValueError (#3289)。
  • 更新了 ArgillaSpaCyTrainer 以允许重用 tok2vec (#3256)。

修复

  • rg.set_workspace 上检查 Argilla 上可用的工作区 (Closes #3262)

1.11.0

修复

  • np.float 别名替换为 float,以避免在 numpy>=1.24.0 的情况下使用 find_label_errors 函数时出现 AttributeError (#3214)。
  • 修复了当 FeedbackRecord 中没有响应或可选响应时,format_as("datasets") 将其值设置为 🤗 Datasets 期望的值,而不是仅仅设置为 None 的问题 (#3224)。
  • 修复了 push_to_huggingface()generate_card=True(默认行为)时的问题,因为我们将示例记录传递给 ArgillaDatasetCard 类,并且 1.10.0 中引入的 UUID (#3192) 不可 JSON 序列化 (#3231)。
  • 修复了 from_argillapush_to_argilla 以确保字段和问题重建的一致性,并确保 UUID 分别正确序列化为 str (#3234)。
  • 重构了 import argilla as rg 的用法,以澄清包导航 (#3279)。

文档

  • 修复了使用 Sentence Transformers 教程进行弱监督中的 URL #3243
  • 修复了教程页面上库按钮的格式 (#3255)。
  • 修改了笔记本中错误代码输出的样式 (#3270)。
  • 新增了 ElasticSearch 和 OpenSearch 版本 (#3280)。
  • 从目录中移除了模板笔记本 (#3271)。
  • 修复了使用 pip install argilla 的教程,以避免使用软件包的旧版本 (#3282)。

新增

  • FeedbackDatasetRecord 新增了 metadata 属性 (#3194)
  • 新增 users update 命令,用于更新现有用户的角色 (#3188)
  • 新增 Workspace 类,允许用户通过 Python 客户端管理其 Argilla 工作区以及分配给这些工作区的用户 (#3180)
  • 新增 User 类,让用户可以通过 Python 客户端管理其 Argilla 用户 (#3169)。
  • FeedbackDataset.push_to_argilla 添加了一个选项,用于在循环上传记录时显示 tqdm 进度条 (#3233)。

已更改

  • 角色系统现在支持三种不同的角色:owneradminannotator (#3104)
  • admin 角色被限定于工作区级别的操作 (#3115)
  • owner 用户是在快速入门中默认用户池中创建的,服务器中的默认用户现在具有 owner 角色 (#3248),恢复 (#3188)。

已弃用

  • 由于 Python 3.7 于 2023-06-27 终止生命周期 (EOL),Argilla 将不再支持 Python 3.7 (#3188)。更多信息请访问 https://peps.pythonlang.cn/pep-0537/

1.10.0

新增

  • 为反馈数据集新增搜索组件 (#3138)
  • 为反馈数据集指南新增 markdown 支持 (#3153)
  • 为反馈数据集新增训练按钮 (#3170)

已更改

  • 更新了 SearchEnginePOST /api/v1/me/datasets/{dataset_id}/records/search 以返回与搜索查询匹配的记录总数 total (#3166)

修复

  • 在客户端 API 调用的 URL 中将 Enum 替换为字符串值 (Closes #3149)
  • 解决了 ArgillaSpanMarkerTrainer 对于 Named Entity Recognition 与 span_marker v1.1.x 及更高版本的突破性问题。
  • ArgillaDatasetCard 导入移动到 @requires_version 装饰器下,以便正确处理 huggingface_hub 上的 ImportError (#3174)
  • 允许在不同的数据集名称和/或工作区下进行 FeedbackDataset.from_argilla -> FeedbackDataset.push_to_argilla 流 (#3192)

文档

  • 解决了文档中的错别字问题 (#3240)。
  • 修复了对 master 分支的提及 (#3254)。

1.9.0

新增

  • TextFieldSettings 模型新增布尔值 use_markdown 属性。
  • TextQuestionSettings 模型新增布尔值 use_markdown 属性。
  • Response 模型新增状态 draft
  • 新增 LabelSelectionQuestionSettings 类,允许在 API 中创建标签选择(单选)问题 (#3005)
  • 新增 MultiLabelSelectionQuestionSettings 类,允许在 API 中创建多标签选择(多选)问题 (#3010)。
  • 新增 POST /api/v1/me/datasets/{dataset_id}/records/search 端点 (#3068)。
  • 在反馈任务问题表单中新增组件:MultiLabel (#3064) 和 SingleLabel (#3016)。
  • argilla/client/feedback/schemas.py 中定义的 pydantic.BaseModel 添加了文档字符串 (#3137)
  • 在开发者文档中添加了关于执行测试的信息 ([#3143])。

已更改

  • 更新了 GET /api/v1/me/datasets/:dataset_id/metrics 输出有效负载,以包含 draft 状态的响应计数。
  • 新增 LabelSelectionQuestionSettings 类,允许在 API 中创建标签选择(单选)问题。
  • 新增 MultiLabelSelectionQuestionSettings 类,允许在 API 中创建多标签选择(多选)问题。
  • 单元测试的数据库设置。现在单元测试使用与本地 Argilla 服务器使用的数据库不同的数据库 (Closes #2987)。
  • 更新了 alembic 设置,以便能够使用 Argilla 服务器模型中的 SQLAlchemy 元数据自动生成修订/迁移脚本 (#3044)
  • 改进了 FeedbackDataset.push_to_huggingfacegenerate_card=True 时的 DatasetCard 生成,遵循了官方 HuggingFace Hub 模板,但更适合来自 Argilla 的 FeedbackDataset (#3110)

修复

  • 禁止 FeedbackDataset 中具有相同名称的 fieldsquestions (#3126)。
  • 修复了文档中的断开链接,并将开发分支名称从 development 更新为 develop ([#3145])。

1.8.0

新增

  • /api/v1/datasets 新端点,用于列出和创建数据集 (#2615)。
  • /api/v1/datasets/{dataset_id} 新端点,用于获取和删除数据集 (#2615)。
  • /api/v1/datasets/{dataset_id}/publish 新端点,用于发布数据集 (#2615)。
  • /api/v1/datasets/{dataset_id}/questions 新端点,用于列出和创建数据集问题 (#2615)
  • /api/v1/datasets/{dataset_id}/fields 新端点,用于列出和创建数据集字段 (#2615)
  • /api/v1/datasets/{dataset_id}/questions/{question_id} 新端点,用于删除数据集问题 (#2615)
  • /api/v1/datasets/{dataset_id}/fields/{field_id} 新端点,用于删除数据集字段 (#2615)
  • /api/v1/workspaces/{workspace_id} 新端点,用于按 ID 获取工作区 (#2615)
  • /api/v1/responses/{response_id} 新端点,用于更新和删除响应 (#2615)
  • /api/v1/datasets/{dataset_id}/records 新端点,用于创建和列出数据集记录 (#2615)
  • /api/v1/me/datasets 新端点,用于列出用户可见的数据集 (#2615)
  • /api/v1/me/dataset/{dataset_id}/records 新端点,用于列出包含用户响应的数据集记录 (#2615)
  • /api/v1/me/datasets/{dataset_id}/metrics 新端点,用于获取数据集用户指标 (#2615)
  • /api/v1/me/records/{record_id}/responses 新端点,用于创建记录用户响应 (#2615)
  • 在数据集列表中显示新的反馈任务数据集 ([#2719])
  • 反馈任务的新页面 ([#2680])
  • 显示反馈任务指标 ([#2822])
  • 用户可以在数据集设置页面删除数据集 ([#2792])
  • Python 客户端中对 FeedbackDataset 的支持(父 PR #2615,以及嵌套 PR:[#2949]、[#2827]、[#2943]、[#2945]、[#2962] 和 [#3003])
  • 与 HuggingFace Hub 集成 ([#2949])
  • 为文本和 token 分类新增 ArgillaPeftTrainer #2854
  • ArgillaSetFitTrainer 新增 predict_proba() 方法
  • 为文本分类新增 ArgillaAutoTrainTrainer #2664
  • 新的 database revisions 命令,显示数据库修订信息

修复

  • 避免在 Text2text 中为无效的 html 字符串渲染 html ([#2911]https://github.com/argilla-io/argilla/issues/2911)

已更改

  • database migrate 命令接受 --revision 参数以提供特定的修订 ID
  • tokens_length 指标函数返回空数据 (#3045)
  • token_length 指标函数返回空数据 (#3045)
  • mention_length 指标函数返回空数据 (#3045)
  • entity_density 指标函数返回空数据 (#3045)

已弃用

  • 不建议将 Argilla 与 Python 3.7 运行时一起使用,并且从 1.11.0 版本开始将移除支持 (#2902)
  • tokens_length 指标函数已被弃用,将在 1.10.0 版本中移除 (#3045)
  • token_length 指标函数已被弃用,将在 1.10.0 版本中移除 (#3045)
  • mention_length 指标函数已被弃用,将在 1.10.0 版本中移除 (#3045)
  • entity_density 指标函数已被弃用,将在 1.10.0 版本中移除 (#3045)

已移除

  • 从 token 分类指标存储中移除了 mention densitytokens_lengthchars_length 指标 (#3045)
  • 从 token 分类指标存储中移除了 token char_startchar_endtagscore 指标 (#3045)
  • 从 token 分类指标存储中移除了与标签相关的指标 (#3045)

1.7.0

新增

  • rg.log 添加 max_retriesnum_threads 参数,以使用退避重试策略并发运行数据日志记录请求。请参阅 #2458#2533
  • rg.load 在加载数据时接受 include_vectorsinclude_metrics。Closes #2398
  • prepare_for_training 添加 settings 参数 (#2689)
  • openai 添加 prepare_for_training (#2658)
  • 新增 ArgillaOpenAITrainer (#2659)
  • 为 Named Entity Recognition 新增 ArgillaSpanMarkerTrainer (#2693)
  • 新增 ArgillaTrainer CLI 支持。Closes (#2809)

修复

  • 修复 token 分类中的图像对齐问题

已更改

  • Argilla 快速入门镜像依赖项被外部化到 quickstart.requirements.txt 中。请参阅 #2666
  • 当记录 id 存在时,批量端点将更新数据。Closes #2535
  • click 迁移到 typer CLI 支持。Closes (#2815)
  • Argilla 服务器 docker 镜像使用 PostgreSQL 支持构建。Closes #2686
  • rg.log 计算所有批次,并为所有失败的批次引发错误。
  • rg.log 的默认批次大小现在为 100。

修复

  • argilla.training bug 修复和统一 (#2665)
  • 解决了 ArgillaTrainer 中的几个小 bug。

已弃用

  • rg.log_async 函数已弃用,将在下一个次要版本中移除。

1.6.0

新增

  • ARGILLA_HOME_PATH 新环境变量 (#2564)。
  • ARGILLA_DATABASE_URL 新环境变量 (#2564)。
  • 对用户角色的基本支持,包括 adminannotator (#2564)。
  • idfirst_namelast_nameroleinserted_atupdated_at 新的用户字段 (#2564)。
  • /api/users 新端点,用于列出和创建用户 (#2564)。
  • /api/users/{user_id} 新端点,用于删除用户 (#2564)。
  • /api/workspaces 新端点,用于列出和创建工作区 (#2564)。
  • /api/workspaces/{workspace_id}/users 新端点,用于列出工作区用户 (#2564)。
  • /api/workspaces/{workspace_id}/users/{user_id} 新端点,用于创建和删除工作区用户 (#2564)。
  • argilla.tasks.users.migrate 新任务,用于将用户从旧 YAML 文件迁移到数据库 (#2564)。
  • argilla.tasks.users.create 新任务,用于创建用户 (#2564)。
  • argilla.tasks.users.create_default 新任务,用于使用默认凭据创建用户 (#2564)。
  • argilla.tasks.database.migrate 新任务,用于执行数据库迁移 (#2564)。
  • release.Dockerfilequickstart.Dockerfile 现在创建默认的 argilladata 卷以持久化数据 (#2564)。
  • 添加用户设置页面。 关闭 #2496
  • 添加了 Argilla.training 模块,支持 spacysetfittransformers。 关闭 #2504

修复

  • 现在当 multi_label=True 时,prepare_for_training 方法可以正常工作了。 关闭 #2606

已更改

  • ARGILLA_USERS_DB_FILE 环境变量现在仅用于将用户从 YAML 文件迁移到数据库 (#2564)。
  • full_name 用户字段现已弃用,应使用 first_namelast_name 代替 (#2564)。
  • password 用户字段现在要求最小 8 个字符,最大 100 个字符 (#2564)。
  • quickstart.Dockerfile 镜像默认用户从 teamargilla 更改为 adminannotator,包括新的密码和 API 密钥 (#2564)。
  • 数据集现在仅由具有 admin 角色的用户管理 (#2564)。
  • 现在在计算指标时可以访问规则列表。 关闭 #2117
  • 弱标签的样式更新,并在删除规则时添加反馈 toast。 请参阅 #2626#2648

已移除

  • email 用户字段 (#2564)。
  • disabled 用户字段 (#2564)。
  • 私有工作空间的支持 (#2564)。
  • ARGILLA_LOCAL_AUTH_DEFAULT_APIKEYARGILLA_LOCAL_AUTH_DEFAULT_PASSWORD 环境变量。 请改用 python -m argilla.tasks.users.create_default (#2564)。
  • 来自 python 客户端的旧版 API Keyworkspace 标头
  • 旧版 API Key 常量的默认值。 关闭 #2251

1.5.1 - 2023-03-30

修复

  • 修复在工作空间之间复制数据集时所有者/工作空间信息不正确的问题。 关闭 #2562
  • 将空工作空间的数据集复制到默认用户工作空间 905d4de
  • 使用 elasticsearch 配置请求后端版本。 关闭 #2311
  • 移除标签中按分数排序的功能。 关闭 #2622

已更改

  • 更新图像 URL 元数据中的字段名称。 请参阅 #2609
  • 改进了教程文档卡片。 关闭 #2216

1.5.0 - 2023-03-21

已添加

  • 添加了从 argilla 加载数据时要检索的字段。 rg.load 因为向量字段而耗时过长,即使用户不需要它。 关闭 #2398
  • 为数据集设置添加新页面和组件。 关闭 #2442
  • 如果 URL 通过元数据和键 _image_url 传入,则添加在记录中显示图像的功能(用于 TokenClassification 和 TextClassification)
  • 元数据中支持非搜索字段。 #2570
  • 将记录 ID 引用添加到训练准备方法中。 关闭 #2483
  • 添加图像分类教程。 #2420
  • 添加“训练”按钮,对 “admin” 角色可见,其中包含来自精选库的代码片段。 关闭 [#2591] (https://github.com/argilla-io/argilla/pull/2591)

已更改

  • 标签现在集中在一个名为 GlobalLabel Model 的特定 vuex ORM 中,请参阅 https://github.com/argilla-io/argilla/issues/2210。 此模型对于 TokenClassification 和 TextClassification 都是相同的(因此两个任务在 vuex ORM 中都具有带有 color_id 和 shortcuts 参数的标签)
  • 标签的快捷方式改进 #2339 已移至数据集设置功能中的 vuex ORM #2444
  • 更新文档中的“定义标注模式”部分。
  • 默认情况下,记录输入在 UI 中按字母顺序排序。 #2581
  • 当分页大小为 1 且折叠区域大小对于笔记本电脑屏幕较大时,记录输入完全可见。 #2587

修复

  • 再次允许 URL 在 Jupyter notebook 中可点击。 关闭 #2527

已移除

  • 移除旧客户端使用的一些数据扫描弃用端点。 此更改将破坏与客户端 <v1.3.0 的兼容性
  • 停止在 python 客户端中使用旧的扫描弃用端点。 此逻辑将破坏客户端与服务器版本 <1.3.0 的兼容性
  • 移除先前通过数据集页面添加标签的方式。 现在只能通过数据集设置页面添加标签。