更新日志¶
此项目的所有重大更改都将记录在此文件中。
格式基于 Keep a Changelog,并且此项目遵守 语义版本控制。
未发布¶
2.7.0¶
已添加¶
已修复¶
- 修复了在 argilla 客户端初始化中传递
verify=False
时的连接错误。( #5548
2.6.0¶
已修复¶
- 修复了迭代数据集时设置未正确加载的错误。( #5753)
- 修复了从原始字典加载字段时的错误。( #5756)
- 修复了从 Hub 导入已存在数据集时的错误。( #5756)
- 修复了导入没有响应的已丢弃响应时的错误。( #5756)
- 修复了从现有用户导入带有响应的数据集时的错误。( #5756)
2.5.0¶
已添加¶
- 添加了删除/覆盖数据集设置的支持。( #5584)
- 添加了更新问题属性的支持。( #5680)
- 添加了对 webhook 监听器的支持。( #5502)
- 添加了对 Python 3.13 的支持。( #5652)
已修复¶
- 修复了从默认值更新 settings.distribution.min_submitted 时的错误 ( #5719)
2.4.0¶
已添加¶
- 添加了
Argilla.deploy_on_spaces
以在 Hugging Face Spaces 上部署 Argilla 服务器。( #5547)
已更改¶
- 现在可以使用客户端更新用户参数 ( #5614)
- 更改了
Dataset.from_hub
方法,当settings="ui"
时打开配置 URL。( #5622) - 术语元数据属性接受除
str
以外的其他值。( #5594) - 添加了在获取记录以及搜索查询时对
with_vectors
的支持。( #5638)
已移除¶
- 删除了数据集设置名称的名称清理。这可能会导致旧服务器版本出现问题。尤其是在使用
from_hub
时。( #5574)
2.3.0¶
已添加¶
- 添加了对
CustomField
的支持。( #5422) - 将
inserted_at
和updated_at
添加到Resource
模型作为属性。( #5540) - 在获取记录时添加了
limit
参数。( #5525 - 添加了相似度搜索支持。( #5546)
- 为
id
、_server_id
、inserted_at
和updated_at
记录属性添加了筛选器支持。( #5545) - 添加了从 colab secrets 读取 argilla 凭据的支持。( #5541)
已更改¶
已修复¶
- 修复了从 Hub 收集记录并导出到
datasets
时ChatField
的序列化。( #5554)
2.2.2¶
已修复¶
已更改¶
- 更改了
from_hub
,仅为数据集中的字符串生成字段,而不是问题。( #5524)
2.2.1¶
已修复¶
- 修复了列名包含大写字母时
from_hub
错误。( #5523) - 修复了类特征值包含未标记值时
from_hub
错误。( #5523) - 修复了加载缓存数据集时
from_hub
错误。( #5523)
2.2.0¶
- 添加了新的
ChatField
,支持聊天消息。( #5376) - 为分类、评级和排序问题向
rg.Settings
添加了模板设置。( #5426) - 在
rg.Dataset.from_hub
中添加了基于datasets.Features
的rg.Settings
定义。( #5426) - 向
rg.Settings
添加了持久记录映射,以在rg.Dataset.records.log
中使用。( #5466) - 向
rg.Dataset.records.log
方法添加了多种错误处理方法,以警告、忽略或引发错误。( #5466) - 更改了
rg.LabelQuestion
的数据集导入和导出,以使用datasets.ClassLabel
而不是datasets.Value
。( #5474)
2.1.0¶
已添加¶
- 添加了新的
ImageField
,支持 URL 和数据 URL。( #5279) - 添加了暗黑模式 ( #5412)
- 向
rg.Dataset.from_hub
添加了设置参数,以在从 Hub 摄取数据集之前定义数据集设置。( #5418)
2.0.1¶
已修复¶
- 修复了创建可选字段时的错误。( #5362)
- 修复了使用
visible_for_annotators
创建整数和浮点元数据时的错误。( #5364) - 修复了为不存在的问题记录
suggestions
或responses
时的错误。( #5396 by @maxserras) - 修复了并行运行测试时测试套件中冲突导致的错误。( #5349)
- 修复了使用
None
值创建响应时响应模型中的错误。( #5343)
已更改¶
- 更改了
from_hub
方法,当存在同名数据集时引发错误。( #5258) - 更改了
log
方法,当摄取没有已知键的记录时引发描述性错误。( #5356) - 更改了
code snippets
以添加新数据集 ( #5395)
已添加¶
- 向文档站点添加了 Google Analytics。( #5366)
- 向进度指标添加了前端骨架,以优化加载时间并改善用户体验。( #5391)
- 在 Python SDK 的 API 参考中的方法中添加了文档。( #5400)
已修复¶
- 修复了提交最新记录时的错误,有时您会导航到不存在的页面 #5419
2.0.0¶
已添加¶
已更改¶
- 将
FeedbackDataset
更改为Dataset
。 - 将
rg.init
更改为rg.Argilla
类以与 Argilla 服务器交互。
已弃用¶
- 已弃用特定于任务的数据集类,如
TextClassification
和TokenClassification
。要将旧数据集迁移到rg.Dataset
类,请参阅 操作指南。 - 已弃用用例扩展,如
listeners
和ArgillaTrainer
。
2.0.0rc1¶
[!NOTE] 此 2.0.0rc1 版本不包含任何更新日志条目,因为它是 2.0.0 版本的第一个候选版本。以下版本将再次包含更新日志条目。有关 2.0.0 版本更改的总体概述,请参阅 我们的博客 或 我们的新文档。
1.29.0¶
已添加¶
- 添加了对评级问题的支持,以将
0
作为有效值包括在内。( #4860) - 添加了对 Python 3.12 的支持。( #4837)
- 在
FeedbackDataset
UI 搜索中添加了按字段搜索。( #4746) - 在
FeedbackDataset
UI 中添加了记录元数据信息。( #4851) - 在
FeedbackDataset
UI 中添加了搜索结果高亮显示。( #4747)
已修复¶
1.28.0¶
已添加¶
- 添加了建议多得分属性。( #4730)
- 添加了按建议优先排序。( #4731)
- 为 span 标注重叠添加了多选实体下拉列表。( #4735)
- 为 span 标注添加了预选高亮显示。( #4726)
- 在持久存储未启用时添加了横幅。( #4744)
- 在 Python SDK 上为新的多标签问题
labels_order
属性添加了支持。( #4757)
已更改¶
- 更改了 Hugging Face space 和用户在登录时的显示方式。( #4748)
已修复¶
- 修复了韩文字符反转的问题。( #4753)
已修复¶
- 修复了 wrapt 库版本与 Python 3.11 冲突的要求 ( #4693)
1.27.0¶
已添加¶
- 在
FeedbackDataset
中添加了允许 span 重叠。( #4668) - 为 span 问题添加了
allow_overlapping
参数。( #4697) - 在
Datasets
表格中添加了总体进度条。( #4696) - 添加了德语翻译。( #4688)
已更改¶
- 建议的新 UI 设计。( #4682)
已修复¶
- 提高了超过 250 个标签的性能。( #4702)
1.26.1¶
已添加¶
- 添加了自动检测 RTL 语言的支持。( #4686)
1.26.0¶
已添加¶
- 如果您展开
single or multi
标签问题的标签,则状态在整个标注过程中保持不变。( #4630) - 在 Python SDK 中添加了对 span 问题的支持。( #4617)
- 在建议和响应中添加了对 span 值的支持。( #4623)
- 为
FeedbackDataset
添加了span
问题。( #4622) - 添加了
ARGILLA_CACHE_DIR
环境变量以配置客户端缓存目录。( #4509)
已修复¶
- 修复了上下文工作区。( #4665)
- 修复了将
RankingValueSchema
实例传递给建议时准备训练的问题。( #4628) - 修复了从 HF 数据集中解析排序值的问题。( #4629)
- 修复了从 API 响应负载中读取描述的问题。( #4632)
- 修复了在使用
ds.pull
或迭代数据集时拉取 (n*chunk_size)+1 条记录的问题。( #4662) - 修复了客户端在调用 Search 和 Metrics API 时解析枚举值的问题,以支持 Python >=3.11 枚举处理。( #4672)
1.25.0¶
[!NOTE] 有关 argilla-server 模块的更改,请访问 argilla-server 发行说明
已添加¶
已移除¶
- 删除了状态筛选器的
missing
响应。请改用pending
。( #4533)
已修复¶
- 修复了 FloatMetadataProperty:值不是有效的浮点数 ( #4570)
- 修复了重定向到
user-settings
而不是 404user_settings
的问题 ( #4609)
1.24.0¶
[!NOTE] 此版本不包含任何新功能,但它包括
argilla-server
依赖项的重大更改。该软件包正在使用 此处 定义的argilla-server
依赖项。( #4537)
已更改¶
1.23.1¶
已修复¶
- 修复了反馈数据集的响应式视图。( #4579)
1.23.0¶
已添加¶
- 添加了按筛选条件批量标注。( #4516)
- 在焦点选项卡上自动获取新数据集。( #4514)
- 现在,API v1 响应返回
Record
架构始终包含dataset_id
作为属性。( #4482) - 现在,API v1 响应返回
Response
架构始终包含record_id
作为属性。( #4482) - 现在,API v1 响应返回
Question
架构始终包含dataset_id
属性。( #4487) - 现在,API v1 响应返回
Field
架构始终包含dataset_id
属性。( #4488) - 现在,API v1 响应返回
MetadataProperty
架构始终包含dataset_id
属性。( #4489) - 现在,API v1 响应返回
VectorSettings
架构始终包含dataset_id
属性。( #4490) - 向
.html_utils
模块添加了pdf_to_html
函数,该函数将 PDF 转换为 dataURL,以便能够在 Argilla UI 中呈现它们。( #4481) - 添加了
ARGILLA_AUTH_SECRET_KEY
环境变量。( #4539) - 添加了
ARGILLA_AUTH_ALGORITHM
环境变量。( #4539) - 添加了
ARGILLA_AUTH_TOKEN_EXPIRATION
环境变量。( #4539) - 添加了
ARGILLA_AUTH_OAUTH_CFG
环境变量。( #4546) - 添加了对 HuggingFace Hub 的 OAuth2 支持。( #4546)
已弃用¶
- 已弃用
ARGILLA_LOCAL_AUTH_*
环境变量。将在 v1.25.0 版本中删除。( #4539)
已更改¶
- 更改了
UserCreate
中username
属性的正则表达式模式。现在允许使用大写字母。( #4544)
已移除¶
- 从 python SDK 请求中删除发送
Authorization
标头。( #4535)
已修复¶
- 修复了标签问题的键盘快捷键。( #4530)
1.22.0¶
已添加¶
- 添加了批量标注支持。( #4333)
- 从反馈数据集设置还原筛选器。([#4461])(https://github.com/argilla-io/argilla/pull/4461)
- 在离开具有未保存更改的页面时,反馈数据集设置发出警告。( #4461)
- 使用 python SDK 添加了 pydantic v2 支持。( #4459)
- 向
FeedbackDataset
和RemoteFeedbackDataset
的__repr__
方法添加了vector_settings
。( #4454) - 添加了使用
SentenceTransformersExtractor
集成sentence-transformers
,以在FeedbackDataset
和FeedbackRecord
中配置vector_settings
。( #4454)
已更改¶
- 模块
argilla.cli.server
定义已移动到argilla.server.cli
模块。( #4472) - [重大更改] 将
vector_settings_by_name
更改为通用property_by_name
用法,这将返回None
而不是引发错误。( #4454) - 模块
argilla._constants
中的常量定义ES_INDEX_REGEX_PATTERN
现在是私有的。( #4472) - 当创建/更新记录时,元数据属性中的
nan
值将引发 422 错误。( #4300) - 现在允许在元数据属性中使用
None
值。( #4300) - 重构并添加
width
、height
、autoplay
和loop
属性作为to_html
函数中的可选参数。( #4481)
已修复¶
- 分页到新记录时,会自动向下滚动到选定的表单区域。( #4333)
已弃用¶
- 用于筛选记录的
missing
响应状态已弃用,将在 v1.24.0 版本中删除。请改用pending
。( #4433)
已移除¶
- 已删除已弃用的
python -m argilla database
命令。( #4472)
1.21.0¶
已添加¶
- 为标注视图添加了新的草稿队列 ( #4334)
- 为
FeedbackDataset
添加了标注指标模块 (argilla.client.feedback.metrics
)。( #4175)。 - 添加了用于处理和翻译来自服务器的
401
HTTP 状态代码错误的策略 `( #4362) - 添加了使用
TextDescriptivesExtractor
集成textdescriptives
,以在FeedbackDataset
和FeedbackRecord
中配置metadata_properties
。( #4400)。由 @m-newhauser 贡献 - 添加了
POST /api/v1/me/responses/bulk
端点,以批量为当前用户创建响应。( #4380) - 为术语元数据属性添加了列表支持。( 关闭 #4359)
- 添加了新的 CLI 任务,以将数据集和记录重新索引到搜索引擎中。( #4404)
- 向
rg.init
和Argilla
添加了httpx_extra_kwargs
参数,以允许将额外的参数传递给Argilla
使用的httpx.Client
。( #4440) - 在 Argilla 的
__init__
导入中添加了ResponseStatusFilter
枚举 ( #4118)。由 @Piyush-Kumar-Ghosh 贡献。
已更改¶
- 更高效和更简单的快捷方式系统 ( #4215)
- 将
ArgillaSingleton
、init
和active_client
移动到新模块singleton
。( #4347) - 更新了
argilla.load
函数,使其也适用于FeedbackDataset
。( #4347) - [重大更改] 更新了
argilla.delete
函数,使其也适用于FeedbackDataset
。如果数据集不存在,现在会引发错误。( #4347) - 更新了
argilla.list_datasets
函数,使其也适用于FeedbackDataset
。( #4347)
已修复¶
- 修复了
TextClassificationSettings.from_dict
方法中的错误,其中创建的label_schema
是dict
列表,而不是str
列表。( #4347) - 修复了分页组件上的记录总数 ( #4424)
已移除¶
- 删除了标注视图的
draft
自动保存 ( #4334)
1.20.0¶
新增¶
- 新增
GET /api/v1/datasets/:dataset_id/records/search/suggestions/options
端点,用于返回搜索建议的可用选项。(<#4260) - 在
FeedbackDataset
和RemoteFeedbackDataset
的__repr__
方法中添加了metadata_properties
。(<#4192)。 - 在
ArgillaTrainer
中添加了get_model_kwargs
,get_trainer_kwargs
,get_trainer_model
,get_trainer_tokenizer
和get_trainer
方法,以提高跨框架的互操作性。(<#4214)。 - 在
ArgillaTrainer
中添加了额外的格式检查,以更好地实现defaults
和formatting_func
用法的互操作性。(<#4214)。 - 在
ArgillaTrainer
的update_config
方法中添加了一个警告,以强调kwargs
是否已正确更新。(<#4214)。 - 添加了
argilla.client.feedback.utils
模块,包含html_utils
(主要包括将媒体转换为 dataURL 以便在 Argilla UI 中渲染的video/audio/image_to_html
,以及以自定义方式高亮 token 的create_token_highlights
。两者都适用于use_markdown=True
的 TextQuestion 和 TextField) 和assignments
(主要包括根据注释者和记录的数量、重叠和 shuffle 选项来分配记录的assign_records
;以及根据记录分配来分配和创建工作区的assign_workspace
)。(<#4121)
修复¶
- 修复了
ArgillaTrainer
中使用数值标签时,错误地使用RatingQuestion
而不是RankingQuestion
的问题 (<#4171) - 修复了
ArgillaTrainer
中的错误,现在我们可以使用验证样本为extractive_question_answering
进行训练 (<#4204) - 修复了
ArgillaTrainer
中的错误,当为sentence-similarity
训练时,它无法处理每个记录的值列表 (<#4211) - 修复了
RankingQuestion
的统一策略中的错误 (<#4295) - 修复了
TextClassificationSettings.labels_schema
顺序未被保留的问题。关闭了 <#3828 (<#4332) - 修复了请求不存在的 API 端点时发生的错误。关闭了 <#4073 (<#4325)
- 修复了将
draft
响应传递到创建记录端点时发生的错误。(<#4354)
更改¶
- [breaking] 建议的
agent
字段现在只接受某些特定字符和有限的长度。(<#4265) - [breaking] 建议的
score
字段现在只接受0
到1
范围内的浮点数值。(<#4266) - 更新了
POST /api/v1/dataset/:dataset_id/records/search
端点,以支持可选的query
属性。(<#4327) - 更新了
POST /api/v1/dataset/:dataset_id/records/search
端点,以支持filter
和sort
属性。(<#4327) - 更新了
POST /api/v1/me/datasets/:dataset_id/records/search
端点,以支持可选的query
属性。(<#4270) - 更新了
POST /api/v1/me/datasets/:dataset_id/records/search
端点,以支持filter
和sort
属性。(<#4270) - 将从
tqdm
风格更改为rich
风格,以改进从 Argilla 拉取和推送FeedbackDataset
时的日志记录样式。(<#4267)。由 @zucchini-nlp 贡献。 - 更新了
push_to_argilla
,在推送后打印推送的RemoteFeedbackDataset
的repr
,并将show_progress
默认更改为 True。(<#4223) - 更改了
ArgillaTrainer
的models
和tokenizer
,以明确允许在需要时进行更改。(<#4214)。
1.19.0¶
新增¶
- 新增
POST /api/v1/datasets/:dataset_id/records/search
端点,用于在没有用户上下文的情况下搜索记录,包括所有用户的响应。(<#4143) - 新增
POST /api/v1/datasets/:dataset_id/vectors-settings
端点,用于为数据集创建向量设置。(<#3776) - 新增
GET /api/v1/datasets/:dataset_id/vectors-settings
端点,用于列出数据集的向量设置。(<#3776) - 新增
DELETE /api/v1/vectors-settings/:vector_settings_id
端点,用于删除向量设置。(<#3776) - 新增
PATCH /api/v1/vectors-settings/:vector_settings_id
端点,用于更新向量设置。(<#4092) - 新增
GET /api/v1/records/:record_id
端点,用于获取特定记录。(<#4039) - 添加了对
GET /api/v1/datasets/:dataset_id/records
端点响应的支持,可以使用include
查询参数包含向量。(<#4063) - 添加了对
GET /api/v1/me/datasets/:dataset_id/records
端点响应的支持,可以使用include
查询参数包含向量。(<#4063) - 添加了对
POST /api/v1/me/datasets/:dataset_id/records/search
端点响应的支持,可以使用include
查询参数包含向量。(<#4063) - 在
from_huggingface()
方法中添加了show_progress
参数,使解析记录过程的进度条成为可选。(<#4132)。 - 在
from_huggingface()
方法中为解析记录过程添加了进度条,使用tqdm
中的trange
。(<#4132)。 - 为没有元数据的数据集添加了按
inserted_at
或updated_at
排序的功能。(<4147) - 为
RemoteFeedbackDataset
的pull()
方法添加了max_records
参数。(<#4074) - 添加了使用
ArgillaTrainer.push_to_huggingface
将您的模型推送到 Hugging Face Hub 的功能 (<#3976)。由 @Racso-3141 贡献。 - 为
ArgillaTrainer
添加了filter_by
参数,以按response_status
进行过滤 (<#4120)。 - 为
ArgillaTrainer
添加了sort_by
参数,以按metadata
进行排序 (<#4120)。 - 为
ArgillaTrainer
添加了max_records
参数,以限制用于训练的记录数量 (<#4120)。 - 为本地和远程
FeedbackDataset
添加了add_vector_settings
方法。(<#4055) - 为本地和远程
FeedbackDataset
添加了update_vectors_settings
方法。(<#4122) - 为本地和远程
FeedbackDataset
添加了delete_vectors_settings
方法。(<#4130) - 为本地和远程
FeedbackDataset
添加了vector_settings_by_name
方法。(<#4055) - 为本地和远程
FeedbackDataset
添加了find_similar_records
方法。(<#4023) - 添加了
ARGILLA_SEARCH_ENGINE
环境变量,用于配置要使用的搜索引擎。(<#4019)
更改¶
- [breaking] 移除对 Elasticsearch < 8.5 和 OpenSearch < 2.4 的支持。(<#4173)
- [breaking] 使用 OpenSearch 引擎的用户必须使用版本 >=2.4 并设置
ARGILLA_SEARCH_ENGINE=opensearch
。(<#4019 和 <#4111) - [breaking] 更改了
FeedbackDataset.*_by_name()
方法,当未找到匹配项时返回None
(<#4101)。 - [breaking]
GET /api/v1/datasets/:dataset_id/records
端点的limit
查询参数现在仅接受大于等于1
且小于等于1000
的值。(<#4143) - [breaking]
GET /api/v1/me/datasets/:dataset_id/records
端点的limit
查询参数现在仅接受大于等于1
且小于等于1000
的值。(<#4143) - 更新
GET /api/v1/datasets/:dataset_id/records
端点,以使用搜索引擎获取记录。(<#4142) - 更新
GET /api/v1/me/datasets/:dataset_id/records
端点,以使用搜索引擎获取记录。(<#4142) - 更新
POST /api/v1/datasets/:dataset_id/records
端点,以允许创建带有vectors
的记录 (<#4022) - 更新
PATCH /api/v1/datasets/:dataset_id
端点,以允许更新allow_extra_metadata
属性。(<#4112) - 更新
PATCH /api/v1/datasets/:dataset_id/records
端点,以允许使用vectors
更新记录。(<#4062) - 更新
PATCH /api/v1/records/:record_id
端点,以允许使用vectors
更新记录。(<#4062) - 更新
POST /api/v1/me/datasets/:dataset_id/records/search
端点,以允许使用向量搜索记录。(<#4019) - 更新
BaseElasticAndOpenSearchEngine.index_records
方法,以同时索引记录向量。(<#4062) - 更新
FeedbackDataset.__init__
,以允许传递向量设置列表。(<#4055) - 更新
FeedbackDataset.push_to_argilla
,以同时推送向量设置。(<#4055) - 更新
FeedbackDatasetRecord
,以支持创建带有向量的记录。(<#4043) - 使用余弦相似度计算向量之间的相似度。(<#4124)
修复¶
- 修复了 svg 图像超出屏幕的问题,该问题由过大的图像引起 (<#4047)
- 修复了创建具有来自多个用户的响应的记录的问题。关闭了 <#3746 和 <#3808 (<#4142)
- 修复了作为所有者删除或更新注释者的响应的问题。(提交 <403a66d)
- 修复了按 ID 获取记录时传递 user_id 的问题。(提交 <98c7927)
- 修复了将数据集推送到 Hugging Face Hub 时,非基本标签被序列化的问题。关闭了 <#4089 (<#4200)
1.18.0¶
新增¶
- 新的
GET /api/v1/datasets/:dataset_id/metadata-properties
端点,用于列出数据集元数据属性。(<#3813) - 新的
POST /api/v1/datasets/:dataset_id/metadata-properties
端点,用于创建数据集元数据属性。(<#3813) - 新的
PATCH /api/v1/metadata-properties/:metadata_property_id
端点,允许更新特定的元数据属性。(<#3952) - 新的
DELETE /api/v1/metadata-properties/:metadata_property_id
端点,用于删除特定的元数据属性。(<#3911) - 新的
GET /api/v1/metadata-properties/:metadata_property_id/metrics
端点,用于计算特定元数据属性的指标。(<#3856) - 新的
PATCH /api/v1/records/:record_id
端点,用于更新记录。(<#3920) - 新的
PATCH /api/v1/dataset/:dataset_id/records
端点,用于批量更新数据集的记录。(<#3934) PATCH /api/v1/questions/:question_id
缺少验证。现在title
和description
使用与创建问题时相同的验证。(<#3967)- 添加了
TermsMetadataProperty
、IntegerMetadataProperty
和FloatMetadataProperty
类,允许为FeedbackDataset
定义元数据属性。(<#3818) - 在
RemoteFeedbackDataset
的filter_by
方法中添加了metadata_filters
,以根据元数据进行过滤,例如TermsMetadataFilter
、IntegerMetadataFilter
和FloatMetadataFilter
。(<#3834) - 在其模式以及作为
add_records
和filter_by
方法的一部分,为metadata_properties
和metadata_filters
都添加了验证层。(<#3860) - 为列表记录端点添加了
sort_by
查询参数,允许按inserted_at
、updated_at
或元数据属性对记录进行排序。(<#3843) - 为
FeedbackDataset
和RemoteFeedbackDataset
(即 Argilla 中的FeedbackDataset
) 都添加了add_metadata_property
方法。(<#3900) - 在
RemoteResponseSchema
中添加了字段inserted_at
和updated_at
。(<#3822) - 为
RemoteFeedbackDataset
(即上传到 Argilla 的FeedbackDataset
) 添加了sort_by
支持。(<#3925) - 为
push_to_huggingface
和from_huggingface
添加了metadata_properties
支持。(<#3947) - 添加了从 Python SDK 更新记录 (
metadata
) 的支持。(<#3946) - 添加了
delete_metadata_properties
方法以删除元数据属性。(<#3932) - 添加了
update_metadata_properties
方法以更新metadata_properties
。(<#3961) - 通过
ArgillaTrainer.save
添加了自动模型卡片生成功能 (<#3857) - 为预定义的任务模板添加了
FeedbackDataset
TaskTemplateMixin
。(<#3969) - 排序问题可以接受的最大选项数量限制为 50。(<#3975)
- 为
FeedbackDataset
添加了新的last_activity_at
字段,用于公开关联数据集的最后活动发生时间。(<#3992)
更改¶
GET /api/v1/datasets/{dataset_id}/records
,GET /api/v1/me/datasets/{dataset_id}/records
和POST /api/v1/me/datasets/{dataset_id}/records/search
端点现在返回记录的total
总数。(<#3848, <#3903)- 为已过滤的数据集实现了
__len__
方法,以返回与提供的过滤器匹配的记录数。(<#3916) - 增加了为反馈数据集创建的 Elasticsearch 的默认最大结果窗口。(<#3929)
- 强制在创建记录后刷新 elastic 索引。(<#3929)
- 在 Python SDK 中验证用于过滤和排序的元数据字段。(<#3993)
- 在搜索引擎索引中索引数据时,使用元数据属性名称而不是 ID。(<#3994)
修复¶
- 修复了响应模式以允许
values
为None
,即当记录被丢弃时,response.values
将设置为None
。(<#3926)
1.17.0¶
新增¶
- 在
RemoteResponseSchema
中添加了字段inserted_at
和updated_at
(<#3822)。 - 通过
ArgillaTrainer.save
添加了自动模型卡片生成功能 (<#3857)。 - 为
FeedbackDataset
添加了任务模板 (<#3973)。
更改¶
- 更新了
Dockerfile
以使用多阶段构建 (<#3221 和 <#3793)。 - 更新了文本分类笔记本的 active learning 以使用最新的 small-text 版本 (<#3831)。
- 更改了文本分类笔记本的 active learning 中的 argilla 数据集名称,使其与 huggingface spaces 中的默认名称一致 (<#3831)。
- FeedbackDataset API 方法已对齐,可通过多种实现方式访问 (<#3937)。
- 远程数据集的
unify_responses
支持 (<#3937)。
修复¶
- 修复了字段未按数据集设置中定义的顺序显示的问题。关闭了 <#3959 (<#3984)
- 更新了文本分类笔记本的 active learning,以将 int 类型的 ID 传递给
TextClassificationRecord
(<#3831)。 - 修复了记录字段验证,该验证阻止了在字段值为
None
时记录带有可选字段 (即required=True
) 的记录 (<#3846)。 - 始终在
ArgillaTrainer
中将pretrained_model_name_or_path
属性设置为字符串 (<#3914)。 inserted_at
和updated_at
属性使用utcnow
工厂创建,以避免时间戳创建时出现意外的竞争条件 (<#3945)- 修复了通过参数
workspace
提供工作区时,configure_dataset_settings
的问题 (<#3887)。 - 修复了使用带有
peft_config
参数的ArgillaTrainer
训练的模型的保存问题 (<#3795)。 - 修复了从 Hugging Face Hub 加载先前使用另一个 Argilla 版本 (从 1.8.0 开始,首次引入时) 转储的
FeedbackDataset
时,from_huggingface
的向后兼容性问题 (<#3829)。 - 修复了
TrainingTask
的错误的__repr__
问题。(<#3969) - 修复了
TrainingTask
的prepare_for_training_with_*
的错误键返回错误。(<#3969)
已弃用¶
- 函数
rg.configure_dataset
已弃用,建议使用rg.configure_dataset_settings
。前者将在 1.19.0 版本中移除
1.16.0¶
新增¶
- 添加了
ArgillaTrainer
与 sentence-transformers 的集成,允许对句子相似度进行微调 (<#3739) - 添加了
ArgillaTrainer
与TrainingTask.for_question_answering
的集成 (<#3740) - 添加了
自动保存记录
功能,以自动保存您正在处理的当前记录 (<#3541) - 添加了
ArgillaTrainer
与 OpenAI 的集成,允许对聊天完成进行微调 (<#3615) - 添加了
workspaces list
命令,用于列出 Argilla 工作区 (<#3594)。 - 添加了
datasets list
命令,用于列出 Argilla 数据集 (<#3658)。 - 添加了
users create
命令,用于创建用户 (<#3667)。 - 添加了
whoami
命令,用于获取当前用户 (<#3673)。 - 添加了
users delete
命令,用于删除用户 (<#3671)。 - 添加了
users list
命令,用于列出用户 (<#3688)。 - 添加了
workspaces delete-user
命令,用于从工作区中移除用户 (<#3699)。 - 添加了
datasets list
命令,用于列出 Argilla 数据集 (<#3658)。 - 添加了
users create
命令,用于创建用户 (<#3667)。 - 添加了
users delete
命令,用于删除用户 (<#3671)。 - 添加了
workspaces create
命令,用于创建 Argilla 工作区 (<#3676)。 - 添加了
datasets push-to-hub
命令,用于将FeedbackDataset
从 Argilla 推送到 HuggingFace Hub (<#3685)。 - 添加了
info
命令,用于获取有关使用的 Argilla 客户端和服务器的信息 (<#3707)。 - 添加了
datasets delete
命令,用于从 Argilla 中删除FeedbackDataset
(<#3703)。 - 为
RemoteFeedbackDataset
和FilteredRemoteFeedbackDataset
添加了created_at
和updated_at
属性 (<#3709)。 - 添加了在以权限不足的已登录用户执行命令时处理
PermissionError
的功能 (<#3717)。 - 添加了
workspaces add-user
命令,用于向工作区添加用户 (<#3712)。 - 为
GET /api/v1/me/datasets
端点添加了workspace_id
参数 (<#3727)。 - 在 Python SDK 的
list_datasets
中添加了workspace_id
参数 (<#3727)。 - 添加了
argilla
脚本,允许使用argilla
命令执行 Argilla CLI (<#3730)。 - 添加了对将已初始化的
model
和tokenizer
实例传递给ArgillaTrainer
的支持 (<#3751) - 添加了
server_info
函数,用于检查 Argilla 服务器信息 (也可以通过rg.server_info
访问) (<#3772)。
更改¶
- 将
database
命令移动到server
命令组下 (<#3710) - 仅当安装了
server
额外要求时,server
命令才包含在 CLI 应用中 (<#3710)。 - 更新了
PUT /api/v1/responses/{response_id}
,以使用请求中收到的values
替换存储的values
(<#3711)。 - 当
Workspace.add_user
和Workspace.delete_user
中的user_id
是具有所有者角色的用户的 ID 时,显示UserWarning
,因为他们不需要显式权限 (<#3716)。 - 将
tasks
子包重命名为cli
(<#3723)。 - 更改了 CLI 中的
argilla database
命令,现在通过argilla server database
访问,将在即将发布的版本中弃用 (<#3754)。 - 更改了后端中
visible_options
(标签和多标签选择问题) 验证,以检查提供的值是否大于等于/等于 3 且小于等于/等于提供的选项数量 (<#3773)。
修复¶
- 修复了
清除答案时文本组件中的移除用户修改
问题 (<#3775) - 修复了
数据集反馈任务中高亮显示原始文本字段
问题 (<#3731) - 修复了
字段标题过长
问题 (<#3734) - 修复了删除
DatasetForTextClassification
时的错误消息 (<#3652) - 修复了数据标注期间的
待处理队列
分页问题 (<#3677) - 修复了
visible_labels
默认值,仅当未提供visible_labels
且len(labels) > 20
时才为 20,否则对于LabelQuestion
和MultiLabelQuestion
,它将是提供的visible_labels
值或None
(<#3702)。 - 修复了
RemoteFeedbackDataset
包含建议时DatasetCard
的生成问题 (<#3718)。 - 在
ResponseSchema
中添加了缺失的draft
状态,因为现在通过 UI 进行注释时可能会出现draft
状态的响应 (<#3749)。 - 搜索在记录字段中分布的查询词 (<#3759)。
- 修复了 Python 3.11 兼容性问题,该问题是由端点 URL 中的
TaskType
枚举替换导致的/api/datasets
端点引起的 (<#3769)。 - 修复了
RankingValueSchema
和FeedbackRankingValueModel
模式,以允许在status=draft
时rank=None
(<#3781)。
1.15.1¶
修复¶
- 修复了
文本组件
文本内容清理行为,仅针对 markdown,以防止文本消失 (<#3738) - 修复了
文本组件
,现在您需要按 Escape 键才能退出文本区域 (<#3733) - 修复了
SearchEngine
为每个FeedbackDataset
创建相同数量的主分片和副本分片的问题 (<#3736)。
1.15.0¶
新增¶
- 添加了
在 UI 中直接更新反馈数据集的指南和数据集设置的功能
(<#3489) - 添加了
ArgillaTrainer
与 TRL 的集成,允许轻松进行监督微调、奖励建模、直接偏好优化和近端策略优化 (<#3467) - 为
ArgillaTrainer
的FeedbackDataset
数据集添加了formatting_func
,为数据添加自定义格式 (<#3599)。 - 在
argilla.client.login
中添加了login
函数,用于登录 Argilla 服务器并在本地存储凭据 (<#3582)。 - 添加了
login
命令,用于登录 Argilla 服务器 (<#3600)。 - 添加了
logout
命令,用于从 Argilla 服务器注销 (<#3605)。 - 添加了
DELETE /api/v1/suggestions/{suggestion_id}
端点,用于删除给定 ID 的建议 (<#3617)。 - 添加了
DELETE /api/v1/records/{record_id}/suggestions
端点,用于删除链接到同一记录的多个建议,给定它们的 ID (<#3617)。 - 为
GET /api/v1/datasets/{dataset_id}/records
添加了response_status
参数,以便能够按response_status
进行过滤,就像之前为GET /api/v1/me/datasets/{dataset_id}/records
包含的那样 (<#3613)。 - 为
ArgillaMixin
添加了list
类方法,可以像FeedbackDataset.list()
一样使用,还包括workspace
作为参数来列出工作区 (<#3619)。 - 在
RemoteFeedbackDataset
中添加了filter_by
方法,以根据response_status
进行过滤 (<#3610)。 - 添加了
list_workspaces
函数 (用作rg.list_workspaces
,但首选Workspace.list
),用于列出 Argilla 中用户的所有工作区 (<#3641)。 - 添加了
list_datasets
函数 (用作rg.list_datasets
),用于列出 Argilla 中的TextClassification
、TokenClassification
和Text2Text
数据集 (<#3638)。 - 添加了
RemoteSuggestionSchema
来管理 Argilla 中的建议,包括delete
方法,用于通过DELETE /api/v1/suggestions/{suggestion_id}
从 Argilla 中删除建议 (<#3651)。 - 为
RemoteFeedbackRecord
添加了delete_suggestions
,用于通过DELETE /api/v1/records/{record_id}/suggestions
从 Argilla 中删除建议 (<#3651)。
更改¶
- 更改了
可选标签的 * 标记,用于必填问题
(<#3608) - 更新了
RemoteFeedbackDataset.delete_records
以使用批量删除记录端点 (<#3580)。 - 为某些
RemoteFeedbackDataset
、RemoteFeedbackRecords
和RemoteFeedbackRecord
方法包含了allowed_for_roles
,这些方法仅允许具有owner
和admin
角色的用户使用 (<#3601)。 - 将
ArgillaToFromMixin
重命名为ArgillaMixin
(<#3619)。 - 将
users
CLI 应用移动到database
CLI 应用下 (<#3593)。 - 将服务器
Enum
类移动到argilla.server.enums
模块 (<#3620)。
修复¶
- 修复了
面包屑导航中的按工作区过滤
问题 (<#3577) - 修复了
数据集表中的按工作区过滤
问题 (<#3604) - 修复了 Text2Text 和 TextClassification 的
查询搜索高亮
问题 (<#3621) - 修复了
RatingQuestion.values
验证,当值超出范围时 (例如 [1, 10]) 引发ValidationError
(<#3626)。
移除¶
- 从
TaskType
中移除了未使用的multi_task_text_token_classification
(<#3640)。 - 从
RemoteFeedbackDataset
中移除了argilla_id
,改为使用id
(<#3663)。 - 从
RemoteFeedbackDataset
中移除了fetch_records
,因为现在记录是从 Argilla 延迟获取的 (<#3663)。 - 从
RemoteFeedbackDataset
中移除了push_to_argilla
,因为它仅在通过本地FeedbackDataset
调用时才起作用,因为现在远程数据集的更新会自动推送到 Argilla (<#3663)。 - 已移除
FeedbackRecord
和RemoteFeedbackRecord
中的set_suggestions
,转而使用update(suggestions=...)
,因为记录的所有“可更新”属性的更新都将通过update
进行 (#3663)。 - 移除了客户端 Dataset 数据模型中未使用的
owner
属性 (#3665)
1.14.1¶
修复¶
- 修复了由于缺少
commit
,导致在begin_nested
之后 PostgreSQL 数据库未更新的问题 (#3567)。
修复¶
- 修复了在更新
rating
或ranking
问题时无法提供settings
的问题 (#3552)。
1.14.0¶
新增¶
- 新增
PATCH /api/v1/fields/{field_id}
端点,用于更新字段标题和 markdown 设置 (#3421)。 - 新增
PATCH /api/v1/datasets/{dataset_id}
端点,用于更新数据集名称和指南 (#3402)。 - 新增
PATCH /api/v1/questions/{question_id}
端点,用于更新问题标题、描述和一些设置(取决于问题类型) (#3477)。 - 新增
DELETE /api/v1/records/{record_id}
端点,用于根据记录 ID 删除记录 (#3337)。 - 在
RemoteFeedbackDataset
(推送到 Argilla 的FeedbackDataset
)中新增pull
方法,用于从 Argilla 中拉取所有记录,并作为FeedbackDataset
的本地副本返回 (#3465)。 - 在
RemoteFeedbackDataset
(推送到 Argilla 的FeedbackDataset
)中新增delete
方法 (#3512)。 - 在
RemoteFeedbackDataset
中新增delete_records
方法,并在RemoteFeedbackRecord
中新增delete
方法,用于从 Argilla 中删除记录 (#3526)。
已更改¶
- 提高了数据集包含向量时弱标签的效率 (#3444)。
- 新增
ArgillaDatasetMixin
,用于从FeedbackDataset
中分离出 Argilla 相关的功能 (#3427) - 将
FeedbackDataset
相关的pydantic.BaseModel
模式移动到argilla.client.feedback.schemas
中,以便更好地组织结构,并更具可扩展性和可维护性 (#3427) - 更新 CLI 以使用数据库异步连接 (#3450)。
- 将评分问题的值限制在正数范围 [1, 10] 内 (#3451)。
- 更新了
POST /api/users
端点,使其能够提供用户应链接到的工作区名称列表 (#3462)。 - 更新了 Python 客户端
User.create
方法,使其能够提供用户应链接到的工作区名称列表 (#3462)。 - 更新了
GET /api/v1/me/datasets/{dataset_id}/records
端点,允许获取与通过查询参数提供的响应状态之一匹配的记录 (#3359)。 - 更新了
POST /api/v1/me/datasets/{dataset_id}/records
端点,允许搜索与通过查询参数提供的响应状态之一匹配的记录 (#3359)。 - 更新了
SearchEngine.search
方法,允许搜索与提供的响应状态之一匹配的记录 (#3359)。 - 在调用
FeedbackDataset.push_to_argilla
后,方法FeedbackDataset.add_records
和FeedbackRecord.set_suggestions
将自动调用 Argilla,无需显式调用push_to_argilla
(#3465)。 - 现在调用
FeedbackDataset.push_to_huggingface
会将responses
转储为List[Dict[str, Any]]
而不是Sequence
,以便通过 🤗datasets
更易读 (#3539)。
修复¶
- 修复了从
argilla_template.md
生成 HuggingFaceDatasetCard
时,Jinja2 中bool
值和default
引起的问题 (#3499)。 - 修复了
DatasetConfig.from_yaml
在调用FeedbackDataset.from_huggingface
时失败的问题,因为 UUID 无法被PyYAML
自动反序列化,因此 UUID 不再被转储或加载 (#3502)。 - 修复了一个不允许 Argilla 服务器在代理后工作的问题 (#3543)。
TextClassificationSettings
和TokenClassificationSettings
标签在 Python 客户端和后端端点中均被正确解析为字符串 (#3495)。- 修复了
PUT /api/v1/datasets/{dataset_id}/publish
以检查是否至少有一个字段和问题具有required=True
(#3511)。 - 修复了
FeedbackDataset.from_huggingface
,因为当没有responses
时,suggestions
会丢失 (#3539)。 - 修复了
QuestionSchema
和FieldSchema
未验证name
属性的问题 (#3550)。
已弃用¶
- 在调用
FeedbackDataset.push_to_argilla
后,再次调用push_to_argilla
不会执行任何操作,因为数据集已推送到 Argilla (#3465)。 - 在调用
FeedbackDataset.push_to_argilla
后,调用fetch_records
不会执行任何操作,因为记录是从 Argilla 延迟获取的 (#3465)。 - 在调用
FeedbackDataset.push_to_argilla
后,Argilla ID 不再存储在属性/属性argilla_id
中,而是存储在id
中 (#3465)。
1.13.3¶
修复¶
- 修复了
ModuleNotFoundError
,原因是ArgillaTrainer
中使用的argilla.utils.telemetry
模块导入了一个默认情况下未安装的可选依赖项 (#3471)。 - 修复了
ImportError
,原因是argilla.client.feedback.config
模块导入了默认情况下未安装的pyyaml
可选依赖项 (#3471)。
1.13.2¶
修复¶
- 修复了在 PostgreSQL 中创建的
suggestion_type_enum
ENUM 数据类型没有任何值的问题 (#3445)。
1.13.1¶
修复¶
- 修复了 PostgreSQL 的数据库迁移问题(参见 #3438)
1.13.0¶
新增¶
- 新增
GET /api/v1/users/{user_id}/workspaces
端点,用于列出用户所属的工作区 (#3308 和 #3343)。 - 新增
HuggingFaceDatasetMixin
用于内部使用,以将FeedbackDataset
集成从类本身分离出来,并使用 Mixins 代替 (#3326)。 - 新增
GET /api/v1/records/{record_id}/suggestions
API 端点,用于获取与记录关联的响应的建议列表 (#3304)。 - 新增
POST /api/v1/records/{record_id}/suggestions
API 端点,用于为与记录关联的响应创建建议 (#3304)。 - 新增对
RankingQuestionStrategy
、RankingQuestionUnification
和TrainingTaskMapping
的.for_text_classification
方法的支持 (#3364) - 新增
PUT /api/v1/records/{record_id}/suggestions
API 端点,用于为与记录关联的响应创建或更新建议 (#3304 & 3391)。 - 为
FeedbackRecord
新增suggestions
属性,并允许从 Python 客户端添加和检索建议 (#3370) - 为
User
和Workspace
新增allowed_for_roles
Python 装饰器,用于检查当前用户是否具有访问装饰函数/方法所需的角色 (#3383) - 新增 API 和 Python 客户端对工作区删除的支持 (Closes #3260)
- 新增
GET /api/v1/me/workspaces
端点,用于列出当前活动用户的工作区 (#3390)
已更改¶
- 更新了
GET /api/v1/datasets/{dataset_id}/records
、GET /api/v1/me/datasets/{dataset_id}/records
、POST /api/v1/me/datasets/{dataset_id}/records/search
端点的输出有效负载,以根据include
查询参数的值包含记录的建议 (#3304)。 - 更新了
POST /api/v1/datasets/{dataset_id}/records
输入有效负载,以添加建议 (#3304)。 POST /api/datasets/:dataset-id/:task/bulk
端点在数据集不存在时不会创建数据集 (Closes #3244)- 为
ArgillaTrainer
新增 Telemetry 支持 (closes #3325) User.workspaces
不再是属性,而是属性,并调用list_user_workspaces
以列出给定用户 ID 的所有工作区名称 (#3334)- 将
FeedbackDatasetConfig
重命名为DatasetConfig
,并从 YAML 导出/导入作为默认设置,而不是 JSON(仅在FeedbackDataset
的push_to_huggingface
和from_huggingface
方法内部使用) (#3326)。 - 受保护的元数据字段支持文本信息以外的其他信息 - 现有数据集必须重新索引。有关更多详细信息,请参阅 文档 (Closes #3332)。
- 更新了
Dockerfile
父镜像,从python:3.9.16-slim
升级到python:3.10.12-slim
(#3425)。 - 更新了
quickstart.Dockerfile
父镜像,从elasticsearch:8.5.3
升级到argilla/argilla-server:${ARGILLA_VERSION}
(#3425)。
已移除¶
- 移除了对非前缀环境变量的支持。所有有效的环境变量都以
ARGILLA_
开头(参见 #3392)。
修复¶
- 修复了
GET /api/v1/me/datasets/{dataset_id}/records
端点始终返回记录的响应,即使未通过include
查询参数提供responses
的问题 (#3304)。 - 受保护的元数据字段的值不再被截断 (Closes #3331)。
- 大数字 ID 在 UI 中正确呈现 (Closes #3265)
- 修复了
ArgillaDatasetCard
以包含所有现有问题的 values/labels (#3366)
已弃用¶
- 文本分类、token 分类和 text2text 数据集中对记录 ID 的整数支持。
1.12.1¶
修复¶
- 使用默认
argilla
用户的rg.init
会跳过设置默认工作区(如果不可用)。(Closes #3340) - 解决了
ArgillaTrainer
和TrainingTaskMapping
的错误导入结构问题 (Closes #3345) - 将 pydantic 依赖项固定到版本 < 2 (Closes 3348)
1.12.0¶
新增¶
- 新增
RankingQuestionSettings
类,允许在 API 中使用POST /api/v1/datasets/{dataset_id}/questions
端点创建排序问题 (#3232) - 在 Python 客户端中新增
RankingQuestion
以创建排序问题 (#3275)。 - 在反馈任务问题表单中新增
Ranking
组件 (#3177 & #3246)。 - 为
FeedbackDataset.prepare_for_training
方法新增功能,用于为RatingQuestion
、LabelQuestion
和MultiLabelQuestion
提供的响应生成特定于框架的数据集 (#3151)。 - 新增
ArgillaSpaCyTransformersTrainer
类,用于支持使用spacy-transformers
进行训练 (#3256)。
文档¶
- 在开发者文档中新增了关于如何运行 Argilla 前端的说明 (#3314)。
已更改¶
- 所有 docker 相关文件都已移动到
docker
文件夹中 (#3053)。 release.Dockerfile
已重命名为Dockerfile
(#3133)。- 更新了
rg.load
函数,对于用户尝试使用该函数加载FeedbackDataset
的情况,会引发带有解释性消息的ValueError
(#3289)。 - 更新了
ArgillaSpaCyTrainer
以允许重用tok2vec
(#3256)。
修复¶
- 在
rg.set_workspace
上检查 Argilla 上可用的工作区 (Closes #3262)
1.11.0¶
修复¶
- 将
np.float
别名替换为float
,以避免在numpy>=1.24.0
的情况下使用find_label_errors
函数时出现AttributeError
(#3214)。 - 修复了当
FeedbackRecord
中没有响应或可选响应时,format_as("datasets")
将其值设置为 🤗 Datasets 期望的值,而不是仅仅设置为None
的问题 (#3224)。 - 修复了
push_to_huggingface()
在generate_card=True
(默认行为)时的问题,因为我们将示例记录传递给ArgillaDatasetCard
类,并且 1.10.0 中引入的UUID
(#3192) 不可 JSON 序列化 (#3231)。 - 修复了
from_argilla
和push_to_argilla
以确保字段和问题重建的一致性,并确保UUID
分别正确序列化为str
(#3234)。 - 重构了
import argilla as rg
的用法,以澄清包导航 (#3279)。
文档¶
- 修复了使用 Sentence Transformers 教程进行弱监督中的 URL #3243。
- 修复了教程页面上库按钮的格式 (#3255)。
- 修改了笔记本中错误代码输出的样式 (#3270)。
- 新增了 ElasticSearch 和 OpenSearch 版本 (#3280)。
- 从目录中移除了模板笔记本 (#3271)。
- 修复了使用
pip install argilla
的教程,以避免使用软件包的旧版本 (#3282)。
新增¶
- 为
FeedbackDataset
的Record
新增了metadata
属性 (#3194) - 新增
users update
命令,用于更新现有用户的角色 (#3188) - 新增
Workspace
类,允许用户通过 Python 客户端管理其 Argilla 工作区以及分配给这些工作区的用户 (#3180) - 新增
User
类,让用户可以通过 Python 客户端管理其 Argilla 用户 (#3169)。 - 为
FeedbackDataset.push_to_argilla
添加了一个选项,用于在循环上传记录时显示tqdm
进度条 (#3233)。
已更改¶
- 角色系统现在支持三种不同的角色:
owner
、admin
和annotator
(#3104) admin
角色被限定于工作区级别的操作 (#3115)owner
用户是在快速入门中默认用户池中创建的,服务器中的默认用户现在具有owner
角色 (#3248),恢复 (#3188)。
已弃用¶
- 由于 Python 3.7 于 2023-06-27 终止生命周期 (EOL),Argilla 将不再支持 Python 3.7 (#3188)。更多信息请访问 https://peps.pythonlang.cn/pep-0537/
1.10.0¶
新增¶
已更改¶
- 更新了
SearchEngine
和POST /api/v1/me/datasets/{dataset_id}/records/search
以返回与搜索查询匹配的记录总数total
(#3166)
修复¶
- 在客户端 API 调用的 URL 中将 Enum 替换为字符串值 (Closes #3149)
- 解决了
ArgillaSpanMarkerTrainer
对于 Named Entity Recognition 与span_marker
v1.1.x 及更高版本的突破性问题。 - 将
ArgillaDatasetCard
导入移动到@requires_version
装饰器下,以便正确处理huggingface_hub
上的ImportError
(#3174) - 允许在不同的数据集名称和/或工作区下进行
FeedbackDataset.from_argilla
->FeedbackDataset.push_to_argilla
流 (#3192)
文档¶
1.9.0¶
新增¶
- 为
TextFieldSettings
模型新增布尔值use_markdown
属性。 - 为
TextQuestionSettings
模型新增布尔值use_markdown
属性。 - 为
Response
模型新增状态draft
。 - 新增
LabelSelectionQuestionSettings
类,允许在 API 中创建标签选择(单选)问题 (#3005) - 新增
MultiLabelSelectionQuestionSettings
类,允许在 API 中创建多标签选择(多选)问题 (#3010)。 - 新增
POST /api/v1/me/datasets/{dataset_id}/records/search
端点 (#3068)。 - 在反馈任务问题表单中新增组件:MultiLabel (#3064) 和 SingleLabel (#3016)。
- 为
argilla/client/feedback/schemas.py
中定义的pydantic.BaseModel
添加了文档字符串 (#3137) - 在开发者文档中添加了关于执行测试的信息 ([#3143])。
已更改¶
- 更新了
GET /api/v1/me/datasets/:dataset_id/metrics
输出有效负载,以包含draft
状态的响应计数。 - 新增
LabelSelectionQuestionSettings
类,允许在 API 中创建标签选择(单选)问题。 - 新增
MultiLabelSelectionQuestionSettings
类,允许在 API 中创建多标签选择(多选)问题。 - 单元测试的数据库设置。现在单元测试使用与本地 Argilla 服务器使用的数据库不同的数据库 (Closes #2987)。
- 更新了
alembic
设置,以便能够使用 Argilla 服务器模型中的 SQLAlchemy 元数据自动生成修订/迁移脚本 (#3044) - 改进了
FeedbackDataset.push_to_huggingface
在generate_card=True
时的DatasetCard
生成,遵循了官方 HuggingFace Hub 模板,但更适合来自 Argilla 的FeedbackDataset
(#3110)
修复¶
- 禁止
FeedbackDataset
中具有相同名称的fields
和questions
(#3126)。 - 修复了文档中的断开链接,并将开发分支名称从
development
更新为develop
([#3145])。
1.8.0¶
新增¶
/api/v1/datasets
新端点,用于列出和创建数据集 (#2615)。/api/v1/datasets/{dataset_id}
新端点,用于获取和删除数据集 (#2615)。/api/v1/datasets/{dataset_id}/publish
新端点,用于发布数据集 (#2615)。/api/v1/datasets/{dataset_id}/questions
新端点,用于列出和创建数据集问题 (#2615)/api/v1/datasets/{dataset_id}/fields
新端点,用于列出和创建数据集字段 (#2615)/api/v1/datasets/{dataset_id}/questions/{question_id}
新端点,用于删除数据集问题 (#2615)/api/v1/datasets/{dataset_id}/fields/{field_id}
新端点,用于删除数据集字段 (#2615)/api/v1/workspaces/{workspace_id}
新端点,用于按 ID 获取工作区 (#2615)/api/v1/responses/{response_id}
新端点,用于更新和删除响应 (#2615)/api/v1/datasets/{dataset_id}/records
新端点,用于创建和列出数据集记录 (#2615)/api/v1/me/datasets
新端点,用于列出用户可见的数据集 (#2615)/api/v1/me/dataset/{dataset_id}/records
新端点,用于列出包含用户响应的数据集记录 (#2615)/api/v1/me/datasets/{dataset_id}/metrics
新端点,用于获取数据集用户指标 (#2615)/api/v1/me/records/{record_id}/responses
新端点,用于创建记录用户响应 (#2615)- 在数据集列表中显示新的反馈任务数据集 ([#2719])
- 反馈任务的新页面 ([#2680])
- 显示反馈任务指标 ([#2822])
- 用户可以在数据集设置页面删除数据集 ([#2792])
- Python 客户端中对
FeedbackDataset
的支持(父 PR #2615,以及嵌套 PR:[#2949]、[#2827]、[#2943]、[#2945]、[#2962] 和 [#3003]) - 与 HuggingFace Hub 集成 ([#2949])
- 为文本和 token 分类新增
ArgillaPeftTrainer
#2854 - 为
ArgillaSetFitTrainer
新增predict_proba()
方法 - 为文本分类新增
ArgillaAutoTrainTrainer
#2664 - 新的
database revisions
命令,显示数据库修订信息
修复¶
- 避免在 Text2text 中为无效的 html 字符串渲染 html ([#2911]https://github.com/argilla-io/argilla/issues/2911)
已更改¶
database migrate
命令接受--revision
参数以提供特定的修订 IDtokens_length
指标函数返回空数据 (#3045)token_length
指标函数返回空数据 (#3045)mention_length
指标函数返回空数据 (#3045)entity_density
指标函数返回空数据 (#3045)
已弃用¶
- 不建议将 Argilla 与 Python 3.7 运行时一起使用,并且从 1.11.0 版本开始将移除支持 (#2902)
tokens_length
指标函数已被弃用,将在 1.10.0 版本中移除 (#3045)token_length
指标函数已被弃用,将在 1.10.0 版本中移除 (#3045)mention_length
指标函数已被弃用,将在 1.10.0 版本中移除 (#3045)entity_density
指标函数已被弃用,将在 1.10.0 版本中移除 (#3045)
已移除¶
- 从 token 分类指标存储中移除了 mention
density
、tokens_length
和chars_length
指标 (#3045) - 从 token 分类指标存储中移除了 token
char_start
、char_end
、tag
和score
指标 (#3045) - 从 token 分类指标存储中移除了与标签相关的指标 (#3045)
1.7.0¶
新增¶
- 为
rg.log
添加max_retries
和num_threads
参数,以使用退避重试策略并发运行数据日志记录请求。请参阅 #2458 和 #2533 rg.load
在加载数据时接受include_vectors
和include_metrics
。Closes #2398- 为
prepare_for_training
添加settings
参数 (#2689) - 为
openai
添加prepare_for_training
(#2658) - 新增
ArgillaOpenAITrainer
(#2659) - 为 Named Entity Recognition 新增
ArgillaSpanMarkerTrainer
(#2693) - 新增
ArgillaTrainer
CLI 支持。Closes (#2809)
修复¶
- 修复 token 分类中的图像对齐问题
已更改¶
- Argilla 快速入门镜像依赖项被外部化到
quickstart.requirements.txt
中。请参阅 #2666 - 当记录
id
存在时,批量端点将更新数据。Closes #2535 - 从
click
迁移到typer
CLI 支持。Closes (#2815) - Argilla 服务器 docker 镜像使用 PostgreSQL 支持构建。Closes #2686
rg.log
计算所有批次,并为所有失败的批次引发错误。rg.log
的默认批次大小现在为 100。
修复¶
argilla.training
bug 修复和统一 (#2665)- 解决了
ArgillaTrainer
中的几个小 bug。
已弃用¶
rg.log_async
函数已弃用,将在下一个次要版本中移除。
1.6.0¶
新增¶
ARGILLA_HOME_PATH
新环境变量 (#2564)。ARGILLA_DATABASE_URL
新环境变量 (#2564)。- 对用户角色的基本支持,包括
admin
和annotator
(#2564)。 id
、first_name
、last_name
、role
、inserted_at
和updated_at
新的用户字段 (#2564)。/api/users
新端点,用于列出和创建用户 (#2564)。/api/users/{user_id}
新端点,用于删除用户 (#2564)。/api/workspaces
新端点,用于列出和创建工作区 (#2564)。/api/workspaces/{workspace_id}/users
新端点,用于列出工作区用户 (#2564)。/api/workspaces/{workspace_id}/users/{user_id}
新端点,用于创建和删除工作区用户 (#2564)。argilla.tasks.users.migrate
新任务,用于将用户从旧 YAML 文件迁移到数据库 (#2564)。argilla.tasks.users.create
新任务,用于创建用户 (#2564)。argilla.tasks.users.create_default
新任务,用于使用默认凭据创建用户 (#2564)。argilla.tasks.database.migrate
新任务,用于执行数据库迁移 (#2564)。release.Dockerfile
和quickstart.Dockerfile
现在创建默认的argilladata
卷以持久化数据 (#2564)。- 添加用户设置页面。 关闭 #2496
- 添加了
Argilla.training
模块,支持spacy
、setfit
和transformers
。 关闭 #2504
修复¶
- 现在当
multi_label=True
时,prepare_for_training
方法可以正常工作了。 关闭 #2606
已更改¶
ARGILLA_USERS_DB_FILE
环境变量现在仅用于将用户从 YAML 文件迁移到数据库 (#2564)。full_name
用户字段现已弃用,应使用first_name
和last_name
代替 (#2564)。password
用户字段现在要求最小8
个字符,最大100
个字符 (#2564)。quickstart.Dockerfile
镜像默认用户从team
和argilla
更改为admin
和annotator
,包括新的密码和 API 密钥 (#2564)。- 数据集现在仅由具有
admin
角色的用户管理 (#2564)。 - 现在在计算指标时可以访问规则列表。 关闭 #2117
- 弱标签的样式更新,并在删除规则时添加反馈 toast。 请参阅 #2626 和 #2648
已移除¶
email
用户字段 (#2564)。disabled
用户字段 (#2564)。- 私有工作空间的支持 (#2564)。
ARGILLA_LOCAL_AUTH_DEFAULT_APIKEY
和ARGILLA_LOCAL_AUTH_DEFAULT_PASSWORD
环境变量。 请改用python -m argilla.tasks.users.create_default
(#2564)。- 来自 python 客户端的旧版
API Key
和workspace
标头 - 旧版
API Key
常量的默认值。 关闭 #2251
1.5.1 - 2023-03-30¶
修复¶
- 修复在工作空间之间复制数据集时所有者/工作空间信息不正确的问题。 关闭 #2562
- 将空工作空间的数据集复制到默认用户工作空间 905d4de
- 使用 elasticsearch 配置请求后端版本。 关闭 #2311
- 移除标签中按分数排序的功能。 关闭 #2622
已更改¶
1.5.0 - 2023-03-21¶
已添加¶
- 添加了从 argilla 加载数据时要检索的字段。
rg.load
因为向量字段而耗时过长,即使用户不需要它。 关闭 #2398 - 为数据集设置添加新页面和组件。 关闭 #2442
- 如果 URL 通过元数据和键 _image_url 传入,则添加在记录中显示图像的功能(用于 TokenClassification 和 TextClassification)
- 元数据中支持非搜索字段。 #2570
- 将记录 ID 引用添加到训练准备方法中。 关闭 #2483
- 添加图像分类教程。 #2420
- 添加“训练”按钮,对 “admin” 角色可见,其中包含来自精选库的代码片段。 关闭 [#2591] (https://github.com/argilla-io/argilla/pull/2591)
已更改¶
- 标签现在集中在一个名为 GlobalLabel Model 的特定 vuex ORM 中,请参阅 https://github.com/argilla-io/argilla/issues/2210。 此模型对于 TokenClassification 和 TextClassification 都是相同的(因此两个任务在 vuex ORM 中都具有带有 color_id 和 shortcuts 参数的标签)
- 标签的快捷方式改进 #2339 已移至数据集设置功能中的 vuex ORM #2444
- 更新文档中的“定义标注模式”部分。
- 默认情况下,记录输入在 UI 中按字母顺序排序。 #2581
- 当分页大小为 1 且折叠区域大小对于笔记本电脑屏幕较大时,记录输入完全可见。 #2587
修复¶
- 再次允许 URL 在 Jupyter notebook 中可点击。 关闭 #2527
已移除¶
- 移除旧客户端使用的一些数据扫描弃用端点。 此更改将破坏与客户端
<v1.3.0
的兼容性 - 停止在 python 客户端中使用旧的扫描弃用端点。 此逻辑将破坏客户端与服务器版本
<1.3.0
的兼容性 - 移除先前通过数据集页面添加标签的方式。 现在只能通过数据集设置页面添加标签。