数据集卡片
什么是数据集卡片
数据集卡片(Dataset Card)是数据集的附带文件,是一个带有元数据的Markdown文件,该文件头部的YAML部分包含数据集元数据。数据集卡片涵盖了关键的数据集信息,主要通过渲染数据集仓库中的README.md获得。其有助于帮助用户理解和正确使用数据集,建议您根据规范撰写数据集卡片。
数据集卡片应涵盖哪些信息
数据集卡片应包含如下内容:
- 数据集名称
- 数据集概述: 包括数据集的格式和结构、数据来源、数据标注方式等
- 使用方式: 尽可能提供详细范例和代码说明数据集的使用方式,对数据集运行环境、使用框架等做出介绍和解释
- 适用场景: 介绍数据集的使用场景、预期用途和潜在的限制
- 支持的模型: 说明数据集所支持的模型信息
数据集卡片元数据
数据集卡片是由YAML元数据和Markdown文本内容组成。您可以通过编辑README.md文件的头部YAML信息来添加元数据,用“---”进行分隔。Markdown文本展示了数据集信息和相关说明。
您可以参考以下模版撰写您的数据集卡片。
---
# 许可证
license: apache-2.0
# 用户自定义标签
tags:
- image-classification
- customize tags
---
<!--- 以上为YAML格式,提供许可证和任务描述--->
<!--- 以下为markdown格式的数据集描述--->
# 数据集名称
介绍数据集的概要信息
## 数据集详情
### 数据集描述
对数据集进行描述,包括开发者,数据集的语言,许可证说明等内容。
## 用途
### 使用方法
介绍数据集的使用方法
## 数据集结构
介绍数据集的结构信息
## 数据集创建
### 源数据
#### 数据收集和处理
介绍数据收集的过程和处理方法
#### 源数据创建者
介绍源数据的创建者相关的信息
## 风险和局限性
介绍数据集的风险或者限制
### 建议
给用户的建议
已支持的数据集标签
任务(英文) | 任务(中文) |
---|---|
text-classification | 文本分类 |
relation-extraction | 关系抽取 |
zero-shot | 零样本学习 |
translation | 机器翻译 |
token-classification | 词分类 |
conversational | 智能对话 |
text-generation | 文本生成 |
table-question-answering | 表格问答 |
sentence-similarity | 句子相似度 |
fill-mask | 完形填空 |
summarization | 摘要总结 |
question-answering | 问答 |
image-to-text | 文字识别 |
image-classification | 图像分类 |
object-detection | 通用检测 |
image-segmentation | 图像分割 |
image-editing | 图像编辑 |
image-generation | 图像生成 |
auto-speech-recognition | 语音识别 |
text-to-speech | 语音合成 |
speech-signal-process | 语音信号处理 |
keyword-spotting | 语音唤醒 |
audio-classification | 音频分类 |
voice-activity-detection | 语音端点检测 |
object-tracking | 目标追踪 |
autonomous-driving | 自动驾驶 |
video-generation | 视频生成 |
video-super-resolution | 视频超分辨率 |
video-segmentation | 视频分割 |
image-captioning | 图像描述 |
visual-grounding | 视觉定位 |
text-to-image | 文本生成图片 |
feature-extraction | 特征抽取 |
biomedicine | 生物医学 |
protein-structure | 蛋白质结构生成 |
已支持的行业标签
行业(中文) | 行业(英文) |
---|---|
汽车 | Automotive |
制造业 | Manufacturing |
能源 | Energy |
通信与电子信息 | Telecommunications and Electronic Information |
交通运输 | Transportation and Logistics |
建筑与房地产 | Construction and Real Estate |
金融服务 | Financial Services |
农业 | Agriculture |
化工 | Chemical Industry |
环保 | Environmental Protection |
医疗与健康 | Healthcare and Medical Services |
教育与培训 | Education and Training |
食品与饮料 | Food and Beverage |
零售与消费品 | Retail and Consumer Goods |
旅游与酒店 | Tourism and Hospitality |
IT信息技术 | Information Technology (IT) |
文化娱乐 | Culture and Entertainment |