跳到主要内容

数据集卡片

什么是数据集卡片

数据集卡片(Dataset Card)是数据集的附带文件,是一个带有元数据的Markdown文件,该文件头部的YAML部分包含数据集元数据。数据集卡片涵盖了关键的数据集信息,主要通过渲染数据集仓库中的README.md获得。其有助于帮助用户理解和正确使用数据集,建议您根据规范撰写数据集卡片。

数据集卡片应涵盖哪些信息

数据集卡片应包含如下内容:

  • 数据集名称
  • 数据集概述: 包括数据集的格式和结构、数据来源、数据标注方式等
  • 使用方式: 尽可能提供详细范例和代码说明数据集的使用方式,对数据集运行环境、使用框架等做出介绍和解释
  • 适用场景: 介绍数据集的使用场景、预期用途和潜在的限制
  • 支持的模型: 说明数据集所支持的模型信息

数据集卡片元数据

数据集卡片是由YAML元数据和Markdown文本内容组成。您可以通过编辑README.md文件的头部YAML信息来添加元数据,用“---”进行分隔。Markdown文本展示了数据集信息和相关说明。

您可以参考以下模版撰写您的数据集卡片。

---
# 许可证
license: apache-2.0

# 用户自定义标签
tags:
- image-classification
- customize tags
---

<!--- 以上为YAML格式,提供许可证和任务描述--->

<!--- 以下为markdown格式的数据集描述--->

# 数据集名称

介绍数据集的概要信息

## 数据集详情

### 数据集描述

对数据集进行描述,包括开发者,数据集的语言,许可证说明等内容。

## 用途

### 使用方法

介绍数据集的使用方法

## 数据集结构

介绍数据集的结构信息

## 数据集创建

### 源数据

#### 数据收集和处理

介绍数据收集的过程和处理方法

#### 源数据创建者

介绍源数据的创建者相关的信息

## 风险和局限性

介绍数据集的风险或者限制

### 建议
给用户的建议

已支持的数据集标签

任务(英文)任务(中文)
text-classification文本分类
relation-extraction关系抽取
zero-shot零样本学习
translation机器翻译
token-classification词分类
conversational智能对话
text-generation文本生成
table-question-answering表格问答
sentence-similarity句子相似度
fill-mask完形填空
summarization摘要总结
question-answering问答
image-to-text文字识别
image-classification图像分类
object-detection通用检测
image-segmentation图像分割
image-editing图像编辑
image-generation图像生成
auto-speech-recognition语音识别
text-to-speech语音合成
speech-signal-process语音信号处理
keyword-spotting语音唤醒
audio-classification音频分类
voice-activity-detection语音端点检测
object-tracking目标追踪
autonomous-driving自动驾驶
video-generation视频生成
video-super-resolution视频超分辨率
video-segmentation视频分割
image-captioning图像描述
visual-grounding视觉定位
text-to-image文本生成图片
feature-extraction特征抽取

已支持的行业标签

行业(中文)行业(英文)
汽车Automotive
制造业Manufacturing
能源Energy
通信与电子信息Telecommunications and Electronic Information
交通运输Transportation and Logistics
建筑与房地产Construction and Real Estate
金融服务Financial Services
农业Agriculture
化工Chemical Industry
环保Environmental Protection
医疗与健康Healthcare and Medical Services
教育与培训Education and Training
食品与饮料Food and Beverage
零售与消费品Retail and Consumer Goods
旅游与酒店Tourism and Hospitality
IT信息技术Information Technology (IT)
文化娱乐Culture and Entertainment