数据集预览
数据集预览功能概述
CSGHub 提供了数据集预览功能,允许用户在无需下载的情况下直接在线查看数据集内容。预览页面包含一个数据表,以分页方式展示数据集的内容。用户可以使用底部的分页按钮浏览数据,也可以通过筛选、搜索等功能快速定位所需数据。
支持的数据格式
CSGHub 的数据集预览功能支持多种格式,包括:
- Parquet:高效的列式存储格式,适用于大规模数据分析。
- CSV:首行为列头,定义了数据字段名称,后续行则依次列出记录各字段的对应值。每个记录均采用统一的字段顺序进行排列。
- 示例:
key1,key2
data1,data2
data3,data4
- 示例:
- JSON:数据采用数组作为顶级结构,数组中的每个对象代表一条数据记录。
- 示例:
[
{
"key1": "data1",
"key2": "data2"
},
{
"key1": "data3",
"key2": "data4"
}
]
- 示例:
数据集预览的核心功能
CSGHub 的数据集预览功能由后端 API 提供支持,并针对不同格式的数据进行了优化。其主要功能包括:
- 展示数据集内容:在线查看数据集的表格数据,支持分页浏览。
- 列信息与数据类型:自动解析数据集的列名和数据类型,帮助用户理解数据结构。
- 格式转换:支持数据集转换为 Parquet 格式,以便在数据分析或机器学习任务中更高效地使用。
- 搜索与筛选:用户可以根据关键字快速搜索数据集中的内容。