跳到主要内容

数据集预览

数据集预览功能概述

CSGHub 提供了数据集预览功能,允许用户在无需下载的情况下直接在线查看数据集内容。预览页面包含一个数据表,以分页方式展示数据集的内容。用户可以使用底部的分页按钮浏览数据,也可以通过筛选、搜索等功能快速定位所需数据。

alt text

支持的数据格式

CSGHub 的数据集预览功能支持多种格式,包括:

  • Parquet:高效的列式存储格式,适用于大规模数据分析。
  • CSV:首行为列头,定义了数据字段名称,后续行则依次列出记录各字段的对应值。每个记录均采用统一的字段顺序进行排列。
    • 示例:
      key1,key2
      data1,data2
      data3,data4
  • JSON:数据采用数组作为顶级结构,数组中的每个对象代表一条数据记录。
    • 示例:
      [
      {
      "key1": "data1",
      "key2": "data2"
      },
      {
      "key1": "data3",
      "key2": "data4"
      }
      ]

数据集预览的核心功能

CSGHub 的数据集预览功能由后端 API 提供支持,并针对不同格式的数据进行了优化。其主要功能包括:

  • 展示数据集内容:在线查看数据集的表格数据,支持分页浏览。
  • 列信息与数据类型:自动解析数据集的列名和数据类型,帮助用户理解数据结构。
  • 格式转换:支持数据集转换为 Parquet 格式,以便在数据分析或机器学习任务中更高效地使用。
  • 搜索与筛选:用户可以根据关键字快速搜索数据集中的内容。