工具池
工具池模块汇聚了多种数据处理工具,用户可以根据自己的需求自由选择。
工具列表
以下是平台支持的数据处理工具列表。
名称 | 描述 |
---|---|
通用分析工具 | 此分析器类用于分析特定数据集。它会为配置文件中的所有过滤操作计算统计数据,对这些统计数据应用多种分析(如整体分析、逐列分析等),并生成分析结果(统计表、分布图等),帮助用户更好地理解输入数据集。 |
数据集按语言分割预处理工具 | 从源目录加载数据集,然后使用名为 LanguageIDScoreFilter 的操作过滤器进行语言识别,最后按语言分割数据集并保存。 |
从代码仓库准备数据集预处理工具 | 从代码仓库中准备数据集,格式包括:仓库名称、仓库中的文件路径、文件内容。 |
原始Alpaca-Cot数据合并与元数据添加预处理工具 | 将从Hugging Face下载的原始Alpaca-Cot数据转换为JSONL文件,合并指令/输入/输出文本,并添加元数据信息。 |
原始arXiv数据转换为JSONL预处理工具 | 将原始arXiv数据(gzipped tar文件)转换为JSONL格式。 |
原始Stack Exchange数据转换为JSONL预处理工具 | 将从Archive(参考:https://archive.org/download/stackexchange)下载的原始Stack Exchange数据转换为多个JSONL文件。 |
CSV文件NaN值重格式化预处理工具 | 使用Hugging Face加载可能包含NaN值的CSV或TSV文件,并可通过设置额外参数(如设置 keep_default_na 为False)进行处理。 |
JSONL文件NaN值重格式化预处理工具 | 重格式化可能包含NaN值的JSONL文件。遍历JSONL文件,找到第一个不包含NaN的对象作为参考特征类型,并将其设置为加载所有JSONL文件时的基准。 |
元数据序列化预处理工具 | 序列化JSONL文件中除用户指定字段以外的所有字段,确保即使JSONL文件中每行文本格式不一致,数据集仍可正常加载。 |
令牌计数后处理工具 | 统计给定数据集和分词器的令牌数量。目前仅支持JSONL格式。 |
数据混合后处理工具 | 将多个数据集混合成一个数据集。随机选择每个数据集的样本并混合这些样本,然后导出为新的混合数据集。支持的格式包括:["jsonl", "json", "parquet"]。 |
元数据反序列化后处理工具 | 对JSONL文件中的指定字段进行反序列化处理。 |
质量分类器通用 | 本质量分类器类用于预测数据集中文档的评分。它将计算所有行的分数,并为每一行提供两列:分数(score)和是否保留(should_keep),以帮助用户决定应该删除哪一行。默认情况下,如果分数高于 0.9,则将该行标记为 should_keep=1 。 |
开放计算系统数据提取预处理 | 一个高质量的工具,用于将 PDF 转换为 Markdown 和 JSON |
开放计算系统抓取 URL 数据预处理 | 基于大型语言模型的网站和本地文档(XML、HTML、JSON 等)的数据抓取工具 |