跳到主要内容

数据处理工具池

工具池模块汇聚了多种数据处理工具，用户可以根据自己的需求自由选择。

tools

工具列表

以下是平台支持的数据处理工具列表。

名称	描述
通用分析工具	此分析器类用于分析特定数据集。它会为配置文件中的所有过滤操作计算统计数据，对这些统计数据应用多种分析（如整体分析、逐列分析等），并生成分析结果（统计表、分布图等），帮助用户更好地理解输入数据集。
数据集按语言分割预处理工具	从源目录加载数据集，然后使用名为 `LanguageIDScoreFilter` 的操作过滤器进行语言识别，最后按语言分割数据集并保存。
从代码仓库准备数据集预处理工具	从代码仓库中准备数据集，格式包括：仓库名称、仓库中的文件路径、文件内容。
原始Alpaca-Cot数据合并与元数据添加预处理工具	将原始Alpaca-Cot数据转换为JSONL文件，合并指令/输入/输出文本，并添加元数据信息。
原始arXiv数据转换为JSONL预处理工具	将原始arXiv数据（gzipped tar文件）转换为JSONL格式。
原始Stack Exchange数据转换为JSONL预处理工具	将从Archive下载的原始Stack Exchange（参考：https://archive.org/download/stackexchange) 数据转换为多个JSONL文件。
CSV文件NaN值重格式化预处理工具	加载可能包含NaN值的CSV或TSV文件，并可通过设置额外参数（如设置 `keep_default_na` 为False）进行处理。
JSONL文件NaN值重格式化预处理工具	重格式化可能包含NaN值的JSONL文件。遍历JSONL文件，找到第一个不包含NaN的对象作为参考特征类型，并将其设置为加载所有JSONL文件时的基准。
元数据序列化预处理工具	序列化JSONL文件中除用户指定字段以外的所有字段，确保即使JSONL文件中每行文本格式不一致，数据集仍可正常加载。
令牌计数后处理工具	统计给定数据集和分词器的令牌数量。目前仅支持JSONL格式。
数据混合后处理工具	将多个数据集混合成一个数据集。随机选择每个数据集的样本并混合这些样本，然后导出为新的混合数据集。支持的格式包括：["jsonl", "json", "parquet"]。
元数据反序列化后处理工具	对JSONL文件中的指定字段进行反序列化处理。
质量分类器通用	本质量分类器类用于预测数据集中文档的评分。它将计算所有行的分数，并为每一行提供两列：分数（score）和是否保留（should_keep），以帮助用户决定应该删除哪一行。默认情况下，如果分数高于 0.9，则将该行标记为 `should_keep=1`。
开放计算系统抓取 URL 数据预处理	基于大型语言模型的网站和本地文档（XML、HTML、JSON 等）的数据抓取工具
开放计算系统数据提取预处理	一个高质量的工具，用于将 PDF 转换为 Markdown 和 JSON
文本价值评估	根据用户自定义的打分标准对数据源的数据进行打分并过滤，最后使用bloom过滤器去重。
高质量对话生成	根据固定的提示词使用大模型输出多轮对话，并保留质量最高的对话。
增强文本描述工具	根据数据源中的数据使用大模型进行详细描述。

工具列表