DataFlow 版本更新说明 v202411
新增功能:工具池
在本次DataFlow的新版本中,我们引入了一个功能强大的工具池,专门为处理数据的不同方面而设计。下面是新增加的12个工具的详细介绍:
分析工具
analysis_common_internal
此分析器类用于分析特定数据集。它将为配置文件中的所有滤波器操作计算统计信息,对这些统计信息应用多种分析(例如,整体分析、按列分析等),并生成分析结果(统计表、分布图等),帮助用户更好地理解输入数据集。quality_classifier_common_internal
该工具主要用途是对数据集中的文档进行打分预测。它会为所有行计算得分,并为每行提供两列分数:得分(score)和是否保留(should_keep),以帮助用户决定哪些行应当被移除。默认情况下,如果某行的得分高于0.9,则将其标记为应保留(should_keep=1)。
预处理工具
dataset_spliter_by_language_preprocess_internal
从源目录加载数据集,然后应用LanguageIDScoreFilter
操作过滤器进行语言识别,最后按语言拆分数据集并保存。prepare_dataset_from_repo_preprocess_internal
以如下格式准备代码仓库的数据集:仓库名称、仓库中的文件路径、文件内容。raw_alpaca_cot_merge_add_meta_preprocess_internal
将原始Alpaca-Cot数据转换为jsonl文件,合并instruction
/input
/output
到text
以供处理,并添加元信息。raw_arxiv_to_jsonl_preprocess_internal
将原始arXiv数据(gzipped tar文件)转换为jsonl格式。raw_stackexchange_to_jsonl_preprocess_internal
将从存档下载的原始Stack Exchange数据(参考:https://archive.org/download/stackexchange)转换为几个jsonl文件。reformat_csv_nan_value_preprocess_internal
重新格式化可能包含Nan值的csv或tsv文件,并加载额外参数,例如将keep_default_na
设置为False。reformat_jsonl_nan_value_preprocess_internal
重新格式化可能包含Nan值的jsonl文件。遍历jsonl文件以找到不包含Nan的第一个对象作为参考特征类型,然后设置它来加载所有jsonl文件。serialize_meta_preprocess_internal
序列化jsonl文件中的所有字段,除了用户指定的字段,以确保每行文本格式不一致的jsonl文件也能被数据集正常加载。
后处理工具
count_token_postprocess_internal
计算给定数据集和分词器的标记数量。目前仅支持'jsonl'格式。data_mixture_postprocess_internal
将多个数据集混合成一个数据集。从每个数据集中随机选择样本并混合这些样本,然后导出到一个新的混合数据集。支持的后缀包括:["jsonl", "json", "parquet"]。deserialize_meta_postprocess_internal
反序列化jsonl文件中指定的字段。