数据处理算法模版
DataFlow 内置了多种数据处理模板,包括数据处理-基础
、数据处理-高阶
和数据增强
模板,为用户提供多样化的处理方案。未来,平台还将不断添加新的模板,以进一步丰富和优化数据处理能力。
此外,用户也可以创建自己的模板,或基于内置模板进行修改,构建个性化的数据处理 Pipeline,以满足特定的数据管理需求。
新建算法模版
- 基于内置模版进行修改: 在内置模版卡片上点击
创建
,进入算法模版创建页面。
- 根据需要从头创建新模板: 点击页面右侧的
创建模版
按钮,进入算法模版创建页面。
进入模版创建页面后,填写模版名称
、任务类型
和模版描述
字段,选择模版内要使用的算子以及执行顺序。
注意:部分算子需要设置相应的参数值。
设置完成后,点击页面右下角创建完成
按钮,即可开始使用新创建的模版完成数据处理任务。
算子列表
平台支持以下算子
ID | 名称 | 类型 | 描述 |
---|---|---|---|
chinese_convert_mapper | 汉字转换 | Mapper | 用于在繁体中文、简体中文和日文汉字之间进行转换。 |
clean_copyright_mapper | 版权信息清理 | Mapper | 用于删除文本样本开头的版权声明。 |
clean_email_mapper | 邮箱后缀清理 | Mapper | 用于删除文本样本中的电子邮件地址。 |
clean_html_mapper | HTML代码清理 | Mapper | 用于删除文本样本中的HTML代码。 |
clean_ip_mapper | IP地址清理 | Mapper | 用于删除文本样本中的ipv4和ipv6地址。 |
clean_links_mapper | 链接地址清理 | Mapper | 用于删除文本样本中的http/https/ftp等链接。 |
expand_macro_mapper | 宏定义扩展 | Mapper | 用于扩展LaTeX文档中定义的宏。 |
generate_code_qa_pair_mapper | 代码转换成QA对数据集 | Mapper | 基于代码生成新的指令数据的转换器 |
extract_qa_mapper | 问答对提取 | Mapper | 用于从文本样本中提取问答对 |
fix_unicode_mapper | Unicode错误修正 | Mapper | 用于修正文本样本中Unicode错误。 |
nlpaug_en_mapper | 英文语义增强 | Mapper | 使用nlpaug库对英语文本进行简单增强。 |
nlpcda_zh_mapper | 汉语语义增强 | Mapper | 使用nlpcda库对中文文本进行简单增强。 |
optimize_instruction_mapper | 优化Instruction | Mapper | 用于优化指令 |
punctuation_normalization_mapper | Unicode标点规范化 | Mapper | 用于将文本样本中的Unicode标点符号标准化为英文标点符号。 |
remove_bibliography_mapper | 移除参考书目信息 | Mapper | 用于删除LaTeX文档末尾的参考文献。 |
remove_comments_mapper | 移除评论信息 | Mapper | 用于删除不同类型文档中的注释。目前仅支持'tex'格式。 |
remove_header_mapper | 移除文件头 | Mapper | 用于移除LaTeX文档开头的标题。 |
remove_long_words_mapper | 移除长字符串 | Mapper |