跳到主要内容

数据处理算法模版

DataFlow 内置了多种数据处理模板,包括数据处理-基础数据处理-高阶数据增强模板,为用户提供多样化的处理方案。未来,平台还将不断添加新的模板,以进一步丰富和优化数据处理能力。 此外,用户也可以创建自己的模板,或基于内置模板进行修改,构建个性化的数据处理 Pipeline,以满足特定的数据管理需求。

Default Template

新建算法模版

  • 基于内置模版进行修改: 在内置模版卡片上点击创建,进入算法模版创建页面。

Modify Template

  • 根据需要从头创建新模板: 点击页面右侧的创建模版按钮,进入算法模版创建页面。

Create New Template

进入模版创建页面后,填写模版名称任务类型模版描述字段,选择模版内要使用的算子以及执行顺序。

注意:部分算子需要设置相应的参数值。

设置完成后,点击页面右下角创建完成按钮,即可开始使用新创建的模版完成数据处理任务。

Template Field Select Ops

算子列表

平台支持以下算子

ID名称类型描述
chinese_convert_mapper汉字转换Mapper用于在繁体中文、简体中文和日文汉字之间进行转换。
clean_copyright_mapper版权信息清理Mapper用于删除文本样本开头的版权声明。
clean_email_mapper邮箱后缀清理Mapper用于删除文本样本中的电子邮件地址。
clean_html_mapperHTML代码清理Mapper用于删除文本样本中的HTML代码。
clean_ip_mapperIP地址清理Mapper用于删除文本样本中的ipv4和ipv6地址。
clean_links_mapper链接地址清理Mapper用于删除文本样本中的http/https/ftp等链接。
expand_macro_mapper宏定义扩展Mapper用于扩展LaTeX文档中定义的宏。
generate_code_qa_pair_mapper代码转换成QA对数据集Mapper基于代码生成新的指令数据的转换器
extract_qa_mapper问答对提取Mapper用于从文本样本中提取问答对
fix_unicode_mapperUnicode错误修正Mapper用于修正文本样本中Unicode错误。
nlpaug_en_mapper英文语义增强Mapper使用nlpaug库对英语文本进行简单增强。
nlpcda_zh_mapper汉语语义增强Mapper使用nlpcda库对中文文本进行简单增强。
optimize_instruction_mapper优化InstructionMapper用于优化指令
punctuation_normalization_mapperUnicode标点规范化Mapper用于将文本样本中的Unicode标点符号标准化为英文标点符号。
remove_bibliography_mapper移除参考书目信息Mapper用于删除LaTeX文档末尾的参考文献。
remove_comments_mapper移除评论信息Mapper用于删除不同类型文档中的注释。目前仅支持'tex'格式。
remove_header_mapper移除文件头Mapper用于移除LaTeX文档开头的标题。
remove_long_words_mapper移除长字符串Mapper用于删除长度超出指定范围的单词。
remove_non_chinese_character_mapper移除非中文字符Mapper用于删除文本样本中的非中文字符。
remove_repeat_sentences_mapper句子去重Mapper用于删除文本样本中重复的句子。
remove_specific_chars_mapper特殊字符清理Mapper用于删除文本样本中的特定字符。现在支持的字符有:◆●■►▼▲▴∆▻▷❖♡□
remove_table_text_mapper表格内容清理Mapper用于从文本样本中删除表格内容。使用正则表达式在表格列数范围内删除表格。
remove_words_with_incorrect_substrings_mapper子字符串清理Mapper用于删除包含错误子字符串的单词。
replace_content_mapper文本替换Mapper用于将文本中与特定正则表达式模式匹配的所有内容替换为指定替换字符串。
sentence_split_mapper句子分割Mapper用于将文本样本拆分为句子。
whitespace_normalization_mapper空白规范化Mapper用于将文本样本中不同类型的空白字符标准化为空格字符' '(0x20)。
alphanumeric_filter字母/数字占比过滤Filter用于保留字母/数字比例在特定范围内的样本。
average_line_length_filter平均行长度范围过滤Filter用于保留平均行长度在特定范围内的样本。
character_repetition_filter字符级重复率范围过滤Filter用于保留字符级n-gram重复率在特定范围内的样本。
flagged_words_filter标记词比例过滤Filter用于保留标记词汇比例小于指定最大值的样本。
language_id_score_filter特定语言置信度过滤Filter用于保留特定语言且语言置信度评分大于指定最小值的样本。
maximum_line_length_filter最大行长度范围过滤Filter用于保留最大行长度在特定范围内的样本。
perplexity_filter困惑度范围过滤Filter用于保留困惑度评分小于指定最大值的样本。
special_characters_filter特殊字符比例过滤Filter用于保留特殊字符比例在特定范围内的样本。
specified_field_filter字段信息过滤Filter基于指定字段信息进行过滤。如果样本中的指定字段信息不在设定的目标值范围内,该样本将被过滤。
specified_numeric_field_filter数值字段范围过滤Filter基于指定的数值字段信息进行过滤。如果样本中的指定数值信息不在设定的范围内,该样本将被过滤。
stopwords_filter停用词比例过滤Filter用于保留停用词比例大于指定最小值的样本。
suffix_filter特殊后缀过滤Filter用于保留具有指定后缀的样本。
text_action_filter动作文本过滤Filter用于保留包含动作的文本。
text_entity_dependency_filter实体文本过滤Filter识别文本中独立的实体,并对其进行过滤。不包含实体的文本将被忽略。
text_length_filter文本长度范围过滤Filter用于保留总文本长度在特定范围内的样本。
token_num_filtertoken数量范围过滤Filter用于保留token数量在特定范围内的样本。
word_repetition_filter词级重复率范围过滤Filter用于保留单词级n-gram重复比率在特定范围内的样本。
words_num_filter单词数量范围过滤Filter用于保留总词数在特定范围内的样本。
document_deduplicator文档去重(MD5)Deduplicator用于通过精确匹配在文档级别对样本去重。使用MD5哈希值进行样本去重。
document_minhash_deduplicator文档去重(MinHashLSH)Deduplicator用于通过MinHashLSH在文档级对样本去重。与SimHash不同,MinHash以字节形式存储,因此不会保留在最终数据集中。
document_simhash_deduplicator文档去重(SimHash)Deduplicator用于在文档级别使用SimHash对样本进行去重。
frequency_specified_field_selector排序频率选择器Selector用于根据指定字段的排序频率选择样本。
random_selector随机样本选择器Selector用于随机对样本进行选择。
range_specified_field_selector排序范围选择器Selector用于根据指定字段值从小到大的排序范围选择样本。
topk_specified_field_selector前部样本的选择器Selector根据排序后的指定字段值选择前几名样本。