文件格式介绍 5.使用正则表达式分隔字段 这个功能是针对一些复杂的半结构化文本,例如日志文件的解析,详见: 正则表达式分隔半结构化文本。 6.首行为标题行 这个参数是针对CSV文件导出到其它地方的场景,如果源端指定了该参数,CDM在抽取数据时将第一行作为标题行。在传输CSV文件的时候会跳过标题行,这时源端抽取的行数,会比目的端写入的行数多一行,并在日志文件中进行说明跳过了标题行。 7.写入文件大小 这个参数是针对数据库导出到CSV文件的场景,如果一张表的数据量比较大,那么导出到CSV文件的时候,会生成一个很大的文件,有时会不方便下载或查看。这时可以在目的端指定该参数,这样会生成多个指定大小的CSV文件,避免导出的文件过大。该参数的数据类型为整型,单位为MB。 JSON格式 这里主要介绍JSON文件格式的以下内容: CDM支持解析的JSON类型 记录节点 从JSON文件复制数据 1.CDM支持解析的JSON 类型:JSON对象、JSON数组。 JSON对象:JSON文件包含单个对象,或者以行分隔/串连的多个对象。 i.单一对象JSON: { "took" : 190, "timedout" : false, "total" : 1000001, "maxscore" : 1.0 ii.行分隔的JSON对象: {"took" : 188, "timedout" :false, "total" : 1000003, "maxscore" : 1.0 } {"took" : 189, "timedout" : false, "total" :1000004, "maxscore" : 1.0 } iii. 串连的JSON对象: { "took": 190, "timedout": false, "total": 1000001, "maxscore": 1.0 } { "took": 191, "timedout": false, "total": 1000002, "maxscore": 1.0 } JSON数组:JSON文件是包含多个JSON对象的数组。 [{ "took" : 190, "timedout" : false, "total" : 1000001, "maxscore" : 1.0 },{ "took" : 191, "timedout" : false, "total" : 1000001, "maxscore" : 1.0 }]