Sqoop对接外部存储系统 sqoop import(MySQL到 Hive表) 1. 登录客户端所在节点。 2. 执行如下命令初始化环境变量。 source /opt/client/bigdataenv 3. 使用sqoop命令操作sqoop客户端。 sqoop import connect jdbc:mysql://10.100.231.134:3306/test username root password xxxxxx table component hiveimport hivetable componenttest2 deletetargetdir fieldsterminatedby"," m 1 astextfile 详见下表:参数说明 参数 说明 append 将数据追加到hdfs中已经存在的dataset中。使用该参数,sqoop将把数据先导入到一个临时目录中,然后重新给文件命名到一个正式的目录中,以避免和该目录中已存在的文件重名。 asavrodatafile 将数据导入到一个Avro数据文件中。 assequencefile 将数据导入到一个sequence文件中。 astextfile 将数据导入到一个普通文本文件中,生成该文本文件后,可以在hive中通过sql语句查询出结果。 boundaryquery 边界查询,在导入前先通过SQL查询得到一个结果集,然后导入的数据就是该结果集内的数据,格式如:boundaryquery 'select id,creationdate from person where id 3' ,表示导入的数据为id3的记录,或者select min(), max() from 。 注意:查询的字段中不能有数据类型为字符串的字段,否则会报错:java.sql.SQLException: Invalid value for getLong()。 columns
数据库的导入工具,如MySQL的mysqlimport,可以比jdbc连接的方式更为高效的将数据导入到关系数据库中。 directsplitsize 在使用上面direct直接导入的基础上,对导入的流按字节数分块,特别是使用直连模式从PostgreSQL导入数据时,可以将一个到达设定大小的文件分为几个独立的文件。 inlineloblimit 设定大对象数据类型的最大值。 m或nummappers 启动n个map来并行导入数据,默认是4个,该值请勿高于集群的最大Map数。 query,e 从查询结果中导入数据,该参数使用时必须指定targetdir、hivetable,在查询语句中一定要有where条件且在where条件中需要包含CONDITIONS。 示例:query 'select from person whereCONDITIONS ' targetdir /user/hive/warehouse/person hivetable person splitby 表的列名,用来切分工作单元,一般后面跟主键ID。 table 关系数据库表名,数据从该表中获取。 targetdir 指定hdfs路径。 warehousedir 与targetdir不能同时使用,指定数据导入的存放目录,适用于导入hdfs,不适合导入hive目录。 where 从关系数据库导入数据时的查询条件,示例:where 'id 2' z,compress 压缩参数,默认数据不压缩,通过该参数可以使用gzip压缩算法对数据进行压缩,适用于SequenceFile,text文本文件,和Avro文件。 –compressioncodec Hadoop压缩编码,默认为gzip。 –nullstring 替换null字符串,如果没有指定,则字符串null将被使用。 –nullnonstring 替换非String的null字符串,如果没有指定,则字符串null将被使用。 checkcolumn (col) 增量导入参数,用来作为判断的列名,如id。 incremental (mode) append 或lastmodified 增量导入参数。 append:追加,比如对大于lastvalue指定的值之后的记录进行追加导入。 lastmodified:最后的修改时间,追加lastvalue指定的日期之后的记录。 lastvalue (value) 增量导入参数,指定自从上次导入后列的最大值(大于该指定的值),也可以自己设定某一值。