使用Hive加载HDFS数据并分析图书评分情况 创建MRS离线查询集群 1. 登录天翼云控制中心,选择“大数据 > 翼MapReduce服务 MRS”,单击“购买集群”,选择“快速购买”,填写软件配置参数,单击“下一步”。 软件配置(以下参数仅供参考,可根据实际情况调整) 参数项 取值 计费模式 按需计费 集群名称 MRSdemo 版本类型 普通版 集群版本 MRS 3.1.0 组件选择 Hadoop分析集群 可用区 可用区1 虚拟私有云 vpc01 子网 subnet01 企业项目 default Kerberos认证 不开启 用户名 admin/root 密码 设置密码登录集群管理页面及ECS节点用户的密码,例如:Test!@12345。 说明 此密码仅为格式实例,实际设置密码请注意规避弱密码风险。 确认密码 再次输入设置用户密码 通信安全授权 勾选“确认授权” 2. 购买Hadoop分析集群。 3. 单击“立即购买”,等待MRS集群创建成功。 集群购买成功 将本地数据导入到HDFS中 1. 在本地已获取某图书网站后台图书点评记录的原始数据文件“bookscore.txt”,例如内容如下。 字段信息依次为:用户ID、图书ID、图书评分、备注信息 例如部分数据节选如下: 202001,242,3,Good! 202002,302,3,Test. 202003,377,1,Bad! 220204,51,2,Bad! 202005,346,1,aaa 202006,474,4,None 202007,265,2,Bad! 202008,465,5,Good! 202009,451,3,Bad! 202010,86,3,Bad! 202011,257,2,Bad! 202012,465,4,Good! 202013,465,4,Good! 202014,465,4,Good! 202015,302,5,Good! 202016,302,3,Good! ... 2. 登录对象存储服务OBS控制台,单击“创建桶”,填写以下参数,单击“立即创建”。 桶参数 参数项 取值 数据冗余存储策略 单AZ存储 桶名称 mrshive 默认存储类别 标准存储 桶策略 私有 默认加密 关闭 归档数据直读 关闭 企业项目 default 标签 3. 创建OBS桶。 4. 等待桶创建好,单击桶名称,选择“对象 > 上传对象”,将数据文件上传至OBS桶内。 5. 上传对象。 6. 切换回MRS控制台,单击创建好的MRS集群名称,进入“概览”,单击“IAM用户同步”所在行的“同步”,等待约5分钟同步完成。 同步IAM用户 7. 将数据文件上传HDFS。 a.在“文件管理”页签,选择“HDFS文件列表 ” ,进入数据存储目录,如“/tmp/test”。 “/tmp/test”目录仅为示例,可以是界面上的任何目录,也可以通过“新建”创建新的文件夹。 b.单击“导入数据”。 OBS路径:选择上面创建好的OBS桶名,找到“bookscore.txt”文件,勾选“我确认所选脚本安全,了解可能存在的风险,并接受对集群可能造成的异常或影响。”,单击“确定”。 HDFS路径:选择“/tmp/test”,单击“确定”。 从OBS导入数据到HDFS c.单击“确定”,等待数据导入成功,此时数据文件已上传至MRS集群的HDFS文件系统内。 数据导入成功