准备测试数据 在创建Flink作业进行数据分析前,我们需要在提前准备待分析的测试数据,并将该数据上传至OBS文件系统中。 1. 本地创建一个“mrsflinktest.txt”文件,例如文件内容如下: This is a test demo for MRS Flink. Flink is a unified computing framework that supports both batch processing and stream processing. It provides a stream data processing engine that supports data distribution and parallel computing. 2. 在云服务列表中选择“存储 > 对象存储服务”,登录OBS管理控制台。 3. 单击“并行文件系统”,创建一个并行文件系统,并上传测试数据文件。 详见下图:创建并行文件系统 例如创建的文件系统名称为“mrsdemodata”,单击系统名称,在“文件”页面中,新建一个文件夹“flink”,上传测试数据至该目录中。 则本示例的测试数据完整路径为“obs://mrsdemodata/flink/mrsflinktest.txt”。 详见下图:上传测试数据 4. (可选)上传数据分析应用程序。 使用管理台界面直接提交作业时,将已开发好的Flink应用程序jar文件也可以上传至OBS文件系统中,或者MRS集群内的HDFS文件系统中。 本示例中我们使用MRS集群内置的Flink WordCount样例程序,可从MRS集群的客户端安装目录中获取,即“/opt/client/Flink/flink/examples/batch/WordCount.jar”。 将“WordCount.jar”上传至“mrsdemodata/program”目录下。 创建并运行Flink作业 方式 1 :在控制台界面在线提交作业。 1. 登录MRS管理控制台,单击MRS集群名称,进入集群详情页面。 2. 在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“单击同步”进行IAM用户同步。 3. 单击“作业管理”,进入“作业管理”页签。 4. 单击“添加”,添加一个Flink作业。 作业类型:Flink 作业名称:自定义,例如flinkobstest。 执行程序路径:本示例使用Flink客户端的WordCount程序为例。 运行程序参数:使用默认值。 执行程序参数:设置应用程序的输入参数,“input”为待分析的测试数据,“output”为结果输出文件。 例如本示例中,我们设置为“input obs://mrsdemodata/flink/mrsflinktest.txt output obs://mrsdemodata/flink/output”。 服务配置参数:使用默认值即可,如需手动配置作业相关参数,可参考运行Flink作业。 5. 确认作业配置信息后,单击“确定”,完成作业的新增,并等待运行完成。 方式 2 :通过集群客户端提交作业。 1. 使用root用户登录集群客户端节点,进入客户端安装目录。 su omm cd /opt/client source bigdataenv 2. 执行以下命令验证集群是否可以访问OBS。 hdfs dfs ls obs://mrsdemodata/flink 3. 提交Flink作业,指定源文件数据进行消费。 flink run m yarncluster /opt/client/Flink/flink/examples/batch/WordCount.jar input obs://mrsdemodata/flink/mrsflinktest.txt output obs://mrsdemo/data/flink/output2 ... Cluster started: Yarn cluster with application id application16546723745620011 Job has been submitted with JobID a89b561de5d0298cb2ba01fbc30338bc Program execution finished Job with JobID a89b561de5d0298cb2ba01fbc30338bc has finished. Job Runtime: 1200 ms