采集器管理
更新时间 2026-07-02 09:28:13
最近更新时间: 2026-07-02 09:28:13
本章节主要介绍元数据采集器管理功能。
元数据采集器描述了从哪里采集数据、怎样采数据、采什么数据,通过配置采集任务,能够使采集器按一定时间规则从各种数据源中采集元数据。
在采集器管理模块配置采集器的基本信息,包括:采集器类型、元模型、采集源、数据源、SQL等信息,在配置采集器时,直接将采集器与元模型做绑定,后续配置采集任务时无需重新绑定元模型;
采集器分为系统内置采集器和自定义采集器。系统内置了常用数据源的元数据采集器,按照绑定的元模型批量采集数据源的表和字段,内置采集器不可修改;同时,为应对不同的业务需求,支持自定义创建元数据采集器,灵活提取数据源下的表、字段信息。
点击【+创建采集器】按钮创建新的采集器。
在创建采集器窗口中配置采集器相关信息,在此处绑定元模型,通过SQL代码描述采集器的功能,如采集哪些库表、哪些字段等。支持试跑查看采集器配置是否合理,点击【保存】按钮完成采集器的创建。
用户可以选择内置采集器,无需手动添加采集器。系统内置的采集器包括:
系统版本/数据库 | Flink | Local |
| MySQL | ✅ | ✅ |
| Doris | ✅ | ✅ |
| Oracle | ✅ | ✅ |
| Hive | ✅ | ✅ |
| DM | ✅ | ✅ |
| PgSQL | ✅ | ✅ |
| GaussDB | ✅ | ✅ |
| SqlServer | ✅ | ❌ |
| DB2 | ✅ | ❌ |
| KingBase | ✅ | ❌ |
| OceanBase | ✅ | ❌ |
| ClickHouse | ✅ | ❌ |
| Vertica | ✅ | ❌ |
| HanaDB | ✅ | ❌ |
| HBase | ❌ | ✅ |
| Elasticsearch | ❌ | ✅ |
| MongoDB | ❌ | ✅ |
| Ceph | ❌ | ✅ |
| Cassandra | ✅ | ❌ |