DataPump+是一套全端数据迁移、采集及部分转换的ETL系统,实现离线与实时、结构化数据与非结构化的多模采集及同步,实现基础数据转换功能,包含各种业务数据与打点行为数据、日志数据等。
同步策略可灵活配置,支持全量同步、增量同步,以及多种数据写入模式,并通过调度配置,适应更多场景需求。
可视化便捷操作,快速完成ETL过程
兼容性强,支持所有主流数据存储
当前系统已兼容绝大多数主流数据存储,主流的RDBMS数据、NOSQL、大数据计算系统都已经接入;未来可支持所有主流厂商。
DataPump+作为一个服务于大数据的ETL工具,为用户提供了易操作的可视化配置界面。简单5步配置操作即可实现数据抽取功能。不仅如此,系统还提供了丰富数据转换的功能,让数据在传输过程中可以轻松完成数据清洗、过滤等数据转换功能。整个过程可监控。
灵活可配置的同步策略
可视化便捷操作,快速完成ETL过程
离线数据同步:RDB 表级同步、非RDB 的数据同步,整库级别数据同步
实时数据同步
基础配置(数据快照搬迁)、数据转换配置
全量同步、增量同步,多写入模式
多job调度执行,提供日志监控
|连接管理
配置数据采集任务的源、目标数据库的信息。目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入。
通过导航式的可视化界面配置,轻松完成数据源到目标数据库的ETL过程。系统提供了丰富数据转换的功能,让数据在传输过程中可以轻松完成数据过滤等数据转换功能,另外还提供了自定义groovy函数,让用户自定义转换函数。
|同步任务配置
既支持单次运行,也支持配置调度周期性运行。
|任务运行调度
任务执行情况可通过日志监控模块进行查看,并可查看每个job以及task的运行日志。
|日志监控
|函数管理
|性能优化
合理的参数配置将有助于数据采集的效率,DataPump+提供两种性能优化建议:
提升每个 Channel 的速度
提升 DataPump+ Job 内 Channel 并发数