华为云数据迁移(Cloud Data Migration,简称CDM)是一种高效、易用的批量数据迁移服务,提供同构/异构数据源之间批量数据迁移服务,帮助客户实现数据自由流动。支持客户自建和公有云上的文件系统、关系数据库、数据仓库、大数据云服务、对象存储等数据源。
在数据治理中心(DataArts Studio)服务中,CDM作为其中的“数据集成”组件使用,产品能力与独立的CDM服务保持一致。CDM服务基于分布式计算框架,利用并行化处理技术,支持用户稳定高效地对海量数据进行移动,实现不停服数据迁移,快速构建所需的数据架构。
产品功能
1.表/文件/整库迁移
支持批量迁移表或者文件,支持同构/异构数据库之间的整库迁移,一个作业即可迁移几百张。
2.增量数据迁移
支持文件增量迁移、关系型数据库增量迁移、HBase/CloudTable增量迁移,以及使用Where条件配合时间变量函数实现增量数据迁移。
3.事务模式迁移
支持当CDM作业执行失败时,将数据回滚到作业开始之前的状态,自动清理目的表中的数据。
4.字段转化
支持去隐私、字符串操作、日期操作等常用字段的数据转换功能。
5.文件加密
在迁移文件到文件系统时,CDM支持对写入云端的文件进行加密。
6.MD5校检一致性
支持使用MD5校验,检查端到端文件的一致性,并输出校验结果。
7.脏数据归档
支持将迁移过程中处理失败的、被清洗过滤掉的、不符合字段转换或者不符合清洗规则的数据单独归档到脏数据日志中,便于用户查看。并支持设置脏数据比例阈值,来决定任务是否成功。
8.正则表达式分隔半结构化文本
支持在创建表/文件迁移作业时,对简单CSV格式的文件,可以使用字段分隔符进行字段分隔。
产品优势
1.支持多种数据源批量入湖
满足近20种常用数据源,满足数据在云上和云下的不同迁移场景。
2.迁移效率高
基于分布式计算框架进行数据任务执行和数据传输优化,并针对特定数据源写入做了专项优化,迁移效率高。
3.简单易用
免编程,向导式任务开发界面,通过简单配置几分钟即可完成迁移任务开发。
4.成本低
按需付费,根据使用资源量进行计费,无须自建专用软硬件。
5.实时监控
通过云监控服务实时监控CDM集群的各项性能指标。
应用场景
1.大数据迁移上云
大数据迁移上云向导式任务管理,即开即用,轻松上手。
大数据迁移上云
2.数据批量入湖
数据批量入湖,支持用户本地数据全量和T+1增量入湖。支持关系型数据库、大数据、文件、NoSQL多种数据源。能够通过迁移作业的where条件配合调度系统实现增量同步,基于数据源特点采取并发拆分增强迁移性能。
数据批量入湖