华为侯金龙：构筑“应试融合、智能、合作”数据基础设施，携手进入智能时代

浏览：333 时间：2022-5-20

11月19日，华为面向鲲鹏计算产业在深圳，举办2019全球数据基础设施论坛，宣布全面启动数据基础设施战略和数据虚拟化引擎HetuEngine开源，希望让合作伙伴像使用“数据库”一样使用“大数据”，让数据治理和使用更简单。这是华为在今年9月基于“鲲鹏Rising”的双引擎全面启航计算策略后，从数据角度对计算策略的重新诠释。华为数据基础设施战略围绕数据“获取-存储-计算-管理-使用”的全生命周期，说明华为可以通过提供融合、智能、开放的数据基础设施，释放数据价值，让智能无处不在。

华为云泰产品和服务公司总裁侯金龙，在大会上发表了主旨演讲

以下是侯金龙讲话全文

女士们，老师们，朋友们，早上好！欢迎来到深圳参加首届全球数据基础设施论坛。

人类正在进入万物互联的智能时代，数据将成为智能世界的关键生产资料。今天分享的话题是《打造“融合、智能、开放”数据基础设施，携手迈入智能时代》。

构建万物互联的智能世界

华为公司的愿景和使命是：“将数字世界带入每个人、每个家庭、每个组织，构建万物互联的智能世界”。在智能世界中，计算能力成为新的生产力，数据成为新的生产手段，而“5G、AI、云\"成为新的生产工具，这将使成千上万的企业进入智能时代。

两个月前，华为在全联网大会上宣布了“一个云，两翼双引擎”的鲲鹏计算产业布局。基于“鲲鹏Rising”双引擎，推出全面计算战略，为全球提供最强计算能力。

“一个云\"指的是云，华为，这是生态伙伴发展的黑土地。“两翼”指的是智能计算和智能数据。作为鲲鹏产业的关键一翼，华为将围绕数据构建端到端能力，包括存储、计算和使用能力，并通过5G 云AI能力构建“融合、智能、开放”的数据基础设施，释放数据价值，让智能无所不能！

智能世界，从数据管理到数据运营

首先，数据将推动客户体验。当你打开一个应用，你会收到你感兴趣的内容。精准推送的背后，其实是数据在推动。比如在Aauto faster中，每天生成1.2亿个内容标签，实时匹配用户画像，数据操作实现精准内容推送。

其次，在商业活动中，数据驱动企业的生产决策。以大港油田为例，经过50年的持续开采，面临着资源枯竭和产量下降的挑战。2019年以来，大港油田采用华为大数据和AI技术，利用测井曲线和经验模型生成了各井的孔隙度和渗透率，发现了更多新的油气藏。通过数据运算，为500万吨的长期稳定生产提供决策支持。

最后，我介绍了数据驱动的企业流程简化。华为每年有近300万次商务旅行。过去，出差涉及考勤、机票、酒店，包括报销等十几个申请流程。现在，真正实现“说走就走”只需要一个过程。这是每天45万次后台数据关联碰撞的结果。数据运营，实现“员工多数据少跑腿”。

在智能世界中，需求和资源之间存在巨大差距

随着5G、AI和云，的普及，数据量正以惊人的速度增长：从1080p到4K和8K，视频数据量将增长40倍，从4K到4KVR将增长6倍以上；未来，每辆自动驾驶汽车每天将产生高达64TB的数据；深圳，一个城市有200多万个摄像头，每天会产生80pB的数据，平均保存30天。大家都希望能保存更久；大量的数据过去只能存储几天，现在需要存储几个月甚至永久。

根据预测，全球数据量将从2018年的33ZB快速增长到2025年的180ZB。但是，保存的生成数据不到2%，应用的保存数据不到10%。

这些海量数据增长的背后是对海量存储和计算资源的需求。数据增长是无限的，但存储资源是有限的。

在数据的整个生命周期中，每比特的价值最大，每比特的成本最好

我们希望对数据的采集、存储、计算、管理和使用实施端到端的集成和优化，让数据在整个生命周期中得到更好的利用，以最大的每比特数据价值和最好的每比特数据成本！

创建“融合、智能和开放”的数据基础架构

为了实现这一追求，华为构建了融合、智能、开放的数据基础设施，使数据系统从孤立走向融合，从复杂走向智能，从封闭走向开放：

通过“打破数据处理和数据存储的界限”，我们可以高效地共享和分析数据，降低成本，提高效率。

通过“AI存储云\",”可以实现数据全生命周期的智能管理和智能运营，让存储更快更有利用价值。

通过“数据虚拟化引擎”，统一SQL语法，像使用数据库一样使用大数据。

融合：使用极简主义

数据应用的核心包括存储和分析。烟囱IT业务系统带来两个问题：存储时会产生多个冗余副本，数据无法流动，存储成本高；分析会导致大量数据的重新定位，分析效率低。

通过10多年的技术积累和创新，华为在存储、数据库和大数据技术方面取得了一系列突破。通过突破四面墙，每一点数据都有最大的价值和最好的成本。

打破存储的内部系统墙：通过一套架构实现生产、分析、备份、归档的统一管理，一条数据在各个系统中顺畅流动，副本和TCO降低30%以上。

打破数据库与存储之间的链接墙：通过操作者下推实现近数据计算，减少存储层与计算层之间的数据交换，数据访问和处理性能提升2倍。

打破大数据和存储配置的围墙：通过存储和计算分离实现资源的灵活分配，计算不足时扩展计算，存储不足时扩展存储。弹性电子商务和数据缩减技术减少了冗余，总体拥有成本降低了30%以上。

打破数据库与大数据的协同墙：通过协同分析实现零数据重定位，数据库与大数据共享一个数据，分析效率提升100%。

智能：体验极致

过去设备配置和运维主要由人来完成，运维人员的经验和能力决定了管理效率。华为基于AI芯片、存储和华为云的三层架构，通过云的培训和云，的推理，可以越来越快地使用系统。

依托上升处理器的AI能力，自动学习识别I/O流，提升Cache预取命中率，系统整体性能提升20%。

依托鲲鹏处理器的多重核算能力，根据不同的数据类型实时优化数据约简算法，TCO降低25%。

结合华为云自身的大规模运维经验，可以提前14天预测硬盘故障，提前60天预测性能瓶颈，提前365天预测容量不足，其中

数字难求：传统企业数据类型越来越多，结构化、半结构化、非结构化数据并存，缺乏统一的数据目录和全局数据视图。从众多异构数据源中寻找特定数据就像大海捞针。

数据获取难：典型的分析业务通常依赖跨区域、跨平台的数据协同，需要从多个业务系统中获取数据，需要经过多个部门之间的协调验证才能获取。

大量资源难以使用：多业务分析需要多引擎协作，依赖多种数据访问技术，需要开发人员掌握多种开发工具和语言，导致开发门槛较高，开发周期较长。

为了屏蔽数据类型差异、地理差异和语法差异，使数据管理简单易用，华为推出了“河流地图引擎”。

河图引擎，从“大数据”到“大数据库”

我们将数据虚拟化引擎命名为“River Map”，意思是屏蔽数据基础设施的复杂性，允许开发人员像使用数据库一样使用大数据，重用现有的生态、工具和技能，将开发效率提高2到10倍。“大禹拿到河图才看到清明。”相传，大禹通过河图掌握了复杂的河山地形，成功完成了治水大业。

河流地图引擎是为了让数据管理简单、易用，更方便挖掘数据价值。它有四个核心能力：

a目录：通过元数据的在线感知，构建1000个异地异构数据源的全局虚拟数据视图，打破数据孤岛，使数据全局可见，解决企业中找号难的问题。

一个入口：通过开放连接框架和5000节点的SQL引擎，统一SQL可以访问不同地方的30种异构数据源，由秒级，获取，数据可以全局获取，解决了企业数据检索难的问题。

一条数据：通过CarbonData技术，可以实现一条数据的多场景分析、多应用共享、零数据重定位和全局数据可用性，从而解决企业数据消耗难的问题。

统一安全：通过细粒度的动态授权和敏感数据自动感知技术，实现源集中文对异地异构数据的安全配置和控制，数据全局可控，数据授权时间从几天到几秒，解决了企业数据安全和合规问题。

开源河流地图引擎HetuEngine

为了更好地发展数据产业，今天我宣布开源河图引擎，其开源版名为openHetu，将于2020年6月推出。我们将开源内核，开发者可以基于开源代码进行定制，包括数据源扩展、SQL执行策略等。从而实现快速应用对接，提高开发效率。

位于华为，的CloudAI产品和服务总裁侯金龙，宣布了开源数据虚拟化引擎HetuEngine

平台生态，携手进入智能时代

华为始终践行“平台生态”战略，通过开放硬件、开放软件、赋能合作伙伴，在鲲鹏构建开放繁荣的计算产业生态，共同进入智能时代。

谢谢大家！