华为侯金龙:构筑“应试融合、智能、合作”数据基础设施,携手进入智能时代
浏览:212 时间:2022-5-20

11月19日,华为面向鲲鹏计算产业在深圳,举办2019全球数据基础设施论坛,宣布全面启动数据基础设施战略和数据虚拟化引擎HetuEngine开源,希望让合作伙伴像使用“数据库”一样使用“大数据”,让数据治理和使用更简单。这是华为在今年9月基于“鲲鹏Rising”的双引擎全面启航计算策略后,从数据角度对计算策略的重新诠释。华为数据基础设施战略围绕数据“获取-存储-计算-管理-使用”的全生命周期,说明华为可以通过提供融合、智能、开放的数据基础设施,释放数据价值,让智能无处不在。

华为云泰产品和服务公司总裁侯金龙,在大会上发表了主旨演讲

以下是侯金龙讲话全文

女士们,老师们,朋友们,早上好!欢迎来到深圳参加首届全球数据基础设施论坛。

人类正在进入万物互联的智能时代,数据将成为智能世界的关键生产资料。今天分享的话题是《打造“融合、智能、开放”数据基础设施,携手迈入智能时代》。

构建万物互联的智能世界

华为公司的愿景和使命是:“将数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界”。在智能世界中,计算能力成为新的生产力,数据成为新的生产手段,而“5G、AI、云\"成为新的生产工具,这将使成千上万的企业进入智能时代。

两个月前,华为在全联网大会上宣布了“一个云,两翼双引擎”的鲲鹏计算产业布局。基于“鲲鹏Rising”双引擎,推出全面计算战略,为全球提供最强计算能力。

“一个云\"指的是云, 华为,这是生态伙伴发展的黑土地。“两翼”指的是智能计算和智能数据。作为鲲鹏产业的关键一翼,华为将围绕数据构建端到端能力,包括存储、计算和使用能力,并通过5G 云AI能力构建“融合、智能、开放”的数据基础设施,释放数据价值,让智能无所不能!

智能世界,从数据管理到数据运营

首先,数据将推动客户体验。当你打开一个应用,你会收到你感兴趣的内容。精准推送的背后,其实是数据在推动。比如在Aauto faster中,每天生成1.2亿个内容标签,实时匹配用户画像,数据操作实现精准内容推送。

其次,在商业活动中,数据驱动企业的生产决策。以大港油田为例,经过50年的持续开采,面临着资源枯竭和产量下降的挑战。2019年以来,大港油田采用华为大数据和AI技术,利用测井曲线和经验模型生成了各井的孔隙度和渗透率,发现了更多新的油气藏。通过数据运算,为500万吨的长期稳定生产提供决策支持。

最后,我介绍了数据驱动的企业流程简化。华为每年有近300万次商务旅行。过去,出差涉及考勤、机票、酒店,包括报销等十几个申请流程。现在,真正实现“说走就走”只需要一个过程。这是每天45万次后台数据关联碰撞的结果。数据运营,实现“员工多数据少跑腿”。

在智能世界中,需求和资源之间存在巨大差距

随着5G、AI和云,的普及,数据量正以惊人的速度增长:从1080p到4K和8K,视频数据量将增长40倍,从4K到4KVR将增长6倍以上;未来,每辆自动驾驶汽车每天将产生高达64TB的数据;深圳,一个城市有200多万个摄像头,每天会产生80pB的数据,平均保存30天。大家都希望能保存更久;大量的数据过去只能存储几天,现在需要存储几个月甚至永久。

根据预测,全球数据量将从2018年的33ZB快速增长到2025年的180ZB。但是,保存的生成数据不到2%,应用的保存数据不到10%。

这些海量数据增长的背后是对海量存储和计算资源的需求。数据增长是无限的,但存储资源是有限的。

在数据的整个生命周期中,每比特的价值最大,每比特的成本最好

我们希望对数据的采集、存储、计算、管理和使用实施端到端的集成和优化,让数据在整个生命周期中得到更好的利用,以最大的每比特数据价值和最好的每比特数据成本!

创建“融合、智能和开放”的数据基础架构

为了实现这一追求,华为构建了融合、智能、开放的数据基础设施,使数据系统从孤立走向融合,从复杂走向智能,从封闭走向开放:

通过“打破数据处理和数据存储的界限”,我们可以高效地共享和分析数据,降低成本,提高效率。

通过“AI存储云\",”可以实现数据全生命周期的智能管理和智能运营,让存储更快更有利用价值。

通过“数据虚拟化引擎”,统一SQL语法,像使用数据库一样使用大数据。

融合:使用极简主义

数据应用的核心包括存储和分析。烟囱IT业务系统带来两个问题:存储时会产生多个冗余副本,数据无法流动,存储成本高;分析会导致大量数据的重新定位,分析效率低。

通过10多年的技术积累和创新,华为在存储、数据库和大数据技术方面取得了一系列突破。通过突破四面墙,每一点数据都有最大的价值和最好的成本。

打破存储的内部系统墙:通过一套架构实现生产、分析、备份、归档的统一管理,一条数据在各个系统中顺畅流动,副本和TCO降低30%以上。

打破数据库与存储之间的链接墙:通过操作者下推实现近数据计算,减少存储层与计算层之间的数据交换,数据访问和处理性能提升2倍。

打破大数据和存储配置的围墙:通过存储和计算分离实现资源的灵活分配,计算不足时扩展计算,存储不足时扩展存储。弹性电子商务和数据缩减技术减少了冗余,总体拥有成本降低了30%以上。

打破数据库与大数据的协同墙:通过协同分析实现零数据重定位,数据库与大数据共享一个数据,分析效率提升100%。

智能:体验极致

过去设备配置和运维主要由人来完成,运维人员的经验和能力决定了管理效率。华为基于AI芯片、存储和华为云的三层架构,通过云的培训和云,的推理,可以越来越快地使用系统。

依托上升处理器的AI能力,自动学习识别I/O流,提升Cache预取命中率,系统整体性能提升20%。

依托鲲鹏处理器的多重核算能力,根据不同的数据类型实时优化数据约简算法,TCO降低25%。

结合华为云自身的大规模运维经验,可以提前14天预测硬盘故障,提前60天预测性能瓶颈,提前365天预测容量不足,其中

数字难求:传统企业数据类型越来越多,结构化、半结构化、非结构化数据并存,缺乏统一的数据目录和全局数据视图。从众多异构数据源中寻找特定数据就像大海捞针。

数据获取难:典型的分析业务通常依赖跨区域、跨平台的数据协同,需要从多个业务系统中获取数据,需要经过多个部门之间的协调验证才能获取。

大量资源难以使用:多业务分析需要多引擎协作,依赖多种数据访问技术,需要开发人员掌握多种开发工具和语言,导致开发门槛较高,开发周期较长。

为了屏蔽数据类型差异、地理差异和语法差异,使数据管理简单易用,华为推出了“河流地图引擎”。

河图引擎,从“大数据”到“大数据库”

我们将数据虚拟化引擎命名为“River Map”,意思是屏蔽数据基础设施的复杂性,允许开发人员像使用数据库一样使用大数据,重用现有的生态、工具和技能,将开发效率提高2到10倍。“大禹拿到河图才看到清明。”相传,大禹通过河图掌握了复杂的河山地形,成功完成了治水大业。

河流地图引擎是为了让数据管理简单、易用,更方便挖掘数据价值。它有四个核心能力:

a目录:通过元数据的在线感知,构建1000个异地异构数据源的全局虚拟数据视图,打破数据孤岛,使数据全局可见,解决企业中找号难的问题。

一个入口:通过开放连接框架和5000节点的SQL引擎,统一SQL可以访问不同地方的30种异构数据源,由秒级,获取,数据可以全局获取,解决了企业数据检索难的问题。

一条数据:通过CarbonData技术,可以实现一条数据的多场景分析、多应用共享、零数据重定位和全局数据可用性,从而解决企业数据消耗难的问题。

统一安全:通过细粒度的动态授权和敏感数据自动感知技术,实现源集中文对异地异构数据的安全配置和控制,数据全局可控,数据授权时间从几天到几秒,解决了企业数据安全和合规问题。

开源河流地图引擎HetuEngine

为了更好地发展数据产业,今天我宣布开源河图引擎,其开源版名为openHetu,将于2020年6月推出。我们将开源内核,开发者可以基于开源代码进行定制,包括数据源扩展、SQL执行策略等。从而实现快速应用对接,提高开发效率。

位于华为,的CloudAI产品和服务总裁侯金龙,宣布了开源数据虚拟化引擎HetuEngine

平台生态,携手进入智能时代

华为始终践行“平台生态”战略,通过开放硬件、开放软件、赋能合作伙伴,在鲲鹏构建开放繁荣的计算产业生态,共同进入智能时代。

谢谢大家!