大数据对计算体系带来的挑战以及应对策略
|
我还记得这个箱子,这个箱子里面实际上就是各种武器的配件,他离场的时候,根据对手的武器临时组合成一个克敌制胜的东西。我们就想达到这么一个箱子,这个箱子能不能满足不同应用的需求,就是应用的定制。比如阿里双十一的应用场景,它就涉及到这样的东西,就确实需要这种混合处理,从它的存储、计算、应用。我们希望资源调度优化,进一步上去依托数据多种需求,多模态存储,形成一套引擎,能够高效的支撑多种处理模式,这就是当初设想的一个东西。 这个项目是怎么做的呢?就是大数据系统软件国家工程实验室在做。这个项目里面有北京理工大学、中国人民大学、北京大学、复旦大学、阿里巴巴集团这一些参与者,在实验室的框架之下,我们就共同去做这么一个项目。 项目的目标,是希望研究和开发面向新型的、多处理模型融合架构的一个高时效、可扩展的新一代大数据分析支撑系统和工具平台。我们还是希望站在巨人的肩膀上消化吸收,高时效、可扩展就是它的关键词,希望基于软件定义的新型的自适应融合架构。一套引擎、一套数据、一套资源来支撑、满足不同的处理模型的需求,进一步去支撑大数据分析和智能的应用。 这是更为具体的一些描述,我们要追求高时效、低时延,多计算模型的融合,自适应的优化;在可扩展方面,面向云计算可伸缩的调整,处理平台跨数据中心的扩展,机器学习模型的扩展,还有一些具体的关键技术。 事情能不能做得成,就要靠我们团队的努力。我想跟各位说,由于这种应用需求,我始终觉得中国的IT还存在很大的问题。毕竟,我们很多场合不在应用***线,很多问题都不是我们发现的。 针对这些挑战性的问题,国家重点研发专项里面有一个云计算和大数据。整体的布局,大体上分成四项任务,现在已经连续三年发布指南了,已经做完了三批课题。
我们在云计算平台之上,要进行各种大数据处理,而大数据的类型、存储是迥然不同的,访问模式有图数据、KV的、列的、文档的,各种各样的东西。现在,我们要构成一个处理平台是支持批处理的,也支持流处理的,还可以支持混合处理的,要完成这些任务,多种处理模式混存。混存之后,我们要支持人工智能应用,要支持交互式的数据分析,进一步支持各种应用。 传统的定制问题、系统选型难,不同处理系统融合难,系统调优难,维护难、多系统之间数据传输也导致它的效率是比较低的——这就是我们的大环境面临的问题。 所以我们想做一件事,就是希望通过软件定义的方式,通过大数据处理管理平台,让它的功能实现可编程,可以面向不同的需求进行定制。 大数据和HaDoop不管发展如何,单台计算能力都是有限的。所以我们必须要并行处理,没办法做一台计算机满足所有的处理需求。比如最早出现的HaDoop就是批处理,批处理好处是什么?吞吐率高,适用于海量预存数据的处理。其次是流处理,适用于在线型、产生速度快的时延数据处理。还有一种新的数据类型就是图处理,用巨型的图数据,比如以社交网络为代表的大量都是图数据,亿万个节点,这样大型的社交网络图怎么办。所以现在这些系统很多,都是开源,但是没有看到一个能满足所有要求的一种处理模型。 再看现在存在的问题,比如说Spark,它是一个批处理平台,它是用VP的技术处理流模式,把流式计算用时间片切开,分解成一些小批量,本质上还是批处理,只是每一批小一点。 图处理。图数据***的问题就是并行,它本身量很大,大量的数据是冲突的,而且互相依赖性比较高,通信开销就比较大。核心的一个问题,从数学上,如果能完成一个很好的图分割,可能能够完成这种图的并行处理。大体上最终也是要追求并行处理。 所以可以看到,回顾我们前面谈到的问题,我们会说面临一些挑战。这个挑战从三个维度来说: ***,数据处理方式和数据来源的问题。我们提到了面临数据来源有离线数据、在线、混合处理的需求,方式就出现了批处理、流处理和混合处理。从计算架构角度、系统结构的角度看,我们过去做的传统计算***的问题是计算产生的内存要求,内存要从外存取数据,所以内外交叠浪费很多时间。 所以我们还出现了内存计算,既然这样,就可以搞一个大内存,把所有数据装在内存里面,这是一种方式。 新型硬件管理、***效能的追求方面做很多工作。同时我们也看到从云向边转变,这种云端融合,云边端结合的新型计算也在涌现,还有软件定义对整个世界所形成的影响。我们对数据管理、软件开发运行、数据分析等等都有很多要求,都需要很多新的东西,这与过去是不一样的。 第三,通信。5G能解决的通信问题,所以我们网络通信还需要更好的带宽、移动、泛载的发展。对于带宽的问题,移动、泛载的问题,我们看到整个信息技术体系按照过去的发展套路,实际理论上还有很多值得探讨的空间,在基础器件上也有很多探讨的空间,比如大数据组织、分析等等相关技术理论都有待突破。基础器件,高性能、高时效、高吞吐等极端化的大数据需求,使得我们需要高通量的处理芯片,需要多通道数据化、可视设备等等。
第四,软件开源,硬件开放,正在导致我们产业生态发生一些变化。实际上,颠覆式发展的机遇可能就在这个地方。 (编辑:南昌站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


