当前位置:

网站首页    专家视点    中国工程院邬贺铨:算力10大思考
创建时间:2022-08-01 11:53

中国工程院邬贺铨:算力10大思考

在2022中国算力大会主论坛上,中国工程院院士邬贺铨详细阐述了对数据中心“数学”与“算术”的思考。他解释到,“数学”指的是研究数据的科学,“算术”是研究算力的技术。

 

在以算为主还是以存为主方面,邬贺铨表示,人工智能驱动算力需求快速增长,基于GPU等构建的人工智能智算中心适于训练数据导出模型,训练出数学模型后,深度神经网络并不需要调度非常多的参数,降低了对算力的需求,基于CPU的通用算力的IDC适用于在已知数学模型下的计算任务。因此,人工智能智算中心主要任务是算,IDC互联网数据中心主要任务是存。

 

在三类算力比例方面,邬贺铨表示,在基础算力、智能算力和超算三个算力里,美国分别占全球35%、15%、30%,而中国分别占27%、26%和20%,美国是基础算力为主,中国智能算力的能力远超美国。中国的超算和智能算力基本以政府为主建设,基础算力以运营商和互联网企业为主。

 

在冷数据与热数据方面,邬贺铨表示,数据从大的方面分为冷数据和热数据,热数据主要指需要实时计算的数据,相比之下冷数据的计算需求非常态化。东西部分别适合处理热和冷数据,东数西算实际是东数西存。

 

在存算分离与存内计算方面,邬贺铨表示,存算分离可采用开放存储体系和磁带存储介质,存储器可同时服务多个服务器,池化存储支持多云,提高利用率,降低成本能耗,可用于对冷数据处理;存内计算适于对热数据处理,例如自动驾驶可以在车内同时完成存与算。

 

在封闭系统与开放系统存储方面,邬贺铨表示,开放系统存储实现存算分离,存储容量为多服务器共享,以池化方式支持多云应用。不同存储架构适应不同任务,可按照任务来软件定义存储。

 

在PUE与IT能效方面,邬贺铨表示,在IDC的IT系统能耗中,服务器约占到50%,存储系统占35%,网络通信设备占15%,大部分电能是用于维持服务器的状态,只有6%~12%用于计算。5G公众号(ID:angmobile)了解到邬院士建议,要减低能耗,对冷数据处理建议用磁带代替磁盘,100PB存储成本10年可下降73%;对热数据用闪存代替磁盘,但目前成本比较高。另外,还有通过数据预处理改进能效,去掉一些无效值、空格和缺失的及果实的数据。

 

在数据可信性与灾备保护方面,邬贺铨表示,灾备是数据中心刚性需求,美国数据保护占存储投资1/3,全球平均是27.4%,而中国仅7.8%,尤其异地备份的比例更低,所以灾备的能力是不足的,所以这点上我们还是要改进,同时,究竟是备份数据还是备份算力,这是值得研究的问题。

 

在存算协同方面,根据华为/罗兰贝格报告,中国与美国相比存算比低一倍,导致中国算力利用率也较低,可以理解为,虽然算力有了,但存储没跟上。而存算比并非固定,例如对于冷数据其计算频度低,存算比应比热数据更高。因此,对冷数据和热数据分别的合理存算比应该是多少值得思考。另外,带宽(吞吐量)和每秒/O操作数(IOPS)是衡量存储性能的两大指标,前者需要聚合更多存储单元的带宽,后者希望减少每次数据存取请求涉及的存储单元数,二者难以兼得。可以从计算任务调度入手,为存储系统提供预判此次任务的IO模式的信息,以便做出针对性的缓存策略和数据一致性策略,甚至将数据调度到合适的存储位置,获得更好的数据存储效能。

 

在算网容量配比方面,2021年全球数据中心流量分布,数据中心内占71.5%、数据中心到用户占比14.5%、数据中心间占比13.6%。主备数据中心间的数据传输要求同步动态更新数据,实时性高,不过每次更新的数据量不大。但对主备间链路可靠性要求高,通常需要端到端双路由。另外,东西部数据中心间传输系统容量双向不对称。从东部定期将由热转冷的数据转移到西部,数据量大,但实时性要求不高,瞬时带宽不必很高。西部数据按需计算后的结果需要回传东部,数据量不大,但实时性可靠性要求高。东西数据中心间链路在数据中心到所在城市段需要双路由。5G公众号(ID:angmobile)了解到邬贺铨院士指出我国需要有更多的调研和经验数据来决定数据中心间及到用户间的传输通道容量优化设计。

 

在谈到东数西算方面,邬贺铨表示,东数西算使算力设施的布局超越了数据中心枢纽的范畴,东部与西部互为冷热数据的配对方面,要有合适的比例。同时,同一数据中心枢纽或集群内部也有很多比例需要优化。

 

“关于数据中心的‘数学’和‘算术’,还有很多需要深入研究的内容,我们要善于从实践中学习创新。”邬贺铨最后表示。