当前位置:

网站首页    专家视点    政协委员张云泉:合理规划算力网建设,确保东数西算健康发展
创建时间:2023-03-06 11:07

政协委员张云泉:合理规划算力网建设,确保东数西算健康发展

算力,作为一种继人力、电力之后的生产力,在数字经济时代中的占比越来越高——大到智慧城市、智慧基建,小到手机通信,还有最近大热的ChatGPT,背后都有算力作为“燃料”支撑。

在长期深耕算力领域的全国政协委员、中国科学院计算技术研究所研究员张云泉看来,之所以有观点认为ChatGPT的核心竞争力是算力,是因为算力的门槛很高,需要顶尖的硬件基础和高昂的成本投入。

ChatGPT的算力需求究竟有多大?它是如何分配算力的,会因人而异吗?目前我国算力中心的建设情况如何?与世界一流水平相比还存在哪些差距?全国两会期间,南都记者就上述问题对张云泉进行了专访。

全国政协委员、中国科学院计算技术研究所研究员张云泉。受访者供图

···

ChatGPT在算力使用上很“狡猾”

南都:有观点认为,最近大热的ChatGPT的核心竞争力是算力,你认同吗?

张云泉:人工智能有大数据、大算法、大算力三大要素,三者不可偏颇,都很重要。这次的ChatGPT除了有上万块GPGPU(通用图形处理器)提供强大算力,还有大模型算法、大数据的支撑,才能产生如此巨大的革命性变化。

为什么大家觉得算力很重要?因为它是一个高门槛。比如,算法对于ChatGPT也很重要,但是算法有人就可以研究,不需要特别多的经费和人力,但算力不同——ChatGPT初始所需的算力就是1万块英伟达A100(一种AI芯片),价格大约是1亿美元,这个成本是一般的组织和机构承担不起的。

而且,ChatGPT是要不断训练的,那么算力成本就会不停增加,这种巨大的对计算设施的要求,使得算力这一角色特别突出:你要训练一个中国版的ChatGPT,首先要掏出1亿美元的硬件设施,还要预备后面的训练费用。算法也许可以聘到顶尖高手,但没有硬件基础和生态,其他都免谈。

南都:能简单科普一下“算力”这一概念吗?

张云泉:从字面来看,算力其实就是一种计算的能力。具体来说,我们可以将其定义为一种软件和硬件相结合的系统,它可以按人的要求对数据进行处理、执行某种数学计算、通过人工智能的计算或算法达到想要的结果,甚至在经过大量的数据训练之后产生智能。这一概念最早来自区块链技术,可以翻译为Computing Power或Computility。

从人类的历史上来看,它其实是一种生产力,也是数字经济时代一个很重要的生产要素。它会慢慢地取代电力、人力等其他生产力,变成一个比重越来越高的生产力来源。

南都:对于像ChatGPT这样的大模型,算力是如何影响其最终效果的?

张云泉:其实,ChatGPT在算力的使用上十分“狡猾”,或者说很“精打细算”,有些用户也已经发现了。刚开始回答问题的时候,ChatGPT会给你一些比较简单,甚至是错误的回答,然后再“试探”你对这一领域是否足够了解。如果这样就能把你应付过去,ChatGPT就相当于完成了回答。所以一个简单的答案所需的算力成本自然就低。

但如果你是专家,你懂得很多,如果它回答得不太精准或错误的话,你指出来说“不对,应该是怎么样”,ChatGPT就会马上调用更多的算力来进行计算,提供更专业更深入的回答,直到让你满意为止。

南都:这是否就像有些人所说的“AI具有了意识”?

张云泉:不是,实际上我觉得就是一种商业策略,为了控制成本。

据说ChatGPT每一次回答都要支付3-4美分的成本,而谷歌搜索每一次成本是1美分——前者是后者的好几倍。所以ChatGPT目前还没有实现盈利,其背后的公司也在支付很多成本,压力很大。

而且ChatGPT在短短两个月就有1亿用户注册,很多用户其实都是很粗浅地来交流一下,所以如果每一次回答都用尽全力的话,成本就太高了。因此,开发者必须采用一些比较聪明的策略来控制每一次问答的算力投入和成本,这样才能保证整个系统顺畅运行。

···

大模型算力背后存在资金门槛和技术差距

南都:ChatGPT的前身是GPT-3。据了解,GPT-3模型所需的算力是3640PFlops-day,这是什么水平?

张云泉:这属于一个非常恐怖的算力需求。这个数字的意思是以每秒执行364亿亿次运算的速度计算一天,也是当前世界上超级计算机研制的最高水平。

不过,这种E级机和超级计算机不太一样。人工智能的计算精度往往是32位以下的低精度,科学计算为64位双精度。所以从设计难度来说,同样是E级机,超级计算机的设计难度和建造成本会远远大于人工智能机器。

南都:那用超级计算机去跑这些人工智能大模型岂不是绰绰有余?

张云泉:肯定是可以跑的,1万块GPGPU就可以跑人工智能大模型。但相比人工智能机器,用超级计算机去跑的成本也会更高。比如你要研制一台E级超级计算机,成本可能要接近60亿元人民币,约等于10亿美元,而GPT-3用的是1万块GPGPU,成本接近1亿美元,价格差出了10倍。

南都:所以说这种大模型背后的算力,存在着一个资金上的门槛。

张云泉:是的。所以现在也产生了一个忧虑:大家害怕ChatGPT会导致人工智能的权利集中化,使得普通的国家、组织和个人无法掌握这类核心算法,只能被动地去购买大公司的服务。

其实OpenAI组织最早成立的时候,马斯克的目标是想实现人工智能算法和设备的开源,就是希望每个普通人都能掌握人工智能的算法和它的能力,但是现在看来已经有点背道而驰了——门槛反而提高了。

南都:除了资金上的门槛,是否也有技术层面的差异?

张云泉:技术上绝对是存在差距的。其实这一次OpenAI对ChatGPT后续的改进算法并没有开源,这就说明后面这几步非常关键。这种算法的改进,包括编码、指令、对齐等聊天方面的算法都是有专利的,可能在短期之内不会向外公布。

更让人忧虑的,是去年美国开始在算力上制裁中国,包括限制英伟达高端芯片A100,以及下一代H100芯片的出口,后来还出现了带宽和内存降低了的“阉割”版A100。虽然国内目前也在研发中国版AI芯片,但还没有一家能够完全对标英伟达A100或者H100。所以我建议咱们国家一定要加大在ChatGPT相关研发上的投入,要在芯片、算法上集中人才和力量,争取早日实现突破,打破垄断,弥补差距。

···

已有近30个城市建设智算中心

南都:目前,我国的算力中心主要表现为哪些形态?

张云泉:目前的算力中心大概有四类形态:一是超级计算中心。这种比较传统,主要做科学计算的创新;二是智算中心。这一类现在方兴未艾,主要做人工智能;三是互联网数据中心(IDC)。这一类主要面向电信市场,也包括互联网公司,主要处理手机的连接、通信、短信、微信、互联网用户请求等等,业务数据量特别大,但业务类型比较简单,要求快速反应;四是城市大脑。它来自于智慧城市,目前国家建设了300多家智慧城市,但早期智慧城市并没有具体的规范和标准,对于智慧的定义也不明确,但自从城市大脑提出以后,所有智慧城市的数据都集中在“大脑中心”,随后再通过算力设备进行人工智能计算,产生“城市的智能”。

南都:能否重点介绍超算中心和智算中心的建设情况?

张云泉:我国目前已经建了大约10所国家级超算中心,后来又开始在全国各地建设智算中心。超算中心可以理解为什么都能做、比较通用的高性能计算平台,从64位双精度的科学计算,16位半精度的智能训练到4位整型的智能推理,它都可以支持,各种算法在它上面都能跑。智算中心则是用先进的人工智能算法和芯片进行模型训练和推理,最后助推实现智能产业化、产业智能化、政府治理智能化这几个目标。

当前智算中心发展的速度比超算中心还快,已经有接近30个城市建设了自己的智算中心,专门用来支持人工智能的训练和推理的产业化。智算中心既可以作为政府的招商平台,又可以作为大数据聚集的一个节点,还能打通整个政产学研用产学用的产业链,同时智算中心常常还会采用比较新的绿色计算的技术。

当然,智算中心不能完全取代超算中心,因为它的计算精度是有缺陷的,往往不支持64位的科学计算。但它就是专门用于人工智能各种算法的训练和推理的,所以它的效能更高,速度更快,更利于人工智能产业的快速发展。

南都:算力中心的高能耗是否会对环境造成一些影响?

张云泉:其实这是一个比较纠结的问题。实际上大家一直在批评我们的数据中心和IT设备产生了高额的电力消耗,进而产生了碳排放。但所谓“好马配好鞍”,所以在算力巨大和能力超强的情况下,一定会消耗更大的电力,这是成正比的。所以,只要算力中心的电力用在了有效的创新上,能推动我们的生产力发展,它的消耗就是可以接受的。

事实上,我们现在已经采用了水冷技术或液冷技术,使得算力中心的PUE(评价数据中心能源效率的指标)已经从过去的1.5降到1.05以下了,相对来说已经比较绿色了。

...

在智能计算领域逐步实现国产化

南都:我们关注到,你还在今年的提案中给出了 “东数西算”工程相关的建议。

张云泉:我注意到,经过一年建设,“东数西算”工程出现了一些现象:一是出现了用中国算力网建设取代研发国产尖端超算系统的倾向;二是出现了未经充分论证和原型装置验证,就上马算力网工程的现象;三是各地建设智算中心热情高涨,出现了不顾实际需求,重复建设的现象;四是智算中心建设中出现了过度强调全部国产化现象。

南都:“不顾实际需求,重复建设”的具体表现有哪些

张云泉:比如,已经有近30个城市建设了智算中心,更多城市在规划上马新智算中心,甚至出现了一个城市同时建设多个超算中心和智算中心的现象。

由于需求不足,追求规模效应,运营过程不透明和缺乏监管,出现了智算中心空转甚至停机的现象,无法充分发挥设备生命周期内潜在效益,造成资源和资金浪费。

南都:如何解决上述问题?

张云泉:我提到了四个建议:一是在“十五五”规划中同时资助Z级(1000EFlops)超算和中国算力网的研究。二是在现有大科学装置基础上,围绕“东数西算”重大任务目标增加建设一类算力网工程技术装置。三是成立国家算网管理机构和专家委员会,建设国家级算力调度和交易平台。四是在智算中心建设过程中,依据国产化核心器件成熟度和应用效果,设置合理的国产化核心器件采购比例,逐步实现在智能计算领域国产化替代。既要采用国际上先进成熟的技术支撑数字经济的快速发展,又要通过给国产设备一定采购比例,扶持和拉动国产算力设备的发展,争取早日完成国产化替代。

 


来源:南方都市报