上海证券报独家专访商汤蒋钦:大模型引发算力产业持续升温 对新型AI基础设施提出更高要求 世界热消息
AI引领时代,算力驱动未来。临港新片区智算大会6月2日在上海自贸试验区临港新片区启幕。大会前夕,上海证券报独家专访商汤AI大装置产业赋能中心主任蒋钦,对算力市场供需进行了最新研判。
蒋钦说,以GPU为主的人工智能算力近年来呈现快速增长态势,大模型的热潮下,算力服务器目前呈现紧缺状态,这种状态预计将持续到明年。他还认为,大模型的发展还和智能算力底座有着深刻联系,需要在大规模资源汇聚的基础上做好算力、算法、数据三要素的协同实践和联合优化,才能训练出更好的大模型,助力实体经济高质量发展。
上海证券报:ChatGPT出来以后,不少人觉得算力不够了。您对现在市场上的算力需求,有怎样的预判?
(资料图片仅供参考)
蒋钦:非常直观的感受是,由大模型为代表引发的AI新技术热潮,带动整个算力需求呈现出非常旺盛的态势。可以预见,未来一段时间内,对于AI算力的整体需求将会持续增长。当前市场上,算力服务器是持续紧缺的状态,或者说整个配货的周期会非常长。
根据目前我们在行业了解的情况来看,服务器厂商估计要等待3至6个月以上才能大批量拿到最新型号的AI芯片,所以行业整体判断下来,AI芯片短缺的情况至少会持续到明年。
大模型的特点是,除了需要高性能的服务器,还需要通过打造高速训练集群来做支撑。这和以往或上一代人工智能研究的技术有很大区别。之前我们做小模型时,可能只需要单机,或少量几台服务器,就能满足研究要求,就可以做相应开发。
但是,当下,如果我们要做大模型,要打造基模型,整个模型的参数量、训练的数据量会非常庞大,需要堆叠的算力资源也会相应地大得多,研究团队往往需要500甚至1000张以上AI芯片连成的大规模算力集群才能有效开展训练任务。它除了对AI算力服务器的数量需求增加之外,对于AI服务器之间的高速互联也有很高的要求。要想在大集群上稳定的跑大模型训练任务,需要有稳定、高速的网络带宽,它对于集群内部包括服务器与服务器之间、卡与卡之间的通信都有非常高的要求。所以它除了对AI算力服务器的需求很旺盛之外,对于高速的网卡、网络交换机,以及网线等集群配套资源都会产生强需求,这些也是当前市场上比较稀缺的资源。
上海证券报:北上广深等城市近年来纷纷发布支持人工智能发展的新政策。比如近日上海推出的加大民间投资“20条”新政策中就提到,要充分发挥人工智能创新发展专项等引导作用,支持民营企业广泛参与数据、算力等人工智能基础设施建设。您怎么看这个趋势?
蒋钦:一方面,整个算力结构正在发生明显变化。
我们所谓的算力,其实并不是单一概念,它包括通用算力,就是以CPU芯片为主的算力;还包括超算,就是各种超算中心提供的高性能算力,主要服务于科学计算;还有目前非常热门的智能算力,即以GPU为典型代表的,以AI芯片为主的服务于人工智能训练和推理相关需求的计算能力。
其中,以AI芯片为主的人工智能算力近年来呈现快速增长态势。中国信通院统计显示,2016年,整个算力结构中,国内人工智能算力比例只占3%左右。到2022年,整个人工智能算力比重已超过50%。
我认为,人工智能算力作为当前最具活力和创新力的一种新型生产力,它已经成为整个算力产业发展的重要方向。人工智能发展和多元化应用需求催生了算力的迭代升级,从算力结构来看,人工智能算力正处于风口。
虽然纯CPU算力也能用来进行部分人工智能计算,但效率非常低、能耗非常高,我们不可能用这样的算力形式去支撑人工智能产业的发展。所以,搭载以AI芯片为主的新型算力基础设施是未来发展的重要趋势和热潮,政策上也会对这块有重点倾斜和支持。
所以,我们看到,北上广深在发布新的关于人工智能产业支持政策时,一大重点内容就是支持新型算力基础设施建设,支持智能化算力的发展。因为,在人工智能的产业浪潮下,在大模型的时代趋势下,人工智能算力会成为一种核心资源。只有大规模发展智能算力,才能支撑好、服务好我们未来整个的智能时代。
另一方面,头部企业在其中发挥了重要作用。
我们看到大模型出来之后对智能算力的需求达到了一个井喷状态,但实际上,早在2020年开始,包括阿里、腾讯等互联网大厂,华为、曙光等硬件服务器厂商,以及以商汤为代表的人工智能企业,随着人工智能应用需求的持续增长,都已经开始在重点布局人工智能基础设施。
目前,全国各地一线城市、省会城市等,都依托头部企业在自主创新、技术迭代、产业生态等方面的优势,重点布局建设人工智能算力中心。
其中,位于临港新片区的商汤人工智能计算中心,就是目前全亚洲规模最大的人工智能计算中心之一,可以说是一个典型的代表。
上海证券报:您认为商汤在临港新片区的人工智能基础设施现在处于什么样的水平?接下来商汤会如何依托临港的政策和产业优势,实现更高质量发展?
蒋钦:第一,临港这个项目是商汤从2020年开始投资建设的,然后在去年年初正式点亮试运营。截至今天,整个算力规模已经达到了5000P flops的算力体量,超过了当时设计的算力规模水平。作为亚洲已投入使用的、最大规模的单节点智能计算中心,这里边除了算力规模体量很大之外,与之相配套的人工智能模型开发工具,针对大模型的训练、推理、数据优化服务等等,都具备一整套全链路的产品与服务能力支撑,可以高效率、低成本、规模化的支撑和服务好目前以大模型为代表的整个人工智能产业的高速发展,这是我们项目的特点和优势。
第二,围绕临港来说的话,一方面我们要进一步去夯实算力底座本身,在进一步扩大算力规模的基础上,在算力软件平台相关技术领域,持续进行技术攻关,包括对于集群架构、集群网络、存储性能、能源管理等多方面的优化,对于大模型训练与推理的定向支持等等,在各个方面去做相应的技术迭代更新,去支撑更大规模的算力集群的落地,助力临港打造智能算力的新高地。
另一方面,临港本身具有非常强大的区域产业优势,集聚了集成电路、人工智能、生物医药、高端装备制造、新能源汽车等核心优势产业,产业密集度非常高。这些优势产业与智能算力都有着高度关联性。围绕临港区域的优势产业去打造人工智能基础设施行业解决方案与丰富的产业上下游生态,做好产业智能化升级的算力底座,持续参与上海及临港的人工智能产业生态的建设与发展,这也是我们整个项目的一个总体发展规划。
上海证券报:除了商汤“日日新”大模型外,商汤智算中心在大模型领域的用户主要以哪些类型的企业为主,为哪些类型的企业赋能比较多?您对智算产业的发展有何预判?
蒋钦:商汤智算中心除了赋能我们自身的大模型,为“日日新Sense Nova大模型”提供底层算力基座,提供AI工具的支撑之外,也为其他客户提供AI相关的基础能力。目前,临港商汤智算中心通过云服务的方式,已在泛互联网、泛娱乐、自动驾驶、科研院所等多个领域里支持了十余家大模型客户的开发工作,我们为客户提供海量算力资源以及相关AI服务。
面向大模型训练,大规模算力是必要支撑,同时大模型在训练完成后,在推理过程中也需要消耗大量算力来保证大模型所加持应用的高质量服务体验。随着大模型训练和推理需求的叠加,可以预见对于智能算力的需求在未来几年将持续增长。
上海证券报:如何看待当前的大模型浪潮?
蒋钦:我认为,本轮大模型浪潮带来的技术发展、技术演进,是整个人工智能三要素算力、算法、数据进行大规模资源堆叠的结果,可以说是暴力美学的胜利。其实这背后更深刻的原因是基于算力、算法及数据三要素进行协同优化,获得最佳工程实践的结果。大模型的发展是AI基础研发能力与系统工程能力的综合体现。
所以,我们需要处理好人工智能三要素之间的关系,做好联合调优。我们已经发现,并不是简单的算力越大,算法模型结构越复杂,训练数据量越多,大模型训练效果就一定越好。这里面有着非常复杂的系统性难题,需要有相应的行业积累、专家知识沉淀、工程实践经验才能把这个事情做好。
因此,在大模型时代,也需要有能与之相匹配的面向未来的人工智能新型基础设施。这其中,以商汤人工智能计算中心为代表,我们以多年经验积累的AI原生计算平台对外提供平台能力。除了提供大规模算力资源之外,更重要的是,将商汤过往在大模型领域的专家知识沉淀与系统化工程能力进行了很好的整合,其中标准化的部分我们通过软件工具的方式对外提供产品,非标准化的部分我们通过训练、推理优化服务、数据管理服务的方式对外提供服务,从而全栈加速大模型的生产部署,更好地帮助各行各业开发人员快速掌握AI生产能力。这也是我认为,在大模型浪潮下,未来新型算力基础设施一个大的发展方向与趋势。
(文章来源:上海证券报·中国证券网)
关键词: