9月19日,青云科技发布针对AI算力全新推出的全栈产品与服务,正式推出AI算力调度平台与AI算力云服务。青云科技总裁林源在发布会和采访中阐述了AI将给应用和算力带来的变化,他认为“AI领域一定会出现巨头,但不是一家独立的公司,而是一个小的生态。”
AI驱动应用与算力变革智算中心迎挑战
自2022年底ChatGPT横空出世至今,国际与国内科技公司纷纷展开竞逐,以大模型为代表的AIGC在全球引发了新一波AI浪潮。
每一次科技创新都给生产生活方式带来变革,正如移动互联网开启万物互联,云计算让企业IT迁徙上云。得益于AI高效的生产力与简单的交互方式,青云科技总裁林源认为,新一波AI浪潮在带来生产力变革的同时,还将带来商业模式、应用门槛、底层架构等众多变革,产生大量新市场机会。
他表示,相较于过去十年,AI驱动应用呈现四大变化:首先,移动互联网、数字化的服务应用场景,转变为所有应用都要拥抱AI或被AI改造,企业数智化取代数字化;第二,从以CPU为核心变为以GPU为核心驱动应用的创新,“未来的时代一定是一个以GPU为核心的时代”;第三,由于AI训练成本极高,未来AI应用由延迟敏感型转变为以成本敏感型为主,对应的算力将从延迟低的东部沿海,向价格更便宜的西部地区发展,未来算力分布更加分散;第四,支撑的应用类型变化,由传统应用和云原生应用,转变为云原生应用+AI应用,客户业务更复杂,业态更丰富,对技术和平台的挑战越来越多。
过去半年中,随着大模型产品的爆发,AI带来的变革已经逐渐凸显,其中作为AI应用承载的算力格局变化尤为明显。
中国信通院发布的《中国综合算力指数(2023年)》显示,截至2023年6月底,我国算力总规模达到197EFLOPS,其中智能算力规模占整体算力规模的比例提高到25.4%,智能算力规模同比增长达45%,比算力规模整体增速高15个百分点。
AI热潮下,众多智算中心项目如雨后春笋般落地开工,国家信息中心与相关部门联合发布的《智能计算中心创新发展指南》显示,目前全国有超过30个城市正在建设或提出建设智算中心。
在建设如火如荼的同时,智算中心也存在隐忧。林源指出,当前智算中心面临多方面挑战。
对于智算中心的主要建设者地方政府、国资央企和地方AI集成商来说,首要挑战是成本和技术。智算中心投资巨大,一台最新的NVIDIA的服务器就要两百万,未来能否收回成本以及盈利,取决于运营效率与平台能力,前者降低成本,后者决定能卖给多少客户。而相比于投资与建设,智算中心的运营更专业复杂,目前各中心运营能力参差不齐,难以应对。
他直言:“行业内大家对于‘智算中心要怎么建?建成什么样?未来要支撑什么业务?’并没有想的很透彻。”因此造成了有智算功能的某计算中心建成后,由于只支持特定GPU,所以缺乏客户,运营不起来的情况。
应需而生 实践落地 青云AI算力调度平台发布
新一波AI热潮下,智能算力规模将迎来更加快速的增长,智算中心如何设计规划,实现兼顾AI应用、云原生应用与传统应用需求,支持异构CPU/GPU,高效运营达到盈利?
青云的答案是青云AI算力调度平台。
青云科技产品经理苗慧表示,青云AI算力调度平台是包括智算中心在内的算力中心建设的新模式,让算力中心像管理本地资源一样管理AI基础设施,实现多元算力统一调度、智能化算力管理,支持大模型训练场景,提供多种AIGC模型的一站式交付平台,支撑行业应用计算、高性能计算、AI计算等多种应用模式。
青云AI算力调度平台具备九大关键能力:多区多业务资源整合、混合组网、容器推理服务平台、分布式调度与管理、算法开发支持、模型仓库(MaaS)、AI训练平台、灵活调度、高速并行存储。
相较于市面上其他算力调度产品,苗慧表示,青云AI算力调度平台在资源灵活调度方面更具优势。
原因在于,青云针对大规模计算集群研发了更优化的调度算法,所有节点、服务器和存储设备都有路径标签,通过算法计算最短链路,尽可能调度同一个交换机内的两个节点,减少数据的传输损耗。此外,青云在应用环境上使用K8s和Slurm两种调度平台同时为客户服务,可以实现提交分布式计算任务时,相关卡、CPU、进程等调度信息都能立刻获取到,在颗粒度和运维传统机器等方面也有更多优化。多措并举,实现更好的算力调度,更好的资源利用。
“青云AI算力调度平台的服务对象是现在和未来投入智算中心建设的企业,算力中心现在的投资者和未来的运营者。”
对算力中心来说,青云AI算力调度平台使用效果如何,实践案例最有说服力。
据林源介绍,青云AI算力调度平台正式发布前,已经在国家超级计算济南中心(以下简称“济南超算”)应用,取得了良好效果。
济南超算拥有超1000P算力,300P存储,是一个多元异构算力中心,包括HPC、智算和以CPU为主的云计算,既有NVIDIA GPU,也考虑到国产化兼容,拥有一部分国产GPU。自3年前起,济南超算的整个调度平台由青云科技独家供应,运营至今,平稳支撑济南超算来自高校的传统科学计算、政务云和企业数字化应用上云、智慧城市、AI等多类客户群体业务,助力济南超算提高算力资源利用,目前已经实现盈利。
用林源的话说,济南超算案例说明“青云AI算力调度平台具备所说的能力,我们干过,而且干成了。”
AI算力云服务构建开放的生态同盟
发布会上,青云还正式发布了青云AI算力云服务,介绍了青云AI生态合作伙伴体系。
林源表示,“青云AI算力云服务是以青云为主,对外运营的一个AI算力服务”。独特之处在于,该服务不是云厂商的独角戏,而是定位为一个开放的生态同盟,青云与众多合作伙伴一起联营AI算力云。
采用生态方式运营,源于AI市场逻辑的改变。他指出,过去的云计算十年中,服务商可以从底层的数据中心、硬件到软件、PaaS都自建、自投、自营,但自己干的越多,研发费用越高,成本越重。AI时代,做好每一层都需要长时间积累和巨大投入,所需成本远超此前,对于企业来说所有业务自己做难度极大成本太高。
与此同时,对于客户来说,他们希望获得一个完整的解决方案,包括机房、算力、调度平台、模型驱动、模型、Model Service、上层应用等所有。因此,林源认为,在AI领域一定会出现巨头,但不应该是一家独立的公司,而是一个小的生态,聚合起来提供包含每一层的服务,彼此开放,长期共赢。
青云AI算力云服务生态主要围绕:AI 算力基础设施的生态共享、AI 算力大模型的资源整合以及 AI 数据资源的生态整合。在这个生态中,青云只干自己最擅长的——AI算力调度平台。
据发布会上展示,青云AI算力生态体系已初见雏形:AI算力组建生态囊括Intel、NVIDIA、AMD、中科曙光、天数智芯、燧原科技、中科驭数、大禹智芯等国内外企业;AI模型生态包括智谱清言、紫光太初2.0、商汤科技商量等多个大模型;算力服务生态既包括济南超算、清华大学智算中心,也有中国电信这样的算力供应方;最上层已经有金融、交通、制造业、能源、自然资源等行业应用生态。
从对话的ChatGPT到生成照片的妙鸭相机,AI已经在多个领域展现了惊人的生产力与创造力,新一波AI大潮席卷而来,模型迭代迅速,智能算力建设与应用落地加速,企业如何抓住市场新机遇,踏浪向前?
面对AI带来的一系列变革,青云希望通过开放的、成熟的、可运营的AI算力调度平台,通过自营、合营乃至支撑第三方运营的方式,与生态同盟一起贡献“AI Cloud”,共同前行。