华为云Tokens服务全面接入384超节点:凭“大杂烩”打造先进算力
有鱼爱电影 2025-08-27 20:20 1 浏览 0 评论
快科技8月27日消息,在第四届828 B2B企业节开幕式上,华为云宣布其Tokens服务全面接入CloudMatrix384超节点。
通过xDeepServe架构创新,单芯片最高可实现2400TPS、50msTPOT的超高吞吐、低时延的性能,超过业界水平。
过去18个月,中国AI算力需求呈现指数级增长。数据显示,2024年初中国日均Token的消耗量为1000亿,截至今年6月底,日均Token消耗量已突破30万亿,1年半的时间增长了300多倍,反映了我国人工智能应用规模快速增长,也对算力基础设施的需求提出了更大的挑战。
在以往按卡时计费的基础上,今年3月,华为云正式推出了基于MaaS的Tokens服务。针对不同应用、不同场景的性能和时延要求,还提供了在线版、进线版、离线版乃至尊享版等多种服务规格,为大模型、Agent智能体等AI工具提供了更为灵活、便捷、低成本的先进算力。
而这一次,华为云的Tokens服务正式接入CloudMatrix384,并通过384原生的xDeepServe框架再次实现了吞吐量的突破,从年初的1920TPS提升至2400TPS,TPOT仅为50ms。
大算力的构建不是单点突破,而是一个从硬件到软件、从算子到存储、从推理框架到超节点的全栈创新,充分依托了华为的“大杂烩”能力。
首先,CloudMatrix384超节点以全新的计算架构创新,突破性能瓶颈,构筑稳固澎湃的算力根基;CANN昇腾硬件使能,优化算子与高效通信策略,让云端的算力能够以最高效的方式被调用和组合;EMS弹性内存存储打破AI内存墙,突破性地实现“以存强算”,彻底释放了每一颗芯片的算力;xDeepServe 分布式推理框架则以极致分离架构Transfomerless让超节点释放出更高效算力。
作为CloudMatrix384 超节点的原生服务,xDeepServe以Transformerless 的极致分离架构,把MoE大模型拆成可独立伸缩的 Attention、FFN、Expert三个微模块,相当于在一台CloudMatrix384上把“大模型”拆成“积木”,并分派到不同的NPU上同步处理任务。
之后,再用基于内存语义的微秒级XCCL通信库与FlowServe 自研推理引擎把它们重新拼成一个超高吞吐的LLM服务平台,即Tokens的“超高速流水线”。通过xDeepServe不断调优,最终实现了从非超节点单卡吞吐600tokens/s至超节点单卡吞吐2400tokens/s的提升。
作为硬件加速计算的中间层,CANN包含多个算子库和和XCCL这种高性能通信库等组件,共同支撑AI模型的高效运行。其中,XCCL作为专为超节点上的大语言模型(LLM)服务而量身打造的高性能通信库,能够充分发挥CloudMatrix384扩展后的UB互联架构(UB fabric)的全部潜力,为 Transformerless的全面分离奠定了带宽与时延双重硬底座。
而作为被重构的“去中心”式分布式引擎,FlowServe把CloudMatrix384 切成完全自治的 DP 小组,每个小组自带 Tokenizer、执行器、RTC 缓存与网络栈,完全自给自足,做到千卡并发也不“拥堵”。
目前,xDeepServe已实现MA分离,而下一步,将把Attention、MoE、Decode全部改成自由流动的数据流,并把同样的拼图方法复制到多台超节点,让推理吞吐像铺轨一样线性延伸,最终或将视线吞吐量的更大突破,让每块 NPU 都高效运作,芯片永不排队,推理永不塞车。
目前,华为云MaaS服务已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify、扣子等主流Agent平台。
华为云积累了大量模型性能优化、效果调优的技术和能力,从而实现“源于开源,高于开源”,让更多大模型可以在昇腾云上跑得更快更好。
以文生图大模型来说,在轻微损失画质的情况下,通过Int8量化、旋转位置编码融合算子等方式,在在华为云MaaS平台实现了2倍于业界主流平台的出图速度,最大尺寸支持2K×2K。
而在文生视频大模型上,不仅通过量化方式来提速,还通过通算并行等方式,降低延迟与显存占用,大幅提升视频生成速度,相较于友商实现了3.5倍的性能提升。华为云Tokens服务在性能、模型适配、效果调优方面的基础,也让更多企业能够快速开发和构建AI Agent。
而在应用层,华为云已与超过100家伙伴携手深入行业场景,共建丰富的Agent,在调研分析、内容创作、智慧办公、智能运维等领域解决产业难题,让企业更便捷地拥抱AI创新,加速智能化。
如基于MaaS平台推出的今日人才数智员工解决方案,集成了先进的自然语言处理、机器学习和深度学习技术,能实现与用户的智能交互和任务处理,显著提升服务效率与客户满意度;而北京方寸无忧科技开发的无忧智慧公文解决方案可以提升公文处理效能,实现政企办公智能化转型。
【本文结束】如需转载请务必注明出处:快科技
责任编辑:随心
相关推荐
-
- 美国改变对乌政策,欧洲停止对乌军援,美国单枪匹马还会坚持多久?
-
大家好,今天小编关注到一个比较有意思的话题,就是关于美国改变对乌政策的问题,于是小编就整理了2个相关介绍美国改变对乌政策的解答,让我们一起看看吧。欧洲停止对乌军援,美国单枪匹马还会坚持多久?媒体报道说,欧洲的电费已经上500欧元/兆瓦时。俄...
-
2025-08-28 00:24 有鱼爱电影
- 纽约联储行长称每次政策会议都是可能采取利率行动的实质性会议
-
纽约联邦储备银行行长JohnWilliams表示,美国央行即将召开的政策会议将是一次有可能采取政策行动的会议,暗示可能调整利率,但未透露他将支持何种行动方案。 “从我的角度来看,我绝对认为每...
- 碧桂园服务:回归客户导向 走向合理的盈利空间
-
上证报中国证券网讯(记者张良)8月27日,碧桂园服务发布2025年中期业绩。碧桂园服务执行总裁、首席财务官黄鹏在业绩发布会上表示,资本市场对物管行业的定价目前是低估的,对于公司而言,当下首先是要稳固自...
-
- A股突发!300594,被证监会立案!
-
登录新浪财经APP搜索【信披】查看更多考评等级 炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 又有A股公司被立案。 朗进科技(300594)8月27日晚间公告,公司于8月27日收到中国证监会分别对公...
-
2025-08-27 22:55 有鱼爱电影
- 损保控股拟以35亿美元收购阿斯彭保险集团
-
日本损保控股(SompoHoldings)于周三宣布,将以约35亿美元收购在纽约上市的阿斯彭保险集团(AspenInsuranceHoldings)。这是日本金融机构近期达成的又一宗大额...
- 龙光集团:上半年净亏损19.6亿元
-
龙光集团8月27日公告,上半年收入为人民币34亿元;净亏损为人民币19.6亿元。持续亏损主要由于房地产行业持续低迷,毛利率依然处于低水平;及就存货计提减值拨备。
-
- 游客从40米高空坠落,游客从40米高空坠落死亡
-
大家好,今天小编关注到一个比较有意思的话题,就是关于游客从40米高空坠落的问题,于是小编就整理了2个相关介绍游客从40米高空坠落的解答,让我们一起看看吧。桂林:游客参加40元团遭殴打,涉事导游入黑名单,你怎么看?旅游乱象处处有,不只在桂林...
-
2025-08-27 21:40 有鱼爱电影
- 加拿大鹅盘前飙升16.4%,传大股东已收到收购该公司的要约
-
美股周三盘前,加拿大鹅美国存托凭证(CanadaGoose,GOOS)股价飙升16.4%,此前有消息人士透露,私募股权公司贝恩资本(BainCapital)已收到收购这家冬季服装制造商的私有化...
-
- 欧盟据悉拟于本周提出取消对美国工业产品关税 以满足特朗普要求
-
欧盟将寻求于本周末前加速推进立法程序,取消对美国工业产品的关税。这是美国总统唐纳德·特朗普提出的要求,只有满足这一条件,美国才会降低对欧盟汽车出口的关税。 据知情人士透露,负责处理欧盟贸易事务的欧盟委员会还将对部分海产品和农产品给予...
-
2025-08-27 20:30 有鱼爱电影
-
- 华为云Tokens服务全面接入384超节点:凭“大杂烩”打造先进算力
-
快科技8月27日消息,在第四届828B2B企业节开幕式上,华为云宣布其Tokens服务全面接入CloudMatrix384超节点。通过xDeepServe架构创新,单芯片最高可实现2400TPS、50msTPOT的超高吞吐、低时延的性能...
-
2025-08-27 20:20 有鱼爱电影
-
- 北京非必要不外出,北京人回北京出京最新规定?
-
大家好,今天小编关注到一个比较有意思的话题,就是关于北京非必要不外出的问题,于是小编就整理了3个相关介绍北京非必要不外出的解答,让我们一起看看吧。北京人回北京出京最新规定?1.非必要不出京在京人员近期不要出北京市,若要出京,不能前往新增感染...
-
2025-08-27 18:40 有鱼爱电影
你 发表评论:
欢迎- 一周热门
- 最近发表
- 最新留言