你的位置:湖北盘铭物贸有限公司 > 服务项目 >
3月10日,字节杰出豆包大模子团队发布针对MoE架构的通讯优化系统COMET,旨在通过细粒度预备-通讯交流工夫优化大模子磨练。COMET已欺诈于万卡级分娩集群,累计概况数百万GPU小时资源。跟着DeepSeek等公司开源繁盛兴起,更多大模子玩家也纷纷跟进,以扩大市集份额、构建生态系统并普及品牌形象。
每经记者 杨昕怡 每经实习剪辑 余婷婷
磨练大模子的本钱之高一直是行业痛点,各路玩家都在想考何如用工夫改进把本钱“打”下来。
3月10日,字节杰出豆包大模子团队发布了针对MoE(混杂民众模子)架构的通讯优化系统COMET,该决策通过细粒度预备-通讯交流工夫,助力大模子磨练优化。据豆包大模子团队先容,COMET已现实欺诈于万卡级分娩集群,累计概况了数百万GPU(图形处理器)小时资源。此外,COMET还可与豆包大模子团队此前发布的新一代寥落模子架构UltraMem纠合,竣事协同优化。
“在万卡集群上作念测试的这个告戒,国内很少能有。”一位头部大模子算法工程师在袭取《逐日经济新闻》记者采访时暗意,“刻下很可能只好字节有这一告戒,何况还分享出来了。固然刻下国内大部分公司都莫得万卡,但跟着行业往后发展,这一工夫和先行告戒是很垂危的。”
不错看到的是,自DeepSeek的开源模子R1在环球范围内“爆红”以来,国内更多大模子玩家以更高的频率进行着工夫开源。对此,北京市社会科学院副接洽员王鹏向《逐日经济新闻》记者暗意,大模子公司遴荐优秀工夫开源,关于扩大市集份额、眩惑谐和伙伴构建生态、普及公司的品牌形象和盛名度等方面均有匡助。
MoE磨练效用普及1.71倍,字节开源COMET工夫
3月1日,DeepSeek在知乎发布了“开源周”后的“彩蛋”,初度公布了模子降本增效的工夫细节以及表面上高达545%的利润率。
DeepSeek通过MoE架构的改进让激活参数比大幅下落,使得同等效果的大模子所需的算力显着下落。“671B的模子,在处理每个问题时,被调用激活的民众模子参数仅约37B,算力需求起码裁汰到原本的约二相称之一。”阿里云无影功绩部总裁张献涛曾在袭取《逐日经济新闻》记者采访时暗意。
而豆包团队审视到,MoE架构的寥落特点导致预备和通讯间的依赖动态且复杂,其散播式磨练仍靠近着跨建立通讯支出雄壮的本钱挑战。
3月10日,豆包大模子团队发布了针对MoE模子的通讯优化系统COMET。据先容,COMET具体通过分享张量依赖贯通机制,将分享张量沿Token维度或隐层维度切割,使通讯与预备的最小单位对皆;同期通过动态负载分拨算法,字据输入规模和硬件环境及时谐和线程块分拨,摒除跨建立通讯带来的恭候延长。
一位豆包大模子的工夫东谈主员告诉《逐日经济新闻》记者,COMET和DeepSeek的DualPipe(双向并行活水线工夫)都用于裁汰MoE的通讯支出,但智商不同。记者了解到,DualPipe通过改进的双向活水线并行工夫,大幅提高模子的磨练效用。
豆包大模子团队称,COMET这一改进在大规模MoE模子上可达到单层1.96倍加快,端到端平均1.71倍效用普及。刻下,COMET已现实欺诈于万卡级分娩集群,助力MoE模子高效磨练,并已累计概况了数百万GPU小时资源。
“用100张卡测试的波动可能很少,因为(显卡)出问题的概率较小,但1万张卡的波动就会大好多。”一位头部大模子算法工程师向《逐日经济新闻》记者暗意,这次字节将这一效用开源,为悉数行业提供了不可多得的万卡集群实验告戒,“国内有1万张卡的企业也就几家。”此外,豆包大模子还暗意,COMET还可与豆包大模子团队此前发布的新一代寥落模子架构UltraMem纠合,竣事协同优化。
《逐日经济新闻》记者2月11日从豆包大模子团队了解到,团队照旧提倡了全新的寥落模子架构UltraMem,该架构灵验束缚了MoE推理时高额的访存问题,推理速率较MoE架构普及2-6倍,推理本钱最高可裁汰83%。
争夺“源神”,为何AI玩家接二连三开源最新工夫?
从在环球范围内引起热议的DeepSeek-R1到开源周的“大放送”,DeepSeek因抓续开源中枢工夫被业内称为“源神”。基于DeepSeek的作为,国内大模子厂商纷纷跟进并加快了开源行为。
2月18日,阶跃星辰初度开源其Step系列基座模子。该模子辨认是刻下环球范围内参数目最大的开源视频生成模子阶跃Step-Video-T2V,以及行业内首款产等第开源语音交互大模子阶跃Step-Audio。MiniMax也在1月15日发布并开源新一代01系列模子,包含基础言语大模子MiniMax-Text-01和视觉多模态大模子MiniMax-VL-01。
除了头部的AI初创公司外,重投大模子的多家互联网巨头也在紧跟开源这股繁盛,其中阿里一直是坚毅的“开源派”。3月3日,开源社区Hugging Face最新榜单披露,开源仅6天的阿里万相大模子已反超DeepSeek-R1,登顶模子热榜、空间榜两大榜单,成为近期环球开源社区最受接待的大模子。3月6日凌晨,阿里再度抛出新的开源效用。阿里云通义千问官微告示发布并开源最新的推理模子QwQ-32B。据先容,这是一款领有320亿参数的模子,其性能可与具备6710亿参数(其中370亿被激活)的DeepSeek-R1失色。
“开源优秀工夫不错得回更多声量,也不错眩惑更多企业、开导者进行二次开导,有助于生态构建。”一位豆包大模子的工夫东谈主员向《逐日经济新闻》记者暗意。
相通,王鹏也觉得,开源步地能促进工夫发展、改进,既可匡助大模子公司扩大其在环球AI市集的影响力和份额,也不错眩惑到更多参与者加入到生态系统的共建中,从而裁汰本人研发本钱。
不外,也有不同的声息,大模子公司遴荐开源步地究竟是为了名如故利?“要是开源的工夫比闭源的更好用,免费的工夫比收费的更好用,那么谁还用闭源和收费的?”工信部信息通讯经济民众委员会委员盘和林在袭取《逐日经济新闻》记者采访时暗意,“现实上所以DeepSeek为代表的开源欺诈,在性能上追平了竞争敌手。这导致好多大模子遴荐了开源的旅途来应答。开源关于企业来说,并不可创造利润,但能带来用户,互联网流量为王,利润次之。”
拖累剪辑:何松琳