

新智元报谈
裁剪:桃子 好困
【新智元导读】200亿好意思元「招抚」Groq,推理芯片赛谈通宵变天。但在大洋此岸,一家北大系创业公司刚刚交出了我方的流片答卷。
NVIDIA GTC 2026前夜,AI推理赛谈大雨欲来。
国内死磕「超大带宽流式推理」路子的北大系黑马——寒序科技,当天通知完成数千万元融资。
冬眠两年,寒序径直亮出硬货:
首颗样片回片测试全面跑通,单元面积带宽飙至100 GB/s/mm²;
下一代「MRAM+SRAM」混杂架构直指2000 Tokens/s极限。
这场袪除「内存墙」的国产算力解围战,正从纸面跃向流片。
GTC 2026前夜的「路子倒戈」
大模子硬件的下半场,正迎来一场底层路子的剧烈「倒戈」。
下周,NVIDIA GTC 2026行将开幕。
行为大众AI算力的风向标,业内多量掂量:跟着Agent(智能体)与具身智能的大界限落地,算力焦点的天平已透顶向「推理(Inference)」歪斜。
而在此前,业界哄传英伟达已通过约200亿好意思元的惊东谈主估值级别,以期间授权与中枢团队吸纳的花式,实质性绑定了北好意思明星推理芯片公司Groq。巨头为何对一家初创公司掷出天价?

中枢逻辑在于:传统GPU在应付流式大模子推理时,正撞上难以逾越的「内存墙(Memory Wall)」与动态疏通延长。在及时生成的战场上,底本为并行谋略而生的GPU,正显得有些「末大不掉」。
就在英伟达试图在北好意思完成期间阁下、构筑推理算力护城河确当下,新智元独家获悉:国内专注超快流式推理芯片的创业黑马——「寒序科技」当天提神通知完成数千万元融资。本轮投资方为启高成本、赛意产业基金,源合成本担任独家财务护士人。
在冬眠两年后,这家源自北大的硬核团队径直交出了流片答卷,向业界评释注解:在「笃信性流式处理」这条非共鸣的谈路上,中国团队不仅跟得上,况兼打得通。
GPU的「原罪」与推理期间的「阳谋」
客服QQ:88888888依次会寒序科技的期间护城河,必须先拆解为何连英伟达王人要心焦。
当代GPU(如H100/Blackwell)是为并行谋略而生的艺术品。为了兼容通用谋略,它复古复杂的软件生态和多类型算子,里面包含极其复杂的动态疏通、乱序实行、多级Cache层级以及Warp疏通机制。
在「老师阶段(Training)」,这种迷糊量优先的架构通过大界限数据并行,展现了总揽级的实力。
但在「推理阶段(Inference)」,风向变了。
大模子生成Token的经过是串行的、流式的。每生成一个Token,骨子上王人需要实行一次矩阵向量乘(GEMV):
y = Wx
其中W为权重矩阵(Weight Matrix),x为激活向量(Activation Vector)。
这意味着推理阶段并不是「算力受限」问题,而是典型的「带宽受限谋略(Bandwidth-bound Computing)」。在Decode(生成)阶段,GPU雄伟的浮点运算单元(ALU)大部分期间王人在空转,苦苦恭候从显存中搬运权重的请示。这种「高射炮打蚊子」的错配,导致了极大的算力闲置与延长波动。
英伟达的「阳谋」昭然若揭:既然GPU架构在小Batch推理上存在天生颓势,那就通过成本技巧「收编」像Groq这么走LPU(Language Processing Unit)路子的公司,从而在黑盒里面完成对推理架构的补完。
叫板Groq
寒序科技的「极致断舍离」
寒序科技(SpinPU-E Series)走的是一条与GPU天渊之隔、却与Groq核边幅念高度共鸣的谈路:片上存储权重的流式高带宽架构透顶放置硬件疏通,采纳片上存储权重的流式高带宽架构。
参照张量流式处理器(TSP)的底层原则,寒序科技在产物界说上竣事了极致的重构。这种架构在里面被形象地称为「坐蓐线模式」,而非GPU的「计件工场模式」。
1. 算法请示的流式「笃信性」
传统处理器依赖多级缓存和复杂的疏通逻辑来处理不礼貌任务,这在大模子看来是裕如的包袱。寒序通过神经荟萃前向传播算法请示的Decode专用性、笃信性数据流动酌量,竣事了超高迷糊的精准疏通与处理。
这意味着,数据在芯片里面每一纳秒的位置王人是事先笃信的,摒除了任何因动态争抢资源带来的延长抖动。
2. 面向算子的数据通路
寒序将芯片里面空间鉴识为针对Transformer模子优化的特定功能块:片上权重存储、GEMV谋略单元、向量运算单元。这种遐想让权重读取与谋略造成齐全活水线,确凿作念到了「数据到达即谋略」。
3. 带宽即人命线
在大模子推理中,决定迷糊量的不是FLOPS,而是带宽专揽率。公式如下:

寒序科技的中枢竞争力,就在于将这个公式的分子(带宽)推向了物理极限。
100 GB/s/mm²
罕见「厌世之谷」的硬核谋划
对于芯片初创公司而言,从PPT架构图到硅片回片,中间横亘着被称为「厌世之谷」的流片考据期。
知情东谈主士向新智元暴露,寒序科技首颗芯片样片的「回片测试」成果远超预期,买球平台中枢功能与期间逻辑被全面考据。其中最要害的一项硬谋划:其「单元面积带宽」达到了100 GB/s/mm²。
这是一个足以让业界回避的数字。在流式推理架构中,这一谋划险些不错径直映射为推理速率。
对比传统架构:即使是顶级的HBM3e显存决策,其单元面积能提供的灵验读取带宽也受限于显存截止器和物理封装。
对比Groq:寒序在单元面积上提供了更高密度的权重存取智商,这意味着相似的芯片尺寸下,寒序能以更短的期间处理更多的权重参数。
在「得带宽者得寰球」的推理赛谈,这不仅是一个数据,更是一起分水岭。它使得大模子在高迷糊流式输出时,能够确凿满足以前AI Agent对低延长的尖刻条款。
终极杀招
「MRAM+SRAM」混杂架构
Groq诚然快,但它有一个致命的流弊:存不下。
Groq采纳纯SRAM决策,诚然速率极致,但SRAM的密度极低。要运行一个70B界限的模子,频频需要数百张卡集群,其成本和功耗让好多中小企业视为畏途。
寒序科技的贪念不啻于复刻Groq,而是要进化它。
据悉,寒序科技在行将流片的下一代芯片中,开创了「片上MRAM + SRAM」的混杂存储架构。
SRAM():负责最高速的缓存与中间变量谋略,保合手极低延长。
MRAM(磁性当场存储器):这种新式非易失性存储器领有接近SRAM的速率,但密度却远高于SRAM,且功耗极低
这种「北大系」擅长的底层期间和会,让寒序在保合手「笃信性流式架构」上风的同期,大幅普及了单片的模子容量存储密度。其地方性能直指2000 Tokens/s的极限。
这是什么想法?
现在市面上最快的对话模子推理速率频频在30-50 Tokens/s。淌若寒序的2000 Tokens/s决策量产,意味着:
具身智能:机器东谈主不错在毫秒级完成视觉输入到动作请示的推理闭环。
及时同传:翻译将不再有「滞后感」,竣事确凿道理上的同步。
多智能体(小龙虾):复杂的智能体酌量任务不错在瞬息完成屡次自我博弈与修正。
{jz:field.toptypename/}北大基因与国产算力的新变量
辛勤夸耀,寒序科技确立于2023年8月,中枢首创团队源自「北京大学磁学中心」。
这是一个典型的「科学家+工程师」组合。他们在底层新式存储器(MRAM)与存算架构和会领域,领有深厚的学术累积和工程落地训戒。这解释了为什么他们能支配这种极其磨真金不怕火硬件底层截止逻辑的异构遐想。
有接近本轮融资的投资东谈主对新智元示意:「咱们看好寒序,是因为他们莫得在GPU的老家图上寻找新大陆,而是径直重构了推理期间的『底层请示集』。」
寒序采纳在GTC 2026前夜开释融资与期间领悟信息,领悟有着更深层的考量。在算力霸权日益蚁合的今天,国内需要一种不依赖国外高端HBM供应、能够通过架构改进竣事性能弯谈超车的决策。
算力霸权的终端之战
回看GTC的历史,每一代架构王人在界说一个期间:
2017年,Volta GPU标记着老师期间的全面爆发;
2022年,Hopper H100引入Transformer Engine,定鼎LLM基石;
2026年,这场对于「推理」的干戈,将决定AI能否确凿走进百行万企。
英伟达诚然刚劲,但莫得任何一个王朝能通过一种架构总揽通盘场景。在大模子从「博学」走向「行为(Agentic AI)」的经过中,对速率、能效比和及时性的条款,正在为像寒序科技这么的垂直改进者留出巨大的窗口。
寒序科技的这笔融资,仅仅一个开动。跟着Agent系统、多模态模子和具身智能的爆发,AI不再仅仅单轮对话,而是需要合手续的酌量与环境响应。
推理,才是AGI的「临了一公里」。
寒序科技如故在这一硬核战场上落下了要害的一子。
下周的圣何塞,老黄粗略会拿出更强的Blackwell变体,但在大洋此岸,国产算力的黑马们,正在用全新的架构逻辑,截击巨头的阳谋。
您以为在推理芯片赛谈,国内企业通过「非通用架构」能否竣事对NVIDIA的解围?宽贷在指摘区留住您的洞见。
对于寒序科技:确立于2023年,发奋于于开垦超大带宽、笃信性流式大模子推理芯片,现在已完成四轮融资。其中枢期间旅途旨在惩办大模子推理中的「内存墙」勤勉,为及时AI应用提供颠覆性基础依次。