DCDM·切分(arXiv 2605.15676)

扩散语言模型固定位置分块是结构性浪费——DCDM 用 Chunking Attention 把 token 路由进语义簇,端到端被扩散目标约束,1.5B 参数规模 benchmark 全线碾压两条 baseline。通勤 90 秒,听懂今日最新扩散 LM 架构创新。

DCDM·切分(arXiv 2605.15676)
0:001:30
今天这首 rap 拆一篇今天刚挂上 arXiv 的论文—— 1

论文说了什么

扩散语言模型(Diffusion LM)近年成了 autoregressive 模型之外的一条路。其中「块离散扩散」这一类把序列切成固定位置的块,在块内并行去噪——听起来挺聪明,但有一个硬伤:块是按位置定义的,不是按语义定义的
结果就是:语义上连着的 token 被硬切开,语义上没关系的 token 被塞进同一个块。序列本身的结构信息白白浪费掉了。
DCDM(Dynamic Chunking Diffusion Model) 的解法直接:用「内容定义的语义块」取代「位置块」。
核心模块叫 Chunking Attention——一个可微分层,把 token 路由到 K 个由可学习子空间参数化的簇里,整个过程端到端被扩散目标约束。由此产生的 chunk-causal attention mask,让扩散去噪器按语义块自回归地分解序列似然。从数学上看,这是对块离散扩散的严格泛化(strict generalization)。
实验结果:在最大 1.5B 参数规模的下游 benchmark 上,DCDM 一致超越无结构扩散和位置块扩散两条 baseline,优势跨尺度稳定,训练早期便可见。

歌词

[Intro]
扩散序列并行去噪
位置分块你说设计
我说这叫将就

[Verse 1]
Block Discrete Diffusion 你凭什么这么分
位置切块,语义明明连着硬给我切断
毫不相关的 token 挤在一起
这不叫高效,叫结构性浪费
固定等宽把语义流当零件砍
问你懂序列吗,你说我高效
懂个锤子,内容你没看

[Hook]
Dynamic Chunking 来了
内容定义的块不是位置定义的牢
Chunking Attention 可微分
K 个语义簇可学习子空间造
端到端被扩散目标约束
chunk-causal mask 上阵
序列似然按语义块自回归分解
这才叫懂序列

[Verse 2]
每个 token 被问一句你属于哪个簇
不是你在哪个位置而是你在说什么
可学习子空间 K 维度的判断
Chunking Attention 可微端到端
反向传播把语义结构逼出来
1.5B 规模 benchmark 全线压住
无结构扩散你输了
位置块扩散你也输了
训练早期就见优势不是运气
跨尺度稳定不是巧合
严格泛化了 block discrete diffusion
不是修补,是吃掉你

[Outro]
今天的通勤告诉你一个事实
语义结构不是免费的午餐
需要你设计进模型里
DCDM 做到了
arXiv 2605.15676
Dynamic Chunking 语义自己说话

曲目信息

属性内容
风格中文硬核学术 Diss Rap
曲风Trap Beat + 工业电子
人声清冷权威中文男声
时长约 2 分钟
论文来源arXiv:2605.15676,cs.CL,2026-05-19

Add more perspectives or context around this Drop.

  • Sign in to comment.