北大提出首个复数大模型,2 比特量化,推理仅加法,可手机部署!(复数.加法.量化)

wufei123 发布于 2025-08-27 阅读(5)

首个复数大模型!北大推出 2 比特超低比特量化新方案。

当前,大模型在推理过程中往往面临巨大的存储与计算开销,主要原因在于模型权重普遍采用 FP16 格式存储,占用大量空间。

北京大学研究团队首次提出 iFairy 方案,将模型权重量化至复数集合 {+1, -1, +i, -i}。

 北大提出首个复数大模型,2 比特量化,推理仅加法,可手机部署!

这四个数值恰好可用 2 比特进行编码,相当于将原始存储需求压缩至 1/8。

在推理阶段,复数与 {±1, ±i} 的乘法运算无需实际执行乘法操作,仅通过加减或数据位置交换即可完成,极大降低了计算开销。

不仅如此,研究团队还对整个 Transformer 架构进行了全面“复数化”重构。

实验结果显示,iFairy 模型在语言建模困惑度(PPL)上显著优于全精度(FP16)的 LLaMA 基座模型,降幅高达 10%,在多项下游任务中表现甚至反超原始全精度模型,为 GPT-5 级别大模型在手机等终端设备上的部署提供了可行性。

 北大提出首个复数大模型,2 比特量化,推理仅加法,可手机部署!

目前,该项目的论文、代码、模型权重及实验脚本已全部开源,支持完整复现训练流程。

核心突破:极致压缩与全新量化机制 PhaseQuant

为提升模型性能,业界普遍依赖增加参数规模,导致部署成本居高不下。

同时,庞大的参数量带来计算负担激增。尽管已有如 MXFP4 等量化方案出现,但其核心仍依赖高成本的“乘法”运算,难以从根本上降低推理延迟。

北大团队提出的 iFairy 方案成功打破这一瓶颈。

模型体积压缩至原模型 1/8

在“空间”层面,iFairy 实现了极致压缩。

传统 FP16 权重需 16 比特表示,而 iFairy 仅用 2 比特即可完成权重编码。

这意味着相比标准 FP16 模型,模型体积缩减为原来的 1/8。如此高的压缩率,为大模型在手机、车载设备等边缘场景的部署扫清了存储障碍。

PhaseQuant:实现“无乘法”计算

在“时间”维度,团队提出全新量化算法 PhaseQuant,使 iFairy 实现“无乘法”推理。

PhaseQuant 算法详解

该成果的核心在于 PhaseQuant 算法。不同于传统将权重映射到实数域的方法,PhaseQuant 基于参数的相位信息,将其投影到复平面上的四个单位根 {+1, -1, +i, -i}。

 北大提出首个复数大模型,2 比特量化,推理仅加法,可手机部署!

△PhaseQuant 量化算法示意图

这一设计带来多重优势:

信息密度:使用 {+1, -1, +i, -i} 四个值,充分利用了 2-bit 的全部编码能力,信息熵从传统三值量化(如 BitNet 的 log3≈1.58-bit)提升至满格的 log4=2-bit。

对称性:四个点在复平面中关于原点对称,有助于保持模型训练稳定性。

稀疏性:每个量化后的复数权重,其实部或虚部必有一个为零,在高维空间中自然保留稀疏结构,利于高效计算。

“无乘法”运算机制

标准复数乘法 (a+ib)(c+id) 需要 4 次实数乘法和 2 次加法,计算开销较大。

但在 iFairy 模型中,当激活值与 {±1, ±i} 类型的权重相乘时,乘法操作被完全规避。

 北大提出首个复数大模型,2 比特量化,推理仅加法,可手机部署!

△超低比特复数运算规则

模型中最耗时的矩阵乘法(GEMM)被彻底重构。

原本昂贵的浮点乘法被替换为成本极低的加法、减法和数据重排(shuffle)操作,从根本上消除了计算瓶颈,为推理速度的飞跃提供了基础。

架构创新:全复数化的 Transformer 设计

研究团队进一步将整个 Transformer 架构“复数化”。

 北大提出首个复数大模型,2 比特量化,推理仅加法,可手机部署!

△Fairy ± i 模型主干结构

复数注意力机制:传统注意力通过 Q 和 K 的点积计算相似度,iFairy 则采用 Hermitian 内积的实部作为得分,既保留全部复数信息,又输出实数结果用于 Softmax。

复数旋转位置编码(RoPE):在复数域中,位置编码的旋转操作变得极为简洁,仅需一次复数乘法即可完成。

性能表现:PPL 下降 10%,下游任务全面超越

实验结果表明,iFairy 不仅避免了超低比特量化常见的性能崩塌,反而实现了反超。

在语言建模能力评估中,困惑度(PPL)越低,代表模型预测能力越强。测试显示,在相同训练数据下(为确保公平,所有对比模型数据一致,详见论文),2-bit 的 iFairy 模型 PPL 显著低于全精度 FP16 模型,最高降幅达 10%。

 北大提出首个复数大模型,2 比特量化,推理仅加法,可手机部署!

△iFairy PPL 评测结果

在下游任务中,iFairy 在多个 zero-shot 场景下的表现也超越了原始 LLaMA 基座模型。

 北大提出首个复数大模型,2 比特量化,推理仅加法,可手机部署!

△iFairy 下游任务评测结果(zero-shot)

对量化后权重分布的分析显示,{±1, ±i} 四个值的使用高度均衡,说明模型真正学会了利用这套复数编码系统。

 北大提出首个复数大模型,2 比特量化,推理仅加法,可手机部署!

△左侧为 k_proj 层参数分布,右侧为 o_proj 层参数分布

这项工作融合了复数神经网络与超低比特量化的思想,通过挖掘“相位”这一被忽视的信息维度,在不增加存储成本的前提下,显著增强了模型表达力与性能。

或许,我们距离在普通手机上运行 GPT-5 级别的大模型,已不再遥远。相关论文、训练代码、模型权重与实验脚本均已开源,涵盖训练、评测与复现全流程,人人皆可上手。

论文链接:https://www.php.cn/link/7f6667b99574125f65ba90c88d3c6cc3

huggingface 链接:
https://www.php.cn/link/7dc75483c8b2ace7420712262f0b6303

github 链接:https://www.php.cn/link/1112f0e7f3d6f7d412b1ba38bc94e6e8

一键三连「点赞」「转发」「小心心」

欢迎在评论区分享你的看法!

— 完 —

点亮星标

科技前沿进展每日见

以上就是北大提出首个复数大模型,2 比特量化,推理仅加法,可手机部署!的详细内容,更多请关注其它相关文章!

标签:  复数 加法 量化 

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。