北大提出首个复数大模型，2 比特量化，推理仅加法，可手机部署！（复数.加法.量化）

首个复数大模型！北大推出 2 比特超低比特量化新方案。

当前，大模型在推理过程中往往面临巨大的存储与计算开销，主要原因在于模型权重普遍采用 FP16 格式存储，占用大量空间。

北京大学研究团队首次提出 iFairy 方案，将模型权重量化至复数集合 {+1, -1, +i, -i}。

北大提出首个复数大模型，2 比特量化，推理仅加法，可手机部署！

这四个数值恰好可用 2 比特进行编码，相当于将原始存储需求压缩至 1/8。

在推理阶段，复数与 {±1, ±i} 的乘法运算无需实际执行乘法操作，仅通过加减或数据位置交换即可完成，极大降低了计算开销。

不仅如此，研究团队还对整个 Transformer 架构进行了全面“复数化”重构。

实验结果显示，iFairy 模型在语言建模困惑度（PPL）上显著优于全精度（FP16）的 LLaMA 基座模型，降幅高达 10%，在多项下游任务中表现甚至反超原始全精度模型，为 GPT-5 级别大模型在手机等终端设备上的部署提供了可行性。

北大提出首个复数大模型，2 比特量化，推理仅加法，可手机部署！

目前，该项目的论文、代码、模型权重及实验脚本已全部开源，支持完整复现训练流程。

核心突破：极致压缩与全新量化机制 PhaseQuant

为提升模型性能，业界普遍依赖增加参数规模，导致部署成本居高不下。

同时，庞大的参数量带来计算负担激增。尽管已有如 MXFP4 等量化方案出现，但其核心仍依赖高成本的“乘法”运算，难以从根本上降低推理延迟。

北大团队提出的 iFairy 方案成功打破这一瓶颈。

模型体积压缩至原模型 1/8

在“空间”层面，iFairy 实现了极致压缩。

传统 FP16 权重需 16 比特表示，而 iFairy 仅用 2 比特即可完成权重编码。

这意味着相比标准 FP16 模型，模型体积缩减为原来的 1/8。如此高的压缩率，为大模型在手机、车载设备等边缘场景的部署扫清了存储障碍。

PhaseQuant：实现“无乘法”计算

在“时间”维度，团队提出全新量化算法 PhaseQuant，使 iFairy 实现“无乘法”推理。

PhaseQuant 算法详解

该成果的核心在于 PhaseQuant 算法。不同于传统将权重映射到实数域的方法，PhaseQuant 基于参数的相位信息，将其投影到复平面上的四个单位根 {+1, -1, +i, -i}。

北大提出首个复数大模型，2 比特量化，推理仅加法，可手机部署！

△PhaseQuant 量化算法示意图

这一设计带来多重优势：

信息密度：使用 {+1, -1, +i, -i} 四个值，充分利用了 2-bit 的全部编码能力，信息熵从传统三值量化（如 BitNet 的 log3≈1.58-bit）提升至满格的 log4=2-bit。

对称性：四个点在复平面中关于原点对称，有助于保持模型训练稳定性。

稀疏性：每个量化后的复数权重，其实部或虚部必有一个为零，在高维空间中自然保留稀疏结构，利于高效计算。

“无乘法”运算机制

标准复数乘法 (a+ib)(c+id) 需要 4 次实数乘法和 2 次加法，计算开销较大。

但在 iFairy 模型中，当激活值与 {±1, ±i} 类型的权重相乘时，乘法操作被完全规避。

北大提出首个复数大模型，2 比特量化，推理仅加法，可手机部署！

△超低比特复数运算规则

模型中最耗时的矩阵乘法（GEMM）被彻底重构。

原本昂贵的浮点乘法被替换为成本极低的加法、减法和数据重排（shuffle）操作，从根本上消除了计算瓶颈，为推理速度的飞跃提供了基础。

架构创新：全复数化的 Transformer 设计

研究团队进一步将整个 Transformer 架构“复数化”。

北大提出首个复数大模型，2 比特量化，推理仅加法，可手机部署！

△Fairy ± i 模型主干结构

复数注意力机制：传统注意力通过 Q 和 K 的点积计算相似度，iFairy 则采用 Hermitian 内积的实部作为得分，既保留全部复数信息，又输出实数结果用于 Softmax。

复数旋转位置编码（RoPE）：在复数域中，位置编码的旋转操作变得极为简洁，仅需一次复数乘法即可完成。

性能表现：PPL 下降 10%，下游任务全面超越

实验结果表明，iFairy 不仅避免了超低比特量化常见的性能崩塌，反而实现了反超。

在语言建模能力评估中，困惑度（PPL）越低，代表模型预测能力越强。测试显示，在相同训练数据下（为确保公平，所有对比模型数据一致，详见论文），2-bit 的 iFairy 模型 PPL 显著低于全精度 FP16 模型，最高降幅达 10%。

北大提出首个复数大模型，2 比特量化，推理仅加法，可手机部署！

△iFairy PPL 评测结果

在下游任务中，iFairy 在多个 zero-shot 场景下的表现也超越了原始 LLaMA 基座模型。

北大提出首个复数大模型，2 比特量化，推理仅加法，可手机部署！

△iFairy 下游任务评测结果（zero-shot）

对量化后权重分布的分析显示，{±1, ±i} 四个值的使用高度均衡，说明模型真正学会了利用这套复数编码系统。

北大提出首个复数大模型，2 比特量化，推理仅加法，可手机部署！

△左侧为 k_proj 层参数分布，右侧为 o_proj 层参数分布

这项工作融合了复数神经网络与超低比特量化的思想，通过挖掘“相位”这一被忽视的信息维度，在不增加存储成本的前提下，显著增强了模型表达力与性能。

或许，我们距离在普通手机上运行 GPT-5 级别的大模型，已不再遥远。相关论文、训练代码、模型权重与实验脚本均已开源，涵盖训练、评测与复现全流程，人人皆可上手。

论文链接：https://www.php.cn/link/7f6667b99574125f65ba90c88d3c6cc3

huggingface 链接：
https://www.php.cn/link/7dc75483c8b2ace7420712262f0b6303

github 链接：https://www.php.cn/link/1112f0e7f3d6f7d412b1ba38bc94e6e8

一键三连「点赞」「转发」「小心心」

欢迎在评论区分享你的看法！

— 完 —

点亮星标

科技前沿进展每日见

以上就是北大提出首个复数大模型，2 比特量化，推理仅加法，可手机部署！的详细内容，更多请关注其它相关文章！

北大提出首个复数大模型，2 比特量化，推理仅加法，可手机部署！（复数.加法.量化）

最近发表

标签列表

北大提出首个复数大模型，2 比特量化，推理仅加法，可手机部署！（复数.加法.量化）

相关阅读

高频率内存对游戏帧率的提升是否被过度夸大？（夸大.过度.高频率）

如何通过实测判断无线耳机的延迟是否可接受？（实测.延迟.无线耳机）

vivo 发布 Y31 5G 新机：主打 IP69 防护与 6500mAh 大电池（主打.新机.防护）

库克谈 6000 亿美元投资计划：全美 79 家工厂将受益（库克.全美.受益）

固态硬盘的缓存用尽后性能下降幅度究竟有多严重？（有多.固态.缓存）

如何测试网络摄像头的编码效率与画质损失？（画质.摄像头.编码）

最近发表

标签列表