首个产业级2Bit量化新突破,腾讯混元开源0.3B端侧模型

基于首个产业级2Bit端侧量化方案,腾讯混元今天正式推出一款面向消费硬件场景极小模型HY-1.8B-2Bit等效仅有0.3B内存占用600MB常用一些手机应用小。
通过对此前混元的小尺寸语言模型——HY-1.8B-Instruct进行 2 比特量化感知训练(QAT)产出,这一模型对比原始精度模型等效参数量降低了6倍,并且沿用模型全思考能力同时在真实端侧设备上对比原始精度模型生成速度提升23倍大幅提升使用体验。

随着大语言模型普及,如何模型比如手机、耳机或者智能家居设备应用成为业界难题尤其不少应用对模型的离线部署、私密性都有更高需求这就需要更多能够端侧运行又小模型

端侧部署的展开,本质上是一条在“小而精,快而准”的艰难探索之路我们既需要模型足够聪明,能应对千变万化的真实需求又必须将它约束在极其有限的硬件资源内部署并快速推理这就好像模型进行减脂增肌

图片[1]-首个产业级2Bit量化新突破,腾讯混元开源0.3B端侧模型-AI Express News

此次腾讯混元推出HY-1.8B-2Bit模型可以在边缘设备上无压力部署。也是首个实现2bit产业级量化端侧模型实践

图片
图片
 HY-1.8B原始精度模型
 HY-1.8B-2Bit模型

2bit量化后的模型速度明显更快

比特(Bit)是计算机存储的最小单位,1比特能表示2种状态(0或1),2比特能表示4种状态依此类推一般模型精度2比特4比特8比特32比特表示方法数值越大模型精度更高所占内存越大

虽然2比特量化的精度损失较大,但通过QAT和先进的量化策略,已经能让2比特模型接近全精度模型的性能。模型能力方面,对比4比特PTQ模型版本数学、代码、科学等指标上表现相当,实现了“小而强”的设计目标 

此外HY-1.8B-2Bit模型沿用了Hunyuan-1.8B-Instruct的全思考能力,用户可以灵活使用,为简单的查询提供了简洁的思维,为复杂的任务提供了详细长思维,用户可以根据其应用的复杂性和资源限制灵活地选择这两种模式。

技术量化作为大模型部署上线不可或缺的一环,肩负了降低部署成本与保精度的使命大部分情况下对于int4、int8、fp8的压缩精度要求,采用PTQ量化策略即可实现几乎无损,但随着原始模型大小的缩小、压缩bit数的进一步降低,PTQ带来的量化损失是巨大的。因此,对于原始模型大小只有1.8B,量化bit数只有2bit的HY-1.8B-2Bit,混元团队采用了量化感知训练策略,这显著提升量化后模型的性能

腾讯混元还通过数据优化弹性拉伸量化以及训练策略创新三个方法来最大限度的提升HY-1.8B-2Bit的全科能力。

部署方面,腾讯混元提供了HY-1.8B-2Bit的gguf-int2格式的模型权重与bf16伪量化权重,对比原始精度模型,HY-1.8B-2Bit实际模型大小直降6倍,仅有300MB,能够灵活用于端侧设备上。该模型也已在 Arm 等计算平台上完成适配,可部署于启用 Arm SME2 技术移动设备上,并实现高效运行。

在MacBook M4芯片上,HY-1.8B-2Bit固定了线程数为2测试了不同窗口大小下的首字时延和生成速度,模型选定fp16、Q4、HY-1.8B-2Bit三种gguf格式作为对比首字时延在1024输入内能够保持3~8倍的加速,生成速度上常用窗口下对比原始模型精度,HY-1.8B-2Bit能够实现至少2倍稳定加速。

图片[4]-首个产业级2Bit量化新突破,腾讯混元开源0.3B端侧模型-AI Express News

在天玑9500上同样进行了测试,对比HY-1.8B-Q4格式首字时延能够加速1.5~2倍,生成速度加速约1.5倍。

图片[5]-首个产业级2Bit量化新突破,腾讯混元开源0.3B端侧模型-AI Express News

为在边缘设备上实现大语言模型的灵活部署,HY-1.8B-2Bit采用了极低比特量化技术,在保持与INT4-PTQ方法相当模型性能的同时,实现了在端侧设备上的高效稳定推理。

当前HY-1.8B-2Bit的能力仍受限于监督微调(SFT)的训练流程,以及基础模型本身的性能与抗压能力。针对这一问题混元团队未来将重点转向强化学习与模型蒸馏等技术路径,以期进一步缩小低比特量化模型与全精度模型之间的能力差距,从而为边缘设备上的大语言模型部署开拓更广阔的应用前景。

  • 项目链接:https://github.com/Tencent/AngelSlim

  • 模型地址:

    https://huggingface.co/AngelSlim/HY-1.8B-2Bit

    https://huggingface.co/AngelSlim/HY-1.8B-2Bit-GGUF

  • 技术报告:https://huggingface.co/AngelSlim/HY-1.8B-2Bit/blob/main/AngelSlim_Technical_Report.pdf

 

 

<原文链接:https://mp.weixin.qq.com/s/m3Sr4fRLAvc7C6MV1RR-ew

© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容