ACE-Step 1.5 现已在 ComfyUI 中获得首日支持

我们很高兴地宣布,ACE-Step 1.5 现已在 ComfyUI 中获得首日支持!这款开源音乐生成模型更新将商业级音质带到你的本地设备上。现在在消费级硬件上,生成完整歌曲仅需不到10秒。

模型亮点

ACE-Step 1.5 采用创新混合架构,从根本上改变了AI生成音乐的方式。其核心是一个全能语言模型,可将简单的用户指令转化为完整的歌曲蓝图,支持从短片段循环到10分钟长曲的各类创作需求。

  • 商业级音质表现:在标准评估指标中,ACE-Step 1.5 的音质超越多数商业音乐模型,音乐连贯性评分达4.72。

  • 极速生成效率:在RTX 5090显卡上,生成一首4分钟完整歌曲仅需约1秒;即使是RTX 3090,也能控制在10秒以内。

  • 适配消费级硬件:仅需不到4GB显存即可运行。

  • 支持50+种语言:严格遵循50多种语言的指令,其中英语、中文、日语、韩语、西班牙语、德语、法语、葡萄牙语、意大利语及俄语的支持效果尤为出色。

  • 思维链规划模型通过思维链推理整合元数据、歌词与描述信息,引导扩散生成过程,最终产出连贯性更强的长篇音乐作品。

在 Comfy Cloud 中体验 ACE-Step 1.5: https://links.comfy.org/4rry2NH

LoRA微调功能

ACE-Step 1.5 支持通过 LoRA 训练实现轻量化个性化。只需少量歌曲(甚至几十首),就能训练出符合特定风格的LoRA 模型。

创作者可利用自有音乐,通过LoRA微调打造专属风格 —— 模型会学习你的音乐特点,捕捉独特音色。更重要的是,由于全程在本地运行,你完全拥有该 LoRA 的所有权,无需担心数据泄露问题。

技术架构

ACE-Step 1.5 融入多项架构创新,具体如下:

  • 混合LM+DiT架构:由语言模型(LM)负责歌曲结构规划,扩散 Transformer(DiT)则专门处理音频合成。

  • 分布匹配蒸馏技术:依托 Z-Image 的 DMD2 技术,成功实现高速生成(在A100显卡上仅需2秒)与优质音质的双重突破。

  • 内在强化学习通过模型内部机制完成对齐,彻底消除外部奖励模型所带来的偏差。

  • 自学习分词器音频分词器在DiT训练过程中同步开展学习,有效缩小生成环节与分词环节之间的差距。

即将支持的功能

ACE-Step 1.5 还有几项实用功能,目前暂未在ComfyUI中支持,但我们相信社区很快就能攻克实现。

音乐重构(Cover)
只需输入任意歌曲,并搭配新的指令与歌词,模型就能以全新风格重新演绎这首曲目。

片段修复(Repaint)
有时生成的曲目90%都很完美,仅剩10%需要调整——片段修复功能就能解决这个问题。你只需选中待优化片段,重新生成该部分,模型会将修复后的片段无缝衔接回去,同时保持其他内容不变。

人声示例

新灵魂乐

Neo-Soul: A warm, organic neo-soul track dripping with live instrumentation and effortless groove. A live drummer plays a loose, hip-hop influenced pocket—soft kick drum with lazy swing, snare hits that sit just behind the beat, and brushed hi-hats that breathe and shuffle with human imperfection.

英国车库舞曲

UK Garage: A skippy, energetic UK garage track built on a classic two-step drum pattern with shuffling hi-hats and a punchy, syncopated kick and snare. A warm, wobbling Reese bass line provides the low-end foundation and chopped, pitched-up female vocal samples create the melodic hooks.

韩国流行乐

 

 

 

K-Pop: A slick, maximalist K-pop track that genre-hops with precision and style. The production shifts seamlessly between sections—a hard-hitting trap-influenced verse with rapid-fire rapping, a softer R&B pre-chorus with breathy vocals and lush harmonies, then an explosive, synth-driven pop chorus with an ear worm hook.

器乐示例

合成器浪潮

Synth-wave: A nostalgic, cinematic ride through neon and chrome. Punchy gated drums with big reverb snare, arpeggiated synth lines running through chorus and delay, warm analog bass, and soaring lead melodies that feel heroic and bittersweet. Driving but emotional, like the credits rolling on a film that never existed.

冥想滚动舞曲

渐进式浩室舞曲

开始使用

  1. 将 ComfyUI 更新至最新版本 0.12.0(桌面版即将支持),或访问 cloud.comfy.org 体验
  2. 进入「模板库(Template Library)→ 音频(Audio)」,选择ACE-Step 1.5工作流
  3. 按提示下载模型(或手动从Hugging Face下载)
  4. 添加风格标签与歌词,即可运行!

工作流下载:https://github.com/Comfy-Org/workflow_templates/blob/main/templates/audio_ace_step_1_5_checkpoint.json

使用提示

  • 风格标签:描述越详细越好!需包含曲风、乐器、情绪、速度与 vocal 风格。示例:摇滚、硬摇滚、另类摇滚、清晰男声、浑厚嗓音、充满活力、电吉他、贝斯、架子鼓、主题曲、120BPM

  • 歌词结构:使用 [verse]、 [chorus]、[bridge]等标签,引导歌曲结构编排

  • 时长建议:初始可尝试90-120秒时长,效果更稳定;若需180秒以上长曲,建议分多批生成

  • 批量生成:将批量大小(batch_size)设为8或16,从中挑选最佳结果——模型生成效果可能存在波动,多生成几份样本能提高优质率

一如既往,享受创作的乐趣

ComfyUI 官方渠道

官方微信公众号:本账号

用户群/节点开发者群:关注本账号获取入群二维码

社区与企业合作请联络:Hello@comfy.org

ComfyUI 其他官方账号

X: @ComfyUI

官网: https://comfy.org/

博客: https://blog.comfy.org/

Youtube:@comfyorg

Bilibili: @ComfyUI官方

微博: @ComfyUI官方

小红书: @ComfyUI

<原文链接:https://mp.weixin.qq.com/s/DW7hUyIC2iEPoylaHs2ttw

© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享
ComfyUI中文的头像-AI Express News
评论 抢沙发

请登录后发表评论

    暂无评论内容