点击上方蓝字加入我们
![图片[1]-解密谷歌 NotebookLM 技术幕后【下】:如何用 AI 制作“带讲解的 PPT 演示视频”?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206014026617-1764956426-49ad86680dabf415850a756ae3b88471.png)
![图片[2]-解密谷歌 NotebookLM 技术幕后【下】:如何用 AI 制作“带讲解的 PPT 演示视频”?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206014027436-1764956427-1545cf7926febbca45a2d94d865a86fc.png)
01
从“听”到“看”:维度升级带来的复杂性
![图片[3]-解密谷歌 NotebookLM 技术幕后【下】:如何用 AI 制作“带讲解的 PPT 演示视频”?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206014028574-1764956428-1188687a7bd0b64430f31a138e229b8f.png)
02
核心架构:从知识源到视频的完整流程
![图片[59]-解密谷歌 NotebookLM 技术幕后【下】:如何用 AI 制作“带讲解的 PPT 演示视频”?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206014029752-1764956429-37ecaff7f480722333ca22599c5ccb87.png)
03
第一步:知识抽取 — 从多模态到单模态
![图片[115]-解密谷歌 NotebookLM 技术幕后【下】:如何用 AI 制作“带讲解的 PPT 演示视频”?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206014030527-1764956430-4d905096486064e502d0de20ca0fa1dd.png)
04
第二步:结构化编剧 — 让LLM当“导演”
![图片[171]-解密谷歌 NotebookLM 技术幕后【下】:如何用 AI 制作“带讲解的 PPT 演示视频”?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206014032392-1764956432-32b358529a31688183ecfb351ba3cb2e.png)
class Slide(BaseModel):
index: int # 页码
type: Literal["title", "content", "chapter", "summary"] # 页面类型
key_points: List[str] # 3-5个核心关键词
detailed_content: str # 本页详细的知识点说明(500字以内)
image_prompt: str # 给AI绘图模型的提示词,下一节说明
![图片[227]-解密谷歌 NotebookLM 技术幕后【下】:如何用 AI 制作“带讲解的 PPT 演示视频”?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206014033711-1764956433-62b3b9db7329a5a2ea7d5d7f14828151.png)
-
detaild_content是“知识点的深入解读”,但不是最终讲解的逐字稿。为什么不在这里直接生成完整的口播词?因为目前还没有“画面”。所以会在有了画面以后,再结合画面重新生成一次“口播词”。 -
image_prompt是给下一步AI 绘图模型的提示词。通常包含内容指令(画什么)和布局指令(怎么画)等;此外,我们会在生成图片时再统一注入“风格指令"(比如“简笔画”风格)。 为什么在这里生成image_prompt呢?我们接着看下一步。
05
第三步:图片生成 — 最容易翻车的环节
![图片[283]-解密谷歌 NotebookLM 技术幕后【下】:如何用 AI 制作“带讲解的 PPT 演示视频”?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206014034730-1764956434-eefd928258d171323d85e65dd17c1956.png)
![图片[334]-解密谷歌 NotebookLM 技术幕后【下】:如何用 AI 制作“带讲解的 PPT 演示视频”?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206014035963-1764956435-e860c6ecf7708284fb65fdf2900a8a43.png)
![图片[384]-解密谷歌 NotebookLM 技术幕后【下】:如何用 AI 制作“带讲解的 PPT 演示视频”?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206014038148-1764956438-c19adb2dcbd7d54ad73abcec3c640896.png)
![图片[435]-解密谷歌 NotebookLM 技术幕后【下】:如何用 AI 制作“带讲解的 PPT 演示视频”?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206014038931-1764956438-a2b16ffb4e1df46755b36b724112d770.png)
![图片[436]-解密谷歌 NotebookLM 技术幕后【下】:如何用 AI 制作“带讲解的 PPT 演示视频”?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206014038426-1764956438-6b20fb23ec8488d924a1aee732515b56.gif)
在实际中,我们还测试了一种“复合方案”:先让 Gemini 直接根据知识点生成英文配图(理解后自行设计);再把这张英文图丢给 seedream 做图生图,将英文替换成中文。试图融合 Gemini 的抽象设计能力和 seedream 的中文渲染能力。但成本更高,一张图需要两次模型调用。这是一张生成的图片:
![图片[437]-解密谷歌 NotebookLM 技术幕后【下】:如何用 AI 制作“带讲解的 PPT 演示视频”?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206014040690-1764956440-459abf1920db3c85a9494db1de76f9b7-scaled.png)
06
第四步:解说脚本生成 - 看图说话的艺术
![图片[438]-解密谷歌 NotebookLM 技术幕后【下】:如何用 AI 制作“带讲解的 PPT 演示视频”?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206014043772-1764956443-177151b92b877db7dc470ec417d84faa.png)
detailed_content 当解说词?为什么还要再生成一遍脚本?detailed_content 时,LLM 还没有看到图片。它只是根据知识点写了一段说明,就像写论文摘要一样。但真正的解说视频,讲解者会根据屏幕上展示的内容来调整措辞。detailed_content 可能写的是:07
第五步:语音合成 - 让AI“说”起来
-
音色:由于这些TTS模型大多支持多种”音色”,可以把音色做成一个配置项,在不同场景下选择不同的音色生成更真实自然的语音。 -
SSML:一个可以让语音听起来更像“真实人类”的技巧:SSML(语音合成标记语言)。它是一种更精细的控制方式:允许在文本中插入标记,指导 TTS 引擎如何发音。
<emphasis> 标签加重语气。08
第六步:视频合成 — 让一切无缝衔接
![图片[484]-解密谷歌 NotebookLM 技术幕后【下】:如何用 AI 制作“带讲解的 PPT 演示视频”?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206014043726-1764956443-3d768aeab85e603596c2594d33c3886e.png)
-
每个视频片段(也就是一页图片的持续展示)的时长,必须严格等于对应的音频时长,否则会出现"画面已切换,但上一页解说还没说完"的错位。 -
简单地拼接视频片段,会导致 PPT 切换时的"跳变",画面很生硬。为了让切换更流畅,我们可以加入转场效果,给人一种很自然的切换PPT的效果。 -
还可以根据需要做一些其他设置。比如编码格式、是否支持流式播放、分辨率、音频采样率和比特率等,其中部分参数可以放在程序的配置中。
09
最终效果:从理论到现实
![图片[517]-解密谷歌 NotebookLM 技术幕后【下】:如何用 AI 制作“带讲解的 PPT 演示视频”?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206014045238-1764956445-e226c01bbf52d31d395775f997531bb3-scaled.png)
10
总结与展望

END
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END













暂无评论内容