MIRIX：让AI真正拥有记忆的多智能体系统-AI Express News

你有没有遇到过这样的情况：和AI助手聊了很久，它却总是忘记你之前说过的话？明明上周告诉过它你最喜欢的餐厅，今天又得重新说一遍？这不是你的错，也不是AI的问题——而是现有AI系统普遍缺乏真正的记忆能力。

简单来说，大多数AI助手都患有"健忘症"。每次对话结束后，它们就像被重置了一样，无法记住你的偏好、你说过的话、甚至你是谁。更糟糕的是，即使有些AI试图添加记忆功能，也只是把所有信息像"倒垃圾一样堆在一个大池子里"——找东西慢，而且容易搞混。

今天要介绍的MIRIX系统，正是为了解决这个痛点而生。它像一位超级整理收纳师，把AI的记忆分门别类地整理成6个专门的"抽屉"，需要什么就能快速找到什么。这项研究来自MIRIX AI团队，代表了AI记忆系统的最新突破。

这篇文章会告诉你：

为什么现在的AI记不住事？
MIRIX如何像人类大脑一样管理记忆？
它实际能做什么？效果有多好？
你如何体验这个"永不遗忘"的AI助手？

第一步：现在的AI有什么毛病？

想象一下，如果你每天醒来都失去了昨天的记忆，生活会变成什么样？AI助手也面临同样的困境。

你可能已经发现，当前市场上的AI助手，比如ChatGPT、Claude，虽然在单次对话中表现出色，但它们有两个致命弱点：

问题1：对话一关就失忆。它们只能记住当前对话窗口中的内容，一旦对话历史超过一定长度（通常几千到几万个词），早期的信息就会被遗忘。这就像一个只有短期记忆、没有长期记忆的人——你刚告诉它的事情，聊着聊着就忘了。

问题2：记忆混乱，找不到东西。即使有一些AI系统尝试添加记忆功能，它们的做法也过于简单粗暴——把所有信息都堆在一个"大箱子"里。需要的时候再去翻找，效率低下且容易出错。就像你把所有文件——工作文档、个人照片、购物清单——都扔进同一个文件夹，想找东西的时候只能靠运气。

问题3：看不懂图片，处理不了大量视觉信息。如果你给AI看了几万张你工作的截图，它要么直接死机，要么处理不过来。

第二步：MIRIX是怎么模仿人脑的？（6个专门的"抽屉"）

MIRIX的核心创新，是借鉴了人类大脑的记忆机制，将AI的记忆划分为六个专门的组件，每个组件负责存储不同类型的信息。

为什么要这样设计？因为人类大脑就是这样工作的。我们记住一个人的名字（语义记忆）、回忆昨天的会议（情节记忆）、学会骑自行车（程序记忆），这些都由大脑的不同区域负责。MIRIX把这套经过亿万年进化验证的系统，搬到了AI身上。

用一个更直观的比喻：想象AI的记忆系统就像一个整理收纳柜，里面有6个专门的"抽屉"，每个抽屉存放不同类型的东西：

抽屉1：核心记忆（便利贴）——最重要的信息，永远在眼前
- 存什么：关于你的基本信息和AI的人设
- 举例："用户叫小明，喜欢吃辣，是个程序员"
抽屉2：情节记忆（日记本）——记录发生过的具体事件和时间
- 存什么：像日记一样的事件记录
- 举例："2025年3月5日上午10点，用户和AI讨论了旅行计划"
抽屉3：语义记忆（百科全书）——存储抽象的知识和概念
- 存什么：一般知识、人际关系、概念定义
- 举例："约翰是小明的朋友，住在上海"或"Python是一种编程语言"
抽屉4：程序记忆（操作手册）——记录如何完成任务的步骤
- 存什么：技能和步骤说明
- 举例："如何申请报销的步骤：1.打开网页，2.填表，3.上传发票"
抽屉5：资源记忆（文件柜）——存放完整的文档和资料
- 存什么：你看过的文章、PDF、图片内容
- 举例：你正在读的一篇很长的论文内容
抽屉6：知识金库（保险箱）——保管密码、地址等敏感信息
- 存什么：极度敏感、不能记错的信息
- 举例：密码、API密钥、具体的电话号码

这种分类有什么好处？

这种设计不是随意的，而是基于认知科学对人类记忆的研究。通过将信息按类型分别存储，MIRIX能够更高效地检索和使用记忆，就像人类大脑一样。

换句话说，当你问"我朋友John住哪里"时，AI会精准地去语义记忆抽屉中查找；当你问"上周会议讨论了什么"时，它会去情节记忆抽屉中搜索。这比在一个混乱的大箱子里翻找要高效得多。

第三步：这么多抽屉，怎么管理？（多智能体团队）

因为有6个抽屉，一个AI管不过来。MIRIX设计了一个专业团队，就像一个公司的部门结构：

总管（Meta Memory Manager）：相当于办公室主任，接收你的请求，判断该去哪个抽屉找答案，然后把任务分配给相应的部门主管。
6个分管经理（Memory Managers）：相当于6个部门主管（情节部、语义部、程序部等），各自管理自己负责的记忆类型，确保信息被正确存储和更新，避免重复和错误。
发言人（Chat Agent）：这是面向你的客服代表，负责与你直接交互。它不需要自己翻遍所有档案，只需要问各部门主管要相关信息，然后整合成回答。

这种设计有什么好处？

发言人不需要掌握所有细节，只需要知道去哪个部门找谁。这大大提高了效率，也避免了信息混乱。就像你打客服电话，客服不需要知道所有技术细节，他只需要把问题转给技术部门，然后把答案转达给你。

上图展示了记忆更新的完整流程。你可以看到，当用户发送信息后，元记忆管理器会协调各个记忆管理器并行工作，同时更新多个记忆组件。这种并行处理大大提高了效率。

当你输入一条信息时，元记忆管理器会先自动搜索现有记忆，然后分析这条信息应该存到哪些记忆组件中。各个记忆管理器并行工作，同时更新各自负责的记忆，避免冗余信息。完成后，它们会向元记忆管理器报告，确认更新完成。

这种设计的好处是：分工明确、效率高、不易出错。就像一个管理良好的图书馆，每个书架都有专门的管理员，而不是所有书随便堆在一起。

除了存储记忆，MIRIX还需要能够快速准确地调用记忆。下图展示了当你向AI提问时，系统如何响应：

如图所示，聊天智能体会首先在所有六个记忆组件中进行粗略搜索，获取高层次的摘要信息。然后，它会分析你的问题，决定需要从哪些具体的记忆组件中进行深度检索，并选择最合适的检索方法。最后，它整合所有检索到的信息，生成最终回答。

第四步：AI会主动想起来吗？（主动检索机制）

现有的记忆系统有个大问题：AI不会主动使用记忆。

比如你之前告诉它"Twitter的CEO是Linda Yaccarino"，几天后当你问"Twitter的CEO是谁"时，AI可能会根据过时的训练数据回答"Elon Musk"。除非你明确说"搜索你的记忆"，否则它不会去查。

用一个比喻来说：

传统AI就像"开卷考试但不会用书"的学生——你必须明确告诉他"翻到第5页"，他才会去看书。但他不会主动意识到"这道题可以在书里找到答案"。

MIRIX就像真正会学习的学生——听到问题就知道"这是关于Twitter的"，会自动翻开记忆本找到正确答案，而不需要你提醒他"去查记忆"。

MIRIX是怎么做到的？它引入了"主动检索"机制。

上图清晰展示了主动检索的两个关键步骤：

第一步：话题生成（Reasoning）——AI会先"思考"一下你的问题涉及什么话题。比如当你问"Twitter的CEO是谁"时，它会先在脑中生成"Twitter CEO"这个检索关键词。

第二步：主动检索（Action）——有了话题后，AI会自动去六个记忆组件中搜索相关信息。检索到的内容会被标记来源（比如标注为 ... 或 ...），直接注入到系统提示词中。

这种"先思考再搜索"的两阶段设计，是MIRIX优于传统RAG系统的关键。传统系统是拿着你的问题原文去搜索，而MIRIX会先提炼出核心话题，搜索更精准。这样，AI在生成回答时就能自然地使用这些记忆，而不需要你额外提醒。

此外，MIRIX支持多种检索方法，AI会根据具体情况自动选择最合适的策略：

概念搜索：理解意思相近的内容。比如你问"那个写哈利波特的作家"，它能找到"J.K. Rowling"，即使你没说出确切的名字。
关键词搜索：查找特定词汇。比如你问"Twitter的CEO"，它会精确匹配"Twitter"和"CEO"这两个词。
精确匹配：一字不差地匹配文本。比如找密码、地址这类不能有任何偏差的信息。

为什么需要这么多种方法？

因为不同的记忆需要不同的查找方式。找人名、概念用"概念搜索"（灵活但可能模糊），找具体事件用"关键词搜索"（精准但不死板），找密码用"精确匹配"（一个字母都不能错）。

这种混合策略，让MIRIX既不会因为太死板而找不到信息，也不会因为太灵活而产生幻觉（编造不存在的内容）。

第五步：它怎么通过"看"来记忆？（实际应用）

MIRIX团队不仅发表了论文，还开发了一个实际可用的应用程序。这个应用最酷的功能是：它可以监控你的电脑屏幕，自动构建关于你的记忆库。

关于隐私，你需要知道的事：

这个功能完全需要你的明确授权才能启用。系统的工作方式是这样的：

本地存储：提取出的记忆数据库（SQLite）存储在你的本地设备上，你完全控制自己的数据
云端处理：为了实现高效的图像理解，系统会将截图发送到云端AI模型（Gemini API）进行分析
数据流向：截图被上传到云端分析→提取出文本化的记忆→只有这些文本记忆被保存在本地数据库

简单来说：记忆数据库在本地，但图片处理在云端。如果你特别在意隐私，需要考虑这一点。

上图展示了MIRIX应用的聊天界面。你可以看到，界面简洁直观，用户可以随时向AI提问，AI则会基于积累的记忆来回答。

应用是怎么工作的？

截图采集：每1.5秒截取一次屏幕，但会过滤掉重复的画面（相似度超过99%的截图会被跳过）
流式上传：每张截图拍下来后立即上传到云端，而不是等一批都拍完再传
记忆提取：每积累20张有效截图（大约60秒），AI就会分析这些图片，提取有用信息
分类存储：把提取的信息更新到相应的记忆"抽屉"中

整个过程从截图到记忆更新完成，只需要约5秒。

AI会把不同内容存到不同的抽屉：

你在浏览网站学习新知识 → 存入语义记忆
你在跟着教程一步步操作 → 存入程序记忆
你在和朋友聊天 → 存入情节记忆

之后，你可以随时问AI："我最近在做什么项目？""那份文档的标题是什么？"AI都能基于记忆准确回答。

记忆还能以可视化的方式展示，让你直观地看到AI"记住"了什么：

上图展示了语义记忆的树状结构。你可以清楚地看到，这位用户的语义记忆被组织得井井有条：顶层是"社交网络"和"收藏夹"两大类，"收藏夹"下进一步分为"运动"、"宠物"、"音乐"等子类别，每个子类别下还有更详细的信息。

**为什么要用树状结构而不是平铺列表？**因为这样AI可以"由粗到细"地搜索。比如你问"我喜欢什么音乐"，AI会先定位到"收藏夹→音乐"这个分支，然后在这个分支下查找，而不是在所有记忆中线性扫描。这就像在图书馆找书：先去音乐区，再找摇滚架，最后找到具体的专辑——而不是从第一本书开始一本本翻。这种层次化的组织方式，让检索速度快几十倍，准确率也大幅提高。

上图展示了程序记忆的列表视图。每个条目记录了一个具体的操作流程，包括步骤说明和相关细节。当你需要重复某个操作时，AI可以直接调用这些程序记忆，指导你完成任务。

第六步：实测效果怎么样？（性能表现）

理论说得再好，也要用实际数据说话。作者在两个极具挑战性的任务上测试了MIRIX，结果令人印象深刻：

任务一：ScreenshotVQA（能看懂你的电脑屏幕吗？）

这是研究团队专门设计的全新测试，挑战极高：给AI看三位博士生一周到一个月的电脑使用截图——总计5,000到20,000张高分辨率图片，然后问它问题。

举个实际例子：假设你问"我上周二在亚马逊上看了什么礼物？"

面对2万张模糊的截图，传统AI要么崩溃（因为图片太多塞不进去），要么给出错误答案（因为找不到相关图片）
而MIRIX只需要查看它的"日记本"（情节记忆）："周二下午2点：用户在亚马逊浏览乐高积木套装"，然后立即准确回答

为什么这个任务这么难？

信息量巨大（单个用户就有近2万张图片）
大部分是视觉信息，纯文本方法完全无效
问题往往需要综合多张截图的信息才能回答

从上表可以看出实验结果有多惊人：

MIRIX的准确率达到59.5%，这已经是非常不错的成绩，考虑到任务的难度
相比最好的RAG方法（需要保存所有原始图片），MIRIX准确率高出35%，同时AI记忆占用减少了99.9%（从15GB降到仅15MB）
相比长上下文模型（把所有截图缩小后一次性输入），MIRIX的准确率提升了410%，AI记忆占用减少了93.3%

这意味着什么？

MIRIX不仅更准确，而且极其高效。它不需要存储原始截图（RAG方法需要），也不需要把所有图片都塞进模型（长上下文方法），而是智能地提取和组织关键信息。

就像一个优秀的笔记员，不是把所有话都记下来，而是抓住要点、结构化存储。

注意：这里的"存储减少"指的是AI记忆系统本身的占用——MIRIX只需要一个小小的SQLite数据库（15MB）来存储提取出的结构化记忆，而RAG系统需要保留所有原始图片（15GB）才能工作。这就是结构化记忆的威力。

任务二：LOCOMO（能记住长对话吗？）

这是业界广泛使用的长对话记忆测试。数据集包含10段长对话，每段约600轮对话、26,000个词（相当于一本小册子的长度）。任务设定是：先将对话内容注入记忆系统，然后让AI仅凭记忆（不能看原始对话）回答约200个问题。

问题分为四类：

直接查询：直接查找一个事实，如"Caroline的家乡在哪里？"——答案就在记忆里的某一条信息中
关联推理（连线索）：需要综合多条信息，像"侦探连线索"一样。比如"Caroline四年前从哪里搬来的？"——你需要先找到"Caroline四年前从家乡搬来"这条线索，再找到"家乡是瑞典"这条线索，最后把两条线索连起来得出答案
时间推理：涉及时间判断，如"Melanie什么时候计划去露营？"
开放推理：需要推理和想象，如"如果发生XX，会怎样？"

从上表可以看出，MIRIX在所有类型问题上都达到了最先进的性能：

总体准确率85.38%，比最好的现有方法（Zep，79.09%）高出8个百分点，非常接近使用完整上下文的理论上限（87.52%）。

特别值得一提的是关联推理（连线索）：MIRIX的准确率达到83.70%，比其他方法高出24个百分点以上。

为什么差距这么大？因为MIRIX会"提前做侦探工作"。

举个具体例子：对话中可能在不同地方提到"Caroline四年前从家乡搬来"和"Caroline的家乡是瑞典"。

传统系统：分别存储这两条信息。回答"Caroline四年前从哪里搬来"时，需要现场当侦探：第一步找到"从家乡搬来"，第二步再找到"家乡=瑞典"，第三步推理出"从瑞典搬来"。这个"连线索"的过程容易出错。
MIRIX的做法：在存储记忆时就把线索连好，直接整合存储为"Caroline四年前从瑞典搬来"。回答问题时直接调用这条记忆即可，无需现场推理。

这就像人类的记忆整合能力——我们不会把所有碎片信息都单独存储，而是会自动形成连贯的记忆。你记住的不是"朋友说过的话的字幕"，而是"朋友告诉你的事情"本身。

未来展望：记忆即资产

MIRIX团队对未来有更大的愿景。他们认为，在AI时代，人类的记忆将成为最宝贵、最不可替代的资产。

为什么这么说？因为在AI可以生成任何内容的时代，真实的、个性化的、带有情感和经验的记忆，才是最独特、最有价值的数据。每个人的人生经历、工作经验、兴趣爱好，都是独一无二的宝藏。

基于这个理念，他们正在构建一个"智能体记忆市场"（Agent Memory Marketplace），让个人记忆可以被安全地分享、交易和协作构建。想象一下这些可能性：

一位资深程序员的工作流程记忆，可以帮助新手快速学习最佳实践
一位美食家的餐厅记忆，可以成为精准的本地推荐系统
你的个人AI助手可以"订阅"某个领域专家的记忆，获得专业知识

当然，这一切都建立在端到端加密、细粒度隐私控制和去中心化存储的基础上。你的记忆属于你，你可以选择分享哪些部分、保密哪些部分。这不是科幻，而是正在构建的现实。

可穿戴设备的完美伴侣

此外，MIRIX特别适合集成到可穿戴设备中，如AI眼镜（Meta Ray-Ban、XREAL Air）、AI别针（Humane Pin）等。这些设备可以持续收集音频、视觉信息，实时构建记忆。

想象一下这样的场景：

你戴着AI眼镜参加会议，它会自动记录讨论要点到情节记忆，识别出现的人物和关键决策到语义记忆
出门旅行时，它记住你去过的地方、吃过的餐厅、遇到的有趣事物
工作中，它学习你的操作流程，把常用步骤存入程序记忆，下次可以直接指导你或帮你自动完成
所有这些记忆都在你的设备上本地处理，无需担心隐私泄露

这样的AI助手，不再是一个"工具"，而是真正了解你、陪伴你成长的"伙伴"。

总结：一个会记事的AI是什么样的？

读到这里，你应该能理解MIRIX到底做了什么事情了。

简单来说，这是一个超级整理收纳师版的AI记忆系统。它不再把你的话乱堆在一起，而是分类整理成便利贴、日记本、百科全书、操作手册、文件柜和保险箱六个"抽屉"。这样不仅记得牢、找得快，还能通过看你的屏幕截图，真正成为一个懂你习惯的私人助理。

让我们回顾一下核心要点：

6个专门的记忆"抽屉"：每种信息存在合适的地方，查找效率高
专业管理团队：8个AI分工协作，像公司部门一样管理记忆
会主动想起来：AI不需要你提醒"去查记忆"，它会自动检索
性能惊人：准确率提升35%-410%，记忆占用减少93%-99.9%
真实可用的应用：不是实验室理论，现在就能下载体验

MIRIX代表了AI助手的一个重要方向：从"健忘的工具"进化为"有记忆的伙伴"。

如果你对MIRIX感兴趣，可以访问他们的官网 https://mirix.io/^[1] 了解更多信息，或者直接下载应用体验。AI的记忆革命，已经开始了——而你，可以成为第一批拥有"永不遗忘"AI助手的人。

参考资料

论文：MIRIX: Multi-Agent Memory System for LLM-Based Agents
作者：Yu Wang, Xi Chen (MIRIX AI)
官网：https://mirix.io/^[2]
论文地址：https://arxiv.org/abs/2507.07957^[3]

🤔 锐评三则

1. 隐私承诺与云端依赖的根本矛盾

文章强调"记忆数据库在本地"，但实际实现中，每1.5秒截取的高分辨率屏幕截图都必须上传到Google Gemini API进行处理。这不是"隐私保护设计"，而是将最敏感的原始数据（你的屏幕内容）完整暴露给第三方云服务。更关键的是，论文对这种云端处理的安全性、数据保留政策、以及潜在的数据泄露风险只字未提。所谓"本地存储"只是处理后的文本残留，真正的隐私风险发生在上传阶段——而这恰恰是系统架构中不可规避的核心环节。对于声称要处理"密码、API密钥"的系统，这种设计存在根本性的安全隐患。

2. 自建基准测试的有效性存疑

ScreenshotVQA基准测试仅包含3名博士生的数据，问题也由他们自己编写，样本总量仅87个问题。这种极小规模、高度同质化的测试集很难证明系统的真实泛化能力。更值得警惕的是，系统的记忆提取逻辑可能已经在设计阶段就针对"博士生的计算机使用场景"进行了隐式优化——比如学术论文、代码编辑、文献管理等特定模式。论文没有测试普通用户、非技术用户、或不同文化背景用户的使用场景。这就像汽车安全测试只在平坦公路上进行却声称适用于所有路况，严重缺乏说服力。

3. 记忆抽象过程的黑箱与信息损失

论文将存储减少99.9%（从15GB到15MB）作为核心优势，但完全回避了一个关键问题：在这种极端压缩中，丢失了多少关键信息？系统依赖LLM从截图中"提取有用信息"，但没有任何机制验证提取的完整性和准确性。举例来说，如果用户浏览的是包含微妙视觉细节的设计图、复杂的数据可视化、或者多语言混合内容，AI可能完全误读或遗漏关键信息。论文中没有失败案例分析、没有信息保真度评估、也没有用户纠错机制。这种"看起来很高效"的设计本质上是用不可验证的信息丢失换取存储空间，而用户对此毫无感知和控制能力。

以上锐评旨在提供批判性思考视角,帮助读者全面理解论文的局限性

引用链接

[1]https://mirix.io/

[2]https://mirix.io/

[3]https://arxiv.org/abs/2507.07957

原文链接：https://mp.weixin.qq.com/s/zMhOXDmfMOButPl6Yx4ivg

文章版权归作者所有，未经允许请勿转载。

THE END