你有没有遇到过这样的情况:和AI助手聊了很久,它却总是忘记你之前说过的话?明明上周告诉过它你最喜欢的餐厅,今天又得重新说一遍?这不是你的错,也不是AI的问题——而是现有AI系统普遍缺乏真正的记忆能力。
简单来说,大多数AI助手都患有"健忘症"。每次对话结束后,它们就像被重置了一样,无法记住你的偏好、你说过的话、甚至你是谁。更糟糕的是,即使有些AI试图添加记忆功能,也只是把所有信息像"倒垃圾一样堆在一个大池子里"——找东西慢,而且容易搞混。
今天要介绍的MIRIX系统,正是为了解决这个痛点而生。它像一位超级整理收纳师,把AI的记忆分门别类地整理成6个专门的"抽屉",需要什么就能快速找到什么。这项研究来自MIRIX AI团队,代表了AI记忆系统的最新突破。
这篇文章会告诉你:
-
为什么现在的AI记不住事? -
MIRIX如何像人类大脑一样管理记忆? -
它实际能做什么?效果有多好? -
你如何体验这个"永不遗忘"的AI助手?
第一步:现在的AI有什么毛病?
想象一下,如果你每天醒来都失去了昨天的记忆,生活会变成什么样?AI助手也面临同样的困境。
你可能已经发现,当前市场上的AI助手,比如ChatGPT、Claude,虽然在单次对话中表现出色,但它们有两个致命弱点:
问题1:对话一关就失忆。它们只能记住当前对话窗口中的内容,一旦对话历史超过一定长度(通常几千到几万个词),早期的信息就会被遗忘。这就像一个只有短期记忆、没有长期记忆的人——你刚告诉它的事情,聊着聊着就忘了。
问题2:记忆混乱,找不到东西。即使有一些AI系统尝试添加记忆功能,它们的做法也过于简单粗暴——把所有信息都堆在一个"大箱子"里。需要的时候再去翻找,效率低下且容易出错。就像你把所有文件——工作文档、个人照片、购物清单——都扔进同一个文件夹,想找东西的时候只能靠运气。
问题3:看不懂图片,处理不了大量视觉信息。如果你给AI看了几万张你工作的截图,它要么直接死机,要么处理不过来。
第二步:MIRIX是怎么模仿人脑的?(6个专门的"抽屉")
MIRIX的核心创新,是借鉴了人类大脑的记忆机制,将AI的记忆划分为六个专门的组件,每个组件负责存储不同类型的信息。
为什么要这样设计?因为人类大脑就是这样工作的。我们记住一个人的名字(语义记忆)、回忆昨天的会议(情节记忆)、学会骑自行车(程序记忆),这些都由大脑的不同区域负责。MIRIX把这套经过亿万年进化验证的系统,搬到了AI身上。
用一个更直观的比喻:想象AI的记忆系统就像一个整理收纳柜,里面有6个专门的"抽屉",每个抽屉存放不同类型的东西:
-
抽屉1:核心记忆(便利贴)——最重要的信息,永远在眼前
-
存什么:关于你的基本信息和AI的人设 -
举例:"用户叫小明,喜欢吃辣,是个程序员"
-
-
抽屉2:情节记忆(日记本)——记录发生过的具体事件和时间
-
存什么:像日记一样的事件记录 -
举例:"2025年3月5日上午10点,用户和AI讨论了旅行计划"
-
-
抽屉3:语义记忆(百科全书)——存储抽象的知识和概念
-
存什么:一般知识、人际关系、概念定义 -
举例:"约翰是小明的朋友,住在上海"或"Python是一种编程语言"
-
-
抽屉4:程序记忆(操作手册)——记录如何完成任务的步骤
-
存什么:技能和步骤说明 -
举例:"如何申请报销的步骤:1.打开网页,2.填表,3.上传发票"
-
-
抽屉5:资源记忆(文件柜)——存放完整的文档和资料
-
存什么:你看过的文章、PDF、图片内容 -
举例:你正在读的一篇很长的论文内容
-
-
抽屉6:知识金库(保险箱)——保管密码、地址等敏感信息
-
存什么:极度敏感、不能记错的信息 -
举例:密码、API密钥、具体的电话号码
-

这种分类有什么好处?
这种设计不是随意的,而是基于认知科学对人类记忆的研究。通过将信息按类型分别存储,MIRIX能够更高效地检索和使用记忆,就像人类大脑一样。
换句话说,当你问"我朋友John住哪里"时,AI会精准地去语义记忆抽屉中查找;当你问"上周会议讨论了什么"时,它会去情节记忆抽屉中搜索。这比在一个混乱的大箱子里翻找要高效得多。
第三步:这么多抽屉,怎么管理?(多智能体团队)
因为有6个抽屉,一个AI管不过来。MIRIX设计了一个专业团队,就像一个公司的部门结构:
-
总管(Meta Memory Manager):相当于办公室主任,接收你的请求,判断该去哪个抽屉找答案,然后把任务分配给相应的部门主管。
-
6个分管经理(Memory Managers):相当于6个部门主管(情节部、语义部、程序部等),各自管理自己负责的记忆类型,确保信息被正确存储和更新,避免重复和错误。
-
发言人(Chat Agent):这是面向你的客服代表,负责与你直接交互。它不需要自己翻遍所有档案,只需要问各部门主管要相关信息,然后整合成回答。
这种设计有什么好处?
发言人不需要掌握所有细节,只需要知道去哪个部门找谁。这大大提高了效率,也避免了信息混乱。就像你打客服电话,客服不需要知道所有技术细节,他只需要把问题转给技术部门,然后把答案转达给你。

上图展示了记忆更新的完整流程。你可以看到,当用户发送信息后,元记忆管理器会协调各个记忆管理器并行工作,同时更新多个记忆组件。这种并行处理大大提高了效率。
当你输入一条信息时,元记忆管理器会先自动搜索现有记忆,然后分析这条信息应该存到哪些记忆组件中。各个记忆管理器并行工作,同时更新各自负责的记忆,避免冗余信息。完成后,它们会向元记忆管理器报告,确认更新完成。
这种设计的好处是:分工明确、效率高、不易出错。就像一个管理良好的图书馆,每个书架都有专门的管理员,而不是所有书随便堆在一起。
除了存储记忆,MIRIX还需要能够快速准确地调用记忆。下图展示了当你向AI提问时,系统如何响应:

如图所示,聊天智能体会首先在所有六个记忆组件中进行粗略搜索,获取高层次的摘要信息。然后,它会分析你的问题,决定需要从哪些具体的记忆组件中进行深度检索,并选择最合适的检索方法。最后,它整合所有检索到的信息,生成最终回答。
第四步:AI会主动想起来吗?(主动检索机制)
现有的记忆系统有个大问题:AI不会主动使用记忆。
比如你之前告诉它"Twitter的CEO是Linda Yaccarino",几天后当你问"Twitter的CEO是谁"时,AI可能会根据过时的训练数据回答"Elon Musk"。除非你明确说"搜索你的记忆",否则它不会去查。
用一个比喻来说:
传统AI就像"开卷考试但不会用书"的学生——你必须明确告诉他"翻到第5页",他才会去看书。但他不会主动意识到"这道题可以在书里找到答案"。
MIRIX就像真正会学习的学生——听到问题就知道"这是关于Twitter的",会自动翻开记忆本找到正确答案,而不需要你提醒他"去查记忆"。
MIRIX是怎么做到的?它引入了"主动检索"机制。

上图清晰展示了主动检索的两个关键步骤:
第一步:话题生成(Reasoning)——AI会先"思考"一下你的问题涉及什么话题。比如当你问"Twitter的CEO是谁"时,它会先在脑中生成"Twitter CEO"这个检索关键词。
第二步:主动检索(Action)——有了话题后,AI会自动去六个记忆组件中搜索相关信息。检索到的内容会被标记来源(比如标注为 ... 或 ...),直接注入到系统提示词中。
这种"先思考再搜索"的两阶段设计,是MIRIX优于传统RAG系统的关键。传统系统是拿着你的问题原文去搜索,而MIRIX会先提炼出核心话题,搜索更精准。这样,AI在生成回答时就能自然地使用这些记忆,而不需要你额外提醒。
此外,MIRIX支持多种检索方法,AI会根据具体情况自动选择最合适的策略:
-
概念搜索:理解意思相近的内容。比如你问"那个写哈利波特的作家",它能找到"J.K. Rowling",即使你没说出确切的名字。 -
关键词搜索:查找特定词汇。比如你问"Twitter的CEO",它会精确匹配"Twitter"和"CEO"这两个词。 -
精确匹配:一字不差地匹配文本。比如找密码、地址这类不能有任何偏差的信息。
为什么需要这么多种方法?
因为不同的记忆需要不同的查找方式。找人名、概念用"概念搜索"(灵活但可能模糊),找具体事件用"关键词搜索"(精准但不死板),找密码用"精确匹配"(一个字母都不能错)。
这种混合策略,让MIRIX既不会因为太死板而找不到信息,也不会因为太灵活而产生幻觉(编造不存在的内容)。
第五步:它怎么通过"看"来记忆?(实际应用)
MIRIX团队不仅发表了论文,还开发了一个实际可用的应用程序。这个应用最酷的功能是:它可以监控你的电脑屏幕,自动构建关于你的记忆库。
关于隐私,你需要知道的事:
这个功能完全需要你的明确授权才能启用。系统的工作方式是这样的:
-
本地存储:提取出的记忆数据库(SQLite)存储在你的本地设备上,你完全控制自己的数据 -
云端处理:为了实现高效的图像理解,系统会将截图发送到云端AI模型(Gemini API)进行分析 -
数据流向:截图被上传到云端分析→提取出文本化的记忆→只有这些文本记忆被保存在本地数据库
简单来说:记忆数据库在本地,但图片处理在云端。如果你特别在意隐私,需要考虑这一点。

上图展示了MIRIX应用的聊天界面。你可以看到,界面简洁直观,用户可以随时向AI提问,AI则会基于积累的记忆来回答。
应用是怎么工作的?
-
截图采集:每1.5秒截取一次屏幕,但会过滤掉重复的画面(相似度超过99%的截图会被跳过) -
流式上传:每张截图拍下来后立即上传到云端,而不是等一批都拍完再传 -
记忆提取:每积累20张有效截图(大约60秒),AI就会分析这些图片,提取有用信息 -
分类存储:把提取的信息更新到相应的记忆"抽屉"中
整个过程从截图到记忆更新完成,只需要约5秒。
AI会把不同内容存到不同的抽屉:
-
你在浏览网站学习新知识 → 存入语义记忆 -
你在跟着教程一步步操作 → 存入程序记忆 -
你在和朋友聊天 → 存入情节记忆
之后,你可以随时问AI:"我最近在做什么项目?""那份文档的标题是什么?"AI都能基于记忆准确回答。
记忆还能以可视化的方式展示,让你直观地看到AI"记住"了什么:

上图展示了语义记忆的树状结构。你可以清楚地看到,这位用户的语义记忆被组织得井井有条:顶层是"社交网络"和"收藏夹"两大类,"收藏夹"下进一步分为"运动"、"宠物"、"音乐"等子类别,每个子类别下还有更详细的信息。
**为什么要用树状结构而不是平铺列表?**因为这样AI可以"由粗到细"地搜索。比如你问"我喜欢什么音乐",AI会先定位到"收藏夹→音乐"这个分支,然后在这个分支下查找,而不是在所有记忆中线性扫描。这就像在图书馆找书:先去音乐区,再找摇滚架,最后找到具体的专辑——而不是从第一本书开始一本本翻。这种层次化的组织方式,让检索速度快几十倍,准确率也大幅提高。

上图展示了程序记忆的列表视图。每个条目记录了一个具体的操作流程,包括步骤说明和相关细节。当你需要重复某个操作时,AI可以直接调用这些程序记忆,指导你完成任务。
第六步:实测效果怎么样?(性能表现)
理论说得再好,也要用实际数据说话。作者在两个极具挑战性的任务上测试了MIRIX,结果令人印象深刻:
任务一:ScreenshotVQA(能看懂你的电脑屏幕吗?)
这是研究团队专门设计的全新测试,挑战极高:给AI看三位博士生一周到一个月的电脑使用截图——总计5,000到20,000张高分辨率图片,然后问它问题。
举个实际例子:假设你问"我上周二在亚马逊上看了什么礼物?"
-
面对2万张模糊的截图,传统AI要么崩溃(因为图片太多塞不进去),要么给出错误答案(因为找不到相关图片) -
而MIRIX只需要查看它的"日记本"(情节记忆):"周二下午2点:用户在亚马逊浏览乐高积木套装",然后立即准确回答
为什么这个任务这么难?
-
信息量巨大(单个用户就有近2万张图片) -
大部分是视觉信息,纯文本方法完全无效 -
问题往往需要综合多张截图的信息才能回答

从上表可以看出实验结果有多惊人:
-
MIRIX的准确率达到59.5%,这已经是非常不错的成绩,考虑到任务的难度 -
相比最好的RAG方法(需要保存所有原始图片),MIRIX准确率高出35%,同时AI记忆占用减少了99.9%(从15GB降到仅15MB) -
相比长上下文模型(把所有截图缩小后一次性输入),MIRIX的准确率提升了410%,AI记忆占用减少了93.3%
这意味着什么?
MIRIX不仅更准确,而且极其高效。它不需要存储原始截图(RAG方法需要),也不需要把所有图片都塞进模型(长上下文方法),而是智能地提取和组织关键信息。
就像一个优秀的笔记员,不是把所有话都记下来,而是抓住要点、结构化存储。
注意:这里的"存储减少"指的是AI记忆系统本身的占用——MIRIX只需要一个小小的SQLite数据库(15MB)来存储提取出的结构化记忆,而RAG系统需要保留所有原始图片(15GB)才能工作。这就是结构化记忆的威力。
任务二:LOCOMO(能记住长对话吗?)
这是业界广泛使用的长对话记忆测试。数据集包含10段长对话,每段约600轮对话、26,000个词(相当于一本小册子的长度)。任务设定是:先将对话内容注入记忆系统,然后让AI仅凭记忆(不能看原始对话)回答约200个问题。
问题分为四类:
-
直接查询:直接查找一个事实,如"Caroline的家乡在哪里?"——答案就在记忆里的某一条信息中 -
关联推理(连线索):需要综合多条信息,像"侦探连线索"一样。比如"Caroline四年前从哪里搬来的?"——你需要先找到"Caroline四年前从家乡搬来"这条线索,再找到"家乡是瑞典"这条线索,最后把两条线索连起来得出答案 -
时间推理:涉及时间判断,如"Melanie什么时候计划去露营?" -
开放推理:需要推理和想象,如"如果发生XX,会怎样?"

从上表可以看出,MIRIX在所有类型问题上都达到了最先进的性能:
-
总体准确率85.38%,比最好的现有方法(Zep,79.09%)高出8个百分点,非常接近使用完整上下文的理论上限(87.52%)。
特别值得一提的是关联推理(连线索):MIRIX的准确率达到83.70%,比其他方法高出24个百分点以上。
为什么差距这么大?因为MIRIX会"提前做侦探工作"。
举个具体例子:对话中可能在不同地方提到"Caroline四年前从家乡搬来"和"Caroline的家乡是瑞典"。
-
传统系统:分别存储这两条信息。回答"Caroline四年前从哪里搬来"时,需要现场当侦探:第一步找到"从家乡搬来",第二步再找到"家乡=瑞典",第三步推理出"从瑞典搬来"。这个"连线索"的过程容易出错。
-
MIRIX的做法:在存储记忆时就把线索连好,直接整合存储为"Caroline四年前从瑞典搬来"。回答问题时直接调用这条记忆即可,无需现场推理。
这就像人类的记忆整合能力——我们不会把所有碎片信息都单独存储,而是会自动形成连贯的记忆。你记住的不是"朋友说过的话的字幕",而是"朋友告诉你的事情"本身。
未来展望:记忆即资产
MIRIX团队对未来有更大的愿景。他们认为,在AI时代,人类的记忆将成为最宝贵、最不可替代的资产。
为什么这么说?因为在AI可以生成任何内容的时代,真实的、个性化的、带有情感和经验的记忆,才是最独特、最有价值的数据。每个人的人生经历、工作经验、兴趣爱好,都是独一无二的宝藏。
基于这个理念,他们正在构建一个"智能体记忆市场"(Agent Memory Marketplace),让个人记忆可以被安全地分享、交易和协作构建。想象一下这些可能性:
-
一位资深程序员的工作流程记忆,可以帮助新手快速学习最佳实践 -
一位美食家的餐厅记忆,可以成为精准的本地推荐系统 -
你的个人AI助手可以"订阅"某个领域专家的记忆,获得专业知识
当然,这一切都建立在端到端加密、细粒度隐私控制和去中心化存储的基础上。你的记忆属于你,你可以选择分享哪些部分、保密哪些部分。这不是科幻,而是正在构建的现实。
可穿戴设备的完美伴侣
此外,MIRIX特别适合集成到可穿戴设备中,如AI眼镜(Meta Ray-Ban、XREAL Air)、AI别针(Humane Pin)等。这些设备可以持续收集音频、视觉信息,实时构建记忆。
想象一下这样的场景:
-
你戴着AI眼镜参加会议,它会自动记录讨论要点到情节记忆,识别出现的人物和关键决策到语义记忆 -
出门旅行时,它记住你去过的地方、吃过的餐厅、遇到的有趣事物 -
工作中,它学习你的操作流程,把常用步骤存入程序记忆,下次可以直接指导你或帮你自动完成 -
所有这些记忆都在你的设备上本地处理,无需担心隐私泄露
这样的AI助手,不再是一个"工具",而是真正了解你、陪伴你成长的"伙伴"。
总结:一个会记事的AI是什么样的?
读到这里,你应该能理解MIRIX到底做了什么事情了。
简单来说,这是一个超级整理收纳师版的AI记忆系统。它不再把你的话乱堆在一起,而是分类整理成便利贴、日记本、百科全书、操作手册、文件柜和保险箱六个"抽屉"。这样不仅记得牢、找得快,还能通过看你的屏幕截图,真正成为一个懂你习惯的私人助理。
让我们回顾一下核心要点:
-
6个专门的记忆"抽屉":每种信息存在合适的地方,查找效率高 -
专业管理团队:8个AI分工协作,像公司部门一样管理记忆 -
会主动想起来:AI不需要你提醒"去查记忆",它会自动检索 -
性能惊人:准确率提升35%-410%,记忆占用减少93%-99.9% -
真实可用的应用:不是实验室理论,现在就能下载体验
MIRIX代表了AI助手的一个重要方向:从"健忘的工具"进化为"有记忆的伙伴"。
如果你对MIRIX感兴趣,可以访问他们的官网 https://mirix.io/[1] 了解更多信息,或者直接下载应用体验。AI的记忆革命,已经开始了——而你,可以成为第一批拥有"永不遗忘"AI助手的人。
参考资料
-
论文:MIRIX: Multi-Agent Memory System for LLM-Based Agents -
作者:Yu Wang, Xi Chen (MIRIX AI) -
官网:https://mirix.io/[2] -
论文地址:https://arxiv.org/abs/2507.07957[3]
🤔 锐评三则
1. 隐私承诺与云端依赖的根本矛盾
文章强调"记忆数据库在本地",但实际实现中,每1.5秒截取的高分辨率屏幕截图都必须上传到Google Gemini API进行处理。这不是"隐私保护设计",而是将最敏感的原始数据(你的屏幕内容)完整暴露给第三方云服务。更关键的是,论文对这种云端处理的安全性、数据保留政策、以及潜在的数据泄露风险只字未提。所谓"本地存储"只是处理后的文本残留,真正的隐私风险发生在上传阶段——而这恰恰是系统架构中不可规避的核心环节。对于声称要处理"密码、API密钥"的系统,这种设计存在根本性的安全隐患。
2. 自建基准测试的有效性存疑
ScreenshotVQA基准测试仅包含3名博士生的数据,问题也由他们自己编写,样本总量仅87个问题。这种极小规模、高度同质化的测试集很难证明系统的真实泛化能力。更值得警惕的是,系统的记忆提取逻辑可能已经在设计阶段就针对"博士生的计算机使用场景"进行了隐式优化——比如学术论文、代码编辑、文献管理等特定模式。论文没有测试普通用户、非技术用户、或不同文化背景用户的使用场景。这就像汽车安全测试只在平坦公路上进行却声称适用于所有路况,严重缺乏说服力。
3. 记忆抽象过程的黑箱与信息损失
论文将存储减少99.9%(从15GB到15MB)作为核心优势,但完全回避了一个关键问题:在这种极端压缩中,丢失了多少关键信息?系统依赖LLM从截图中"提取有用信息",但没有任何机制验证提取的完整性和准确性。举例来说,如果用户浏览的是包含微妙视觉细节的设计图、复杂的数据可视化、或者多语言混合内容,AI可能完全误读或遗漏关键信息。论文中没有失败案例分析、没有信息保真度评估、也没有用户纠错机制。这种"看起来很高效"的设计本质上是用不可验证的信息丢失换取存储空间,而用户对此毫无感知和控制能力。
以上锐评旨在提供批判性思考视角,帮助读者全面理解论文的局限性
引用链接
[1]https://mirix.io/
[2]https://mirix.io/
[3]https://arxiv.org/abs/2507.07957
原文链接:https://mp.weixin.qq.com/s/zMhOXDmfMOButPl6Yx4ivg












暂无评论内容