AAAI 2026 | 当知识图谱变成乱码,LLM还能推理吗?ARoG破解RAG隐私困境

图片[1]-AAAI 2026 | 当知识图谱变成乱码,LLM还能推理吗?ARoG破解RAG隐私困境-AI Express News
图片[2]-AAAI 2026 | 当知识图谱变成乱码,LLM还能推理吗?ARoG破解RAG隐私困境-AI Express News

研究背景

大型语言模型虽能力强大,却常受困于事实幻觉和知识滞后 [1]。检索增强生成技术通过引入外部知识源(如知识图谱 KG)来弥补这些缺陷,已成为提升模型可靠性的关键 [2]

 

然而,当 RAG 系统需要访问包含个人隐私或商业机密的私有知识图谱时,一个严峻的挑战浮出水面:如何防止敏感数据在检索和生成过程中泄露?

 

传统 RAG 方法直接将知识图谱中的事实三元组暴露给 LLM,其“黑盒”特性和潜在的数据传输风险,使得隐私保护成为应用落地的重大障碍。

 

为了解决这一难题,本文首次探索了隐私保护的 RAG 场景,其中知识图谱中的所有实体对 LLM 匿名化,从而阻止 LLM 访问实体语义。

 

但这也带来了新的挑战:当实体变成无意义的机器标识符后,RAG 系统又该如何有效检索相关知识?

 

图片[3]-AAAI 2026 | 当知识图谱变成乱码,LLM还能推理吗?ARoG破解RAG隐私困境-AI Express News

论文题目:

Privacy-protected Retrieval-Augmented Generation for Knowledge Graph Question Answering

论文来源:

AAAI 2026

论文链接:

https://arxiv.org/abs/2508.08785

代码链接:

https://github.com/NLPGM/ARoG

图片[4]-AAAI 2026 | 当知识图谱变成乱码,LLM还能推理吗?ARoG破解RAG隐私困境-AI Express News

核心挑战:匿名实体下的知识检索

在隐私保护 RAG 场景下,如图 1 所示,实体(如 “Bronny”、“L.A.”)被替换为无语义的机器标识符(如 ID.1, ID.5)。这使得利用 LLM 直接进行实体语义匹配(如 ToG [2])的传统 RAG 方法彻底失效。

图片[5]-AAAI 2026 | 当知识图谱变成乱码,LLM还能推理吗?ARoG破解RAG隐私困境-AI Express News

▲ 图1. 隐私保护的 RAG 系统和传统 RAG 系统的比较

 

因此,为了实现一个有效的隐私保护 RAG 系统,必须解决两个核心挑战:

 

(1)如何将匿名实体转化为可检索的信息?

 

(2)如何检索与问题相关的匿名实体?

 

 

图片[6]-AAAI 2026 | 当知识图谱变成乱码,LLM还能推理吗?ARoG破解RAG隐私困境-AI Express News

解决方案:ARoG 框架横空出世

为应对上述挑战,研究团队提出了一种新颖的图抽象推理框架。该框架包含两大核心策略,并构建了完整的检索-生成流水线。

 

1. 关系中心抽象

 

此策略旨在解决挑战(1)。它将匿名实体视作主语/宾语名词,将其相邻关系视作谓语动词,并利用 LLM 的生成能力,将这些关系动态抽象为高层概念,补充到匿名标识符之后。

 

例如,一个与“时区”、“包含于”、“人口”等关系相邻的实体,可被抽象为“地理位置”。这样,无意义的 ID 就变成了 “ID(地理位置)”,为后续检索提供了语义基础。

 

2. 结构导向抽象

 

此策略旨在解决挑战(2)。它将非结构化的自然语言问题,转化为结构化的抽象概念路径。

 

例如,问题“举办 ‘The Mrs. Carter Show World Tour’ 的艺术家,其女儿的名字是什么?”被转化为路径:“艺术家 → 举办 → The Mrs. Carter Show World Tour;艺术家 → 拥有女儿 → 人”。

 

即使生成的实体名称不准确,这条路径也能通过其关系结构,与知识图谱中被抽象后的实体的概念有效对齐,从而精准引导检索。

 

基于以上策略,ARoG 框架包含四个模块(如图 2 所示):

 

  • 关系中心抽象模块:将 KG 中的匿名实体转化为抽象概念。

  • 结构导向抽象模块:将用户问题转化为抽象概念路径。

  • 抽象驱动检索模块:基于上述抽象信息,从 KG 中检索问题相关的三元组。

  • 生成模块:基于检索到的证据,生成最终答案。

图片[7]-AAAI 2026 | 当知识图谱变成乱码,LLM还能推理吗?ARoG破解RAG隐私困境-AI Express News

▲ 图2. ARoG 框架概览

图片[8]-AAAI 2026 | 当知识图谱变成乱码,LLM还能推理吗?ARoG破解RAG隐私困境-AI Express News

实验结果:性能与隐私的完美平衡

为了评估 ARoG 框架的有效性,研究团队在 WebQSP、CWQ 和 GrailQA 三个主流数据集上进行了实验,并于基线方法进行了对比。

 

1. 性能全面领先:如图 3 所示,在 #Total(全集)和 #Filtered(严格隐私保护的子集)两种设置下,ARoG 在所有数据集上均达到最好的性能,显著优于现有的 RAG 方法,以及隐私保护的语义解析(SP)方法。

 

其中,在 #Filtered 设置下,LLM 自身知识无法正确回答数据集中的问题,必须依赖于知识图谱,此设置用以模拟严格隐私保护的场景。

 

当进入 #Filtered 设置时,传统 RAG 方法性能急剧下降,而 ARoG 凭借其抽象策略,依然保持了强大的性能,证明了其在隐私保护场景下的卓越鲁棒性。

图片[9]-AAAI 2026 | 当知识图谱变成乱码,LLM还能推理吗?ARoG破解RAG隐私困境-AI Express News

▲ 图3 ARoG 与基线方法的性能比较

 

2. 隐私鲁棒性显著:如图 4 所示,研究团队测试了 ARoG 与传统 RAG 系统在不同隐私保护场景下的性能表现。其中,P-RAG 意为在检索阶段和生成阶段暴露实体名,P-G 为在生成阶段暴露实体名,P-R 为在检索阶段暴露实体名,Private 为完全的实体匿名化。

 

实验结果表明,随着隐私保护程度加深,ToG 的推理准确性逐渐下降,而 ARoG 凭借其抽象策略,依然保持了强大的性能,证明了其显著的隐私鲁棒性。

图片[10]-AAAI 2026 | 当知识图谱变成乱码,LLM还能推理吗?ARoG破解RAG隐私困境-AI Express News

▲ 图4. ARoG 与传统 RAG 系统在不同隐私保护场景下的性能表现

 

3. 效率问题:如图 5 所示,在计算效率方面,ARoG 也展现出竞争力,尤其是在处理复杂问题时,其总 token 消耗甚至低于部分基线模型。

图片[11]-AAAI 2026 | 当知识图谱变成乱码,LLM还能推理吗?ARoG破解RAG隐私困境-AI Express News

▲ 图5. 不同 RAG 系统的计算效率

图片[12]-AAAI 2026 | 当知识图谱变成乱码,LLM还能推理吗?ARoG破解RAG隐私困境-AI Express News

总结和未来研究方向

本文首次系统性地研究了隐私保护场景下的 RAG 技术,并提出了创新的 ARoG 框架。该框架通过关系中心抽象和结构导向抽象两大策略,成功解决了匿名实体下的知识检索难题,在严格保护数据隐私的同时,实现了高性能的知识图谱问答。

 

这项工作为隐私敏感领域的 RAG 应用开辟了新的实用方向。未来,研究团队将继续探索如何将人类经验更深入地融入抽象过程,并研究 ARoG 在更广泛任务中的应用潜力。

 

图片[13]-AAAI 2026 | 当知识图谱变成乱码,LLM还能推理吗?ARoG破解RAG隐私困境-AI Express News

参考文献

图片[14]-AAAI 2026 | 当知识图谱变成乱码,LLM还能推理吗?ARoG破解RAG隐私困境-AI Express News

[1] Ji, Z.; Lee, N.; Frieske, R.; Yu, T.; Su, D.; Xu, Y.; Ishii, E.; Bang, Y. J.; Madotto, A.; and Fung, P. 2023. Survey of Hallucination in Natural Language Generation. ACM Comput. Surv., 55(12)

[2] Sun, J.; Xu, C.; Tang, L.; Wang, S.; Lin, C.; Gong, Y.; Ni, L.; Shum, H.-Y.; and Guo, J. 2024. Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph. In The Twelfth International Conference on Learning Representations.

原文链接:https://mp.weixin.qq.com/s/QZADe-Lf96wkKvTYcUr8IA

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容