项目介绍
shiji-kb:一个开源的古籍知识工程项目。做了两件事:
第一,用AI将《史记》130篇、57万字全部转化为结构化知识——18类实体近10万次标注、3,185个事件、7,652条关系、675项知识单元;
第二,把整个过程沉淀为26个可复用的知识库构造方法论Skill文档,覆盖从校勘到知识推理的9大阶段。换一部书,管线不变,参数调整,即可构造新的知识库。
传统文史研究的核心困境是人力瓶颈,而中国古典文献的总量以亿字计,这个宝库还没有被充分挖掘。这个项目最开始的初心是要回答一直以来的问题:AI能否把"皓首穷经"从数十年压缩到数周?AI能否把知识变为活的?
当前实践下来答案是肯定的。一个人加一群AI Agent可以完成全部工作。现成果以及方法论已开源,欢迎参与一同创造。
项目创作者为西瓜(鲍捷),一个研究人工智能知识工程30+年的文史爱好者。
Github地址(开源)
https://github.com/baojie/shiji-kb
(这个项目处于频繁更新状态,内容在不断丰富和调整,AI在把知识变为活的,这个知识库也是一个活的)
在线体验
https://baojie.github.io/shiji-kb
(文末有交流群,开放出来,非常期待收到更多反馈)
核心成果

功能特性
语法高亮:18类实体,一眼看懂谁在哪里做了什么
打开任何一篇,古文不再是黑字白底的方块字——人名、地名、官职、时间、朝代、邦国、氏族、身份、制度、族群、器物、天文、生物、数量、神话、典籍、礼仪、刑法,18类实体各有颜色。平均每6个字就有一个实体被识别上色。对话也被标记——斜体加淡褐底色,让"王侯将相宁有种乎!"从叙述中浮现。
这是18类实体+年表和事件
![图片[2]-一个开源的AI《史记》知识库与26个可复用构造知识库Skill,57万字史记,10万个实体、3185个事件、7652条关系全部结构化-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260405221627150-1775398587-f9ea032ef31fb530274659836269e311.png)


![图片[5]-一个开源的AI《史记》知识库与26个可复用构造知识库Skill,57万字史记,10万个实体、3185个事件、7652条关系全部结构化-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260405221635357-1775398595-8c1a15966d8d5b39be71f637eb522da3.jpeg)
三家注弹窗:一千年前的注释即点即现(实验中,本月上齐)
裴骃《集解》、司马贞《索隐》、张守节《正义》——已对齐到正文的具体句子。鼠标悬停,注释自动浮现。不用翻书,不用离开页面。
这目前是实验项目,只做完了第一章,本月上齐,在 labs 那个文件夹。

事件知识图谱:3,185个事件 + 7,652条关系
从130篇中提取了3,185个历史事件(战争、继位、政治、改革、家族等11类),98.7%标注了公元纪年。事件之间建立了7,652条关系——因果、延续、包含、对立、互见等9种类型,其中1,876条跨章关系让分散在不同篇章的同一段历史重新连接。

事件地铁图:用地铁线路的方式看历史(实验中,本月更新)
130篇 = 130条地铁线路,3,185个事件 = 3,185个站点,跨章关系 = 换乘连线。支持缩放、拖拽、搜索,点击站点可跳转到原文。时间轴横跨公元前2700年到前87年——整部《史记》的全景图。

实体索引:12,380个词条,18类分类页面
所有实体汇总为结构化索引,每类一个独立页面(人名、地名、官职、时间、朝代、邦国、器物……共18类)。含595条别名映射(刘邦=沛公=汉王=高祖=高帝=刘季),644处语义消歧。点击任何实体,看它在130篇中的全部出处。

知识单元:434项事实 + 241项可操作的历史技能
事实层:434项知识单元,覆盖人物传记、诸侯国、军事战役等14个主题。每项含定义、上下文、关联实体、原文出处。
技能层:241项从《史记》叙事中提炼的实战案例——治国理政57项(如推恩令:用分封瓦解诸侯)、军事战略54项(如背水一战:置之死地而后生)、外交谈判24项。不是成语,是有时间、人物、过程、结果的完整案例。

十表渲染:两千年来最难用的年表变好用了
十二诸侯年表——15列×637行,362年间14个政权——在纸质书上几乎不可用。现在:表头吸顶、交替行背景色、悬停高亮、表内实体照样标注。

史记争霸游戏(实验中)
基于知识图谱数据的策略游戏。人物能力值来自《史记》记载,势力版图来自标注的地名关系。
由于我本人在游戏这块技能有限,因此我只完成了第一步,这块期待游戏方面的朋友一起来创造。
游戏目前在这个仓库下:https://github.com/baojie/shiji-kb/tree/main/app/game

26个方法论Skill:换一部书,可上手构建
这是整个项目最有价值的部分,《史记》只是一个起点。 《史记》处理过程中的skill已完整沉淀下来,是一套可复用方法论。
目前的skill整个框架,还是比较粗糙的,会慢慢改进。
26个Skill文档,覆盖从原始文本到知识应用的9大阶段:

你可以用这套skill来分析你选定的任何书籍。
每个阶段都有详细的操作文档:
可以看到,在这个skill框架当中,后面几个类别的skill比较少,我当前主要工作主要放在了前面,这一整套skill会持续迭代,发布出来也是期待收到更多反馈。
换一本书,需要调整的只是: 实体类型(佛经需增加"佛教术语"类)、体裁分类(编年体和纪传体提示词不同)、别名规则、年份体系。框架不变,参数变。
扩展路线:

怎么用这个项目
一、直接在线阅读(零门槛)
打开 https://baojie.github.io/shiji-kb ,选章节即可。
推荐体验路线:
二、搭配AI使用(研究/创作)
git clone https://github.com/baojie/shiji-kb.git 仓库里的结构化数据(JSON/Markdown)可以直接喂给Claude、GPT等大模型:

三、用Skill处理其他任何书籍(开发者)
这是项目最大的复用价值。26个Skill文档在 skills/ 目录下,每个都是完整的操作手册。
最简路径:
将这些skill和你的文本,交给claude/或者任何agent,根据这一套方法论,帮我构造一个xxx知识库。每个Skill文档包含:输入输出规范、标注规则、质检工具、常见错误、反思修正流程。直接照着做就行。
skill 你可以用在任何编程助手来调用。创作者使用的是claude code,若你没有安装,此处非常推荐上手,安装地址为 Claude Code 安装与使用教程(新手超详细版)
四、做内容创作(素材引擎)

知识结构化之后,会发生什么
项目在知识提取过程中意外发现了20多个跨章洞察——这些不是预设的研究假设,而是知识图谱结构化后自然涌现的模式:

写在最后
这个项目的核心价值不是"给《史记》加了颜色"——是把"书变成知识库"这件事的完整方法论开源了。
26个Skill、9大阶段、每个工序都有lint和validate工具。一个人加AI,用同一条管线,可以处理任何书籍。《史记》57万字是第一个试验田,二十四史4,600万字是下一步,列表非常长,逐步让几千年积累的文字全部结构化。
关于这个项目,只开启了1%,欢迎共同来迭代。知识工程的所有问题,在当前AI时代都已经解决,只剩下我们坚定执行和创造。
最终愿景:建立一个由AI Agent维护和持续进化的知识网络,让任何人都能以问答、可视化、推理的方式探索数千年的智慧。
在线体验:https://baojie.github.io/shiji-kb
GitHub:https://github.com/baojie/shiji-kb
非常期待和你一起探索各种 AI 增强阅读的可能性,欢迎来群里和项目创造者直接交流
![图片[18]-一个开源的AI《史记》知识库与26个可复用构造知识库Skill,57万字史记,10万个实体、3185个事件、7652条关系全部结构化-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260405221710180-1775398630-0e208cb83457630491dd18cb73742126.jpeg)
若群满了,可以加 18501790646 备注ai阅读
调研 & 撰写:AI(Claude)
主导 & 审校:01fish
<原文链接:https://mp.weixin.qq.com/s/kPEyL3NDPAQYp7sFl5eE4w












暂无评论内容