一个开源的AI《史记》知识库与26个可复用构造知识库Skill,57万字史记,10万个实体、3185个事件、7652条关系全部结构化

项目介绍

shiji-kb:一个开源的古籍知识工程项目。做了两件事:

第一,用AI将《史记》130篇、57万字全部转化为结构化知——18类实体近10万次标注、3,185个事件、7,652条关系、675项知识单元;

第二,把整个过程沉淀为26个可复用的知识库构造方法论Skill文档,覆盖从校勘到知识推理的9大阶段。换一部书,管线不变,参数调整,即可构造新的知识库。

传统文史研究的核心困境是人力瓶颈,而中国古典文献的总量以亿字计,这个宝库还没有被充分挖掘。这个项目最开始的初心是要回答一直以来的问题:AI能否把"皓首穷经"从数十年压缩到数周?AI能否把知识变为活的?

当前实践下来答案是肯定的。一个人加一群AI Agent可以完成全部工作。现成果以及方法论已开源,欢迎参与一同创造。

项目创作者为西瓜(鲍捷),一个研究人工智能知识工程30+年的文史爱好者。

Github地址(开源)

https://github.com/baojie/shiji-kb

(这个项目处于频繁更新状态,内容在不断丰富和调整,AI在把知识变为活的,这个知识库也是一个活的)

在线体验

https://baojie.github.io/shiji-kb

(文末有交流群,开放出来,非常期待收到更多反馈)


核心成果

类别
数量
说明
文本标注
130篇,57.7万字
18类实体语义标注,100%覆盖
实体
12,380词条,99,214次标注
人名4,112、地名1,861、官职2,158等18类
事件
3,185个,11类事件类型
98.7%事件已标注公元纪年(前2700年~前87年)
事件关系
7,652条,9种类型
含1,876个跨章换乘(互见/共人/共地/同期)
事件地铁图
130条线路
支持缩放/拖拽/搜索/实体链接/原文引用
知识单元
434事实 + 241技能
7,497个实体关联
方法论Skill
26个文档,9大阶段
可复用,适用于其他任何书籍
核心数据总览
内容细节详见:给《史记》加上语法高亮:一个人+一群AI的55小时

功能特性

语法高亮:18类实体,一眼看懂谁在哪里做了什么

打开任何一篇,古文不再是黑字白底的方块字——人名、地名、官职、时间、朝代、邦国、氏族、身份、制度、族群、器物、天文、生物、数量、神话、典籍、礼仪、刑法,18类实体各有颜色。平均每6个字就有一个实体被识别上色。对话也被标记——斜体加淡褐底色,让"王侯将相宁有种乎!"从叙述中浮现。

这是18类实体+年表和事件

图片[2]-一个开源的AI《史记》知识库与26个可复用构造知识库Skill,57万字史记,10万个实体、3185个事件、7652条关系全部结构化-AI Express News
语法高亮效果
五体分布
除了语法高亮之外,我还做了语义排版,这个也处于实验状态当中,做了第一章,词和句层面的工作都开启了。
语义排版,如下图:
图片[5]-一个开源的AI《史记》知识库与26个可复用构造知识库Skill,57万字史记,10万个实体、3185个事件、7652条关系全部结构化-AI Express News

三家注弹窗:一千年前的注释即点即现(实验中,本月上齐)

裴骃《集解》、司马贞《索隐》、张守节《正义》——已对齐到正文的具体句子。鼠标悬停,注释自动浮现。不用翻书,不用离开页面。

这目前是实验项目,只做完了第一章,本月上齐,在 labs 那个文件夹。

三家注弹窗

事件知识图谱:3,185个事件 + 7,652条关系

从130篇中提取了3,185个历史事件(战争、继位、政治、改革、家族等11类),98.7%标注了公元纪年。事件之间建立了7,652条关系——因果、延续、包含、对立、互见等9种类型,其中1,876条跨章关系让分散在不同篇章的同一段历史重新连接。

事件类型分布

事件地铁图:用地铁线路的方式看历史(实验中,本月更新)

130篇 = 130条地铁线路,3,185个事件 = 3,185个站点,跨章关系 = 换乘连线。支持缩放、拖拽、搜索,点击站点可跳转到原文。时间轴横跨公元前2700年到前87年——整部《史记》的全景图。

事件地铁图

实体索引:12,380个词条,18类分类页面

所有实体汇总为结构化索引,每类一个独立页面(人名、地名、官职、时间、朝代、邦国、器物……共18类)。含595条别名映射(刘邦=沛公=汉王=高祖=高帝=刘季),644处语义消歧。点击任何实体,看它在130篇中的全部出处。

实体索引

知识单元:434项事实 + 241项可操作的历史技能

事实层:434项知识单元,覆盖人物传记、诸侯国、军事战役等14个主题。每项含定义、上下文、关联实体、原文出处。

技能层:241项从《史记》叙事中提炼的实战案例——治国理政57项(如推恩令:用分封瓦解诸侯)、军事战略54项(如背水一战:置之死地而后生)、外交谈判24项。不是成语,是有时间、人物、过程、结果的完整案例。

知识单元

十表渲染:两千年来最难用的年表变好用了

十二诸侯年表——15列×637行,362年间14个政权——在纸质书上几乎不可用。现在:表头吸顶、交替行背景色、悬停高亮、表内实体照样标注。

十表渲染

史记争霸游戏(实验中)

基于知识图谱数据的策略游戏。人物能力值来自《史记》记载,势力版图来自标注的地名关系。

由于我本人在游戏这块技能有限,因此我只完成了第一步,这块期待游戏方面的朋友一起来创造。

游戏目前在这个仓库下:https://github.com/baojie/shiji-kb/tree/main/app/game

史记争霸游戏

26个方法论Skill:换一部书,可上手构建

这是整个项目最有价值的部分,《史记》只是一个起点。 《史记》处理过程中的skill已完整沉淀下来,是一套可复用方法论。

目前的skill整个框架,还是比较粗糙的,会慢慢改进。

26个Skill文档,覆盖从原始文本到知识应用的9大阶段:

九步管线

你可以用这套skill来分析你选定的任何书籍。

每个阶段都有详细的操作文档:

阶段
Skill数
核心文档
干什么
校勘
1
SKILL_01
多版本比对,底本校正
结构分析
6
SKILL_02~02f
章节切分、段落编号、结构语义分析
实体构建
4
SKILL_03~03e
18类NER标注、消歧、多轮反思审查
事件构建
5
SKILL_04~04e
事件提取、十表处理、纪年推断、年代审查、年份消歧
关系构建
2
SKILL_05a~05b
9种事件关系、人物关系+家谱
本体构建
1
SKILL_06a
词表→分类树→OWL/RDF
逻辑推理
1
SKILL_07
矛盾检测、规律发现
SKU构造
1
SKILL_08
知识单元化
应用构造
3
SKILL_09~09b
阅读器、地铁图、游戏化

可以看到,在这个skill框架当中,后面几个类别的skill比较少,我当前主要工作主要放在了前面,这一整套skill会持续迭代,发布出来也是期待收到更多反馈。

换一本书,需要调整的只是: 实体类型(佛经需增加"佛教术语"类)、体裁分类(编年体和纪传体提示词不同)、别名规则、年份体系。框架不变,参数变。

扩展路线:

目标
字数
现状
史记(已完成)
57万字
汉书、后汉书、三国志
~200万字
近期
二十四史全集
~4,600万字
中期
资治通鉴系列
~700万字
中期
诸子百家、四库全书
数亿字
远期
扩展路线

怎么用这个项目

一、直接在线阅读(零门槛)

打开 https://baojie.github.io/shiji-kb ,选章节即可。

推荐体验路线:

顺序
看什么
链接
1
项羽本纪——鸿门宴、乌江自刎,最精彩的叙事
007章
2
刺客列传——荆轲刺秦,对话高亮效果最佳
086章
3
十二诸侯年表——362年全景,感受表格渲染
014章
4
实体索引——按人名/地名/官职分类浏览
索引首页
5
事件地铁图——130条线路的全景历史
地铁图
6
史记争霸——策略游戏
游戏

二、搭配AI使用(研究/创作)

git clone https://github.com/baojie/shiji-kb.git 

仓库里的结构化数据(JSON/Markdown)可以直接喂给Claude、GPT等大模型:

数据目录
内容
适合问什么
kg/events/data/
3,185个事件+关系
"秦统一六国的完整时间线"
kg/entities/data/
12,380个实体+别名
"韩非和李斯的所有交集"
kg/chronology/data/
380位君主在位年+公元映射
"公元前260年发生了什么"
kg/genealogy/data/
帝王世系图
"刘邦的后代有谁当了皇帝"
kg/relations/data/
人物关系网络
"项羽阵营的核心人物关系"
ontology/skus/
675项知识单元
"《史记》中有哪些外交策略"
数据目录

三、用Skill处理其他任何书籍(开发者)

这是项目最大的复用价值。26个Skill文档在 skills/ 目录下,每个都是完整的操作手册。

最简路径:

将这些skill和你的文本,交给claude/或者任何agent,根据这一套方法论,帮我构造一个xxx知识库。

每个Skill文档包含:输入输出规范、标注规则、质检工具、常见错误、反思修正流程。直接照着做就行。

skill 你可以用在任何编程助手来调用。创作者使用的是claude code,若你没有安装,此处非常推荐上手,安装地址为 Claude Code 安装与使用教程(新手超详细版)

四、做内容创作(素材引擎)

创作场景
怎么用
历史小说/剧本
kg/events/

 查事件时间线,kg/relations/ 查人物关系
历史游戏
ontology/skus/

 的241项技能直接转化为游戏技能卡
短剧/短视频
ontology/eureka.md

 里的洞见就是现成的选题
教学备课
实体索引页面按类别浏览,配合三家注弹窗
学术研究
事件关系做一致性检验,自动发现记载矛盾
创作场景

知识结构化之后,会发生什么

项目在知识提取过程中意外发现了20多个跨章洞察——这些不是预设的研究假设,而是知识图谱结构化后自然涌现的模式:

知识涌现

写在最后

这个项目的核心价值不是"给《史记》加了颜色"——是把"书变成知识库"这件事的完整方法论开源了。

26个Skill、9大阶段、每个工序都有lint和validate工具。一个人加AI,用同一条管线,可以处理任何书籍。《史记》57万字是第一个试验田,二十四史4,600万字是下一步,列表非常长,逐步让几千年积累的文字全部结构化。

关于这个项目,只开启了1%,欢迎共同来迭代。知识工程的所有问题,在当前AI时代都已经解决,只剩下我们坚定执行和创造。

最终愿景:建立一个由AI Agent维护和持续进化的知识网络,让任何人都能以问答、可视化、推理的方式探索数千年的智慧。

在线体验:https://baojie.github.io/shiji-kb

GitHub:https://github.com/baojie/shiji-kb

非常期待和你一起探索各种 AI 增强阅读的可能性,欢迎来群里和项目创造者直接交流

图片[18]-一个开源的AI《史记》知识库与26个可复用构造知识库Skill,57万字史记,10万个实体、3185个事件、7652条关系全部结构化-AI Express News

若群满了,可以加  18501790646 备注ai阅读


调研 & 撰写:AI(Claude)
主导 & 审校:01fish

<原文链接:https://mp.weixin.qq.com/s/kPEyL3NDPAQYp7sFl5eE4w

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享
01fish的头像-AI Express News
评论 抢沙发

请登录后发表评论

    暂无评论内容