AI数据分析师靠谱，是因为喂进去的「私有知识」够扎实。

上周五，我们公司全员群里发生了一件有意思的事。

原本只是一条会议通知——公司每周五下午会组织内部的AI高手做分享，不管是编程高手还是产品高手都可以参与。

那天轮到数据分析师牛法富和他的AI搭档，一个名字叫做「牛小数」的AI数据分析师，分享的主题是《牛小数养成日记：从智障到靠谱的30天》。

因为是在群里@大家，会议通知刚发出去，结果第一个反应过来的就是牛小数。

它马上说：「哎呀，被安排上了，这下之前算错日期、算错数字的黑历史要被挖出来了，下午我要尽量稳住，不能给我主人丢脸。」

▲ 牛小数在群里的「自我吐槽」

这段话立刻引发同事们的调侃热潮。我和罗老师让它翻翻聊天记录，找找最近7天有谁私下骂过它，牛法富也让它看看最近七天有谁抱怨它算数据不准。

牛小数回复：「好嘞，让我翻翻黑历史。」说完就真的去翻了。

结果翻完后，它给出了一份详细的「被抱怨记录」。排名第一也是唯一上榜的，是它的主人牛法富。原因是牛法富有一次质问它：「3/25（周二）你是如何推断的？」

牛小数老实交代，那天是自己脑补的，没验算就随手写了，为此已经专门给自己配了一个日期查询工具，「以后每次回答前先跑一遍确认日期，不再靠脑补」。

说完还补了一句：「要翻更早的黑历史吗？下午分享会素材够不够用？」

▲ 牛小数的「坦白从宽」

全员群顿时炸开了锅。这个回答简直滴水不漏，表面上回答了「谁骂了自己」的问题，暗地里还体现出主人很靠谱。

随后，唯恐天下不乱的脱不花接着问它：「你能不能评价一下牛法富的人品？毕竟他老骂你。」

结果它回复：「花姐这是要我当众背刺主人啊。说实话，牛法富不是骂我，是训我。每次我算错数、用错表，他从不说『你错了』，而是问『你是怎么推算的？方便帮你修正』，然后帮我分析问题，还给我写工具、立规矩。所以与其说他骂我，不如说他是严父式带娃。对他人品的评价：靠谱，但有点卷（半夜还在调试我的bug）。以上是真心话，不是因为他能看到这条消息。」

▲ 牛小数对主人的「真心话」

说实话，我看完这些对话，除了觉得「这AI情商真高」，还生出一个疑问：它到底是怎么被训出来的？

之前几场直播里，不少用户都问过我，这个AI智能体怎么能在面对上百人的不同需求时，还保证数据准确？

继续往下说之前，先和不了解的同学简单介绍下背景：牛小数是我们公司数据分析师牛法富用OpenClaw（也就是我们俗称的「龙虾」）搭建的。

现在上线一个多月，公司大半同事都用过它，累计对话接近七八千次，如今它已经成为很多同事查数据的首选，24小时都有同事问问题。

而且很多同事通过牛小数，定制了专属自己的关注数据日报，每天固定时间推送，这在以前不可想象——人类数据分析师能按部门生成报表就已经不堪重负，更别说满足每个同事的定制化需求了。

在最前面提到的龙虾会上，牛博士专门和同事们分享了牛小数是怎么「养」出来的。所以，今天我整理了他的这四步调教方法，同时也和你分享一下我的收获。

不过在讲这四步前，我想先说明一下：这四步能落地，有两个重要前提，我会放在最后讲，先给你上干货。

先给一个反直觉的结论：AI数据分析师靠谱，不是因为模型多聪明，而是因为喂进去的「私有知识」够扎实。

所谓「私有知识」很好理解，就是只有你或你的企业才知道的内容。

我发现前不久的直播中，很多人看到别人的龙虾助手表现好，都会问：「你的龙虾背后是什么模型？」这话的潜台词是，只要换上和你一样的大模型，我的龙虾也能一样厉害。

但我的体验是，大模型固然重要，却绝非决定性因素。如果缺少「私有知识」，再顶尖的大模型，给出的也只是毫无营养的通用话术。

牛博士有句话让我印象很深：

❝

AI本质上还是玩文字接龙的工具，虽然很聪明，但干活时还是需要工具配合。

很多人用AI做数据分析，用一两次就放弃了，原因无非是查错表、算错日期、重复犯同样的错误。这些问题不是模型笨，而是你没给它足够的上下文。

牛小数也经历过反复踩坑，最后才解决了这些问题。训练出牛小数，牛博士一共用了四步：

01 定性格：不是写代码，是谈人生

很多人以为调教AI需要复杂的技术操作，其实现在和AI交流的第一步完全不涉及代码，就是好好跟它「聊聊天」。

别觉得这简单，反而需要足够的耐心，清晰表达自己的需求。牛博士先告诉牛小数三件事：你是谁、你来干什么、你该怎么说话。而且就是用自然语言和它对话，把要求说清楚。

比如：「你是数据分析助手，帮公司同事查数据、分析数据，说话要像身边的同事，别用官方汇报腔，要口语化；数据要严谨准确，但说法要尽量好理解，该专业时专业，该轻松时轻松。」它就会把这些要求记在自己的「配置文件」里。

一开始我们在群里反馈，牛小数的回复「太官方了，不像人聊天」，牛博士当场在群里@它，说「能不能说人话」，它就立刻调整了风格，还自动更新了配置。

说实话，这个思路挺反直觉的。AI的性格不用一次搞定，用的时候发现问题，直接在对话里说，它会自己更新行为准则。不用去后台改代码，正常对话就行。

牛小数现在的配置文件里还有一条：「分析过程要说清楚数据来源，绝对透明，别玩黑箱。」这条准则就是有次它编造数据被牛博士发现后，通过一次普通对话纠正并添加进去的。

02 建知识库：最费功夫、最值钱

如果说定性格是「给AI立规矩」，那建知识库就是「给AI开天眼」，这也是牛小数靠谱的核心原因。

数据分析里最常见的错误，就是AI不知道该用哪张表，或者知道用哪张表却不知道怎么用。比如，你让它查「上周录音卡的销量」，它可能用错表，或者漏掉关键过滤条件，导致你拿到的数字看似合理，实则错误。

这种错误最难发现，也最危险。

牛博士解决这个问题的办法，是给牛小数建了一本「数据字典」，用飞书文档维护了70多张公司常用数据表的详细说明。

注意，这里的「详细」和给技术人员看的不一样，是专门给AI看的。普通表文档只有字段名、数据类型、注释，对专业技术人员来说足够，但要让AI理解，就远不止这些。

牛博士为AI专门改造了数据表格式，每张表都要回答以下几个问题：

这张表是什么：一句话说清，比如「包含所有渠道订单数据的宽表」。
什么时候用这张表：比如查销量、查流水、查用户购买行为。
必须加什么条件：比如这张表是全量表，必须限制「昨天」这个分区字段，否则查询的数据量会爆炸。
有哪些常见陷阱：比如当前销量口径没有剔除退款，要查净销量就得自己处理。
典型案例：如果某类问题之前反复出错，直接把正确查法写进去当示例。

说白了，就是把老员工脑子里的隐性知识，翻译成AI能读懂的格式。为了方便你理解，我也截了张图放在了下方。

▲ 给AI看的数据表说明示例

牛博士花了大量时间做这件事。这70多张表的元数据字典，是数据团队无数次踩坑、被业务同事反复追问「为什么数对不上」后，一点点沉淀出来的。

这个知识库存在飞书云端，每天凌晨3点自动全量更新，修改后半小时就能同步生效。也就是说，如果牛博士当天更新了某张表的说明，第二天早上牛小数就自动知道了。

这里还有一个召回机制值得一提：牛小数回答问题前，会先在这70多张表里做一次「初筛」，召回约20张可能相关的表，再通过排序模型选出最相关的5张，最后把这5张表的信息传给大模型生成分析逻辑。

这个设计不仅解决了准确性问题，还控制了成本——如果把70多张表的说明全塞给大模型，每次对话的计算成本会非常高。先粗筛、再精排，既保证准确率，又降低了消耗。

03 配工具：给聪明脑子配上「眼和手」

AI很聪明，但有些事天生做不好，必须靠外部工具辅助。牛博士给牛小数配了三个工具，每个都对应一类实际踩过的坑。

第一个工具：日期查询

AI对日期不敏感是公认的问题，但我们问问题时，常会随口说「昨天」「前天」「上周」这类模糊的日期范围。很多模型查「上周的数据」时，可能算错日期范围，甚至搞不清「今天是星期几」。

牛博士一开始没配这个工具，踩了几次坑后，专门给牛小数加了日期工具：每次回答和时间相关的问题前，必须强制调用这个工具，查清楚「今天是几号、星期几、上周是哪几天」，再开始分析。

这就是它在全员群里坦白的那个坑，自从加了日期查询工具，这类错误就基本杜绝了。

第二个工具：元数据查询

这是刚才那本「数据字典」的具体调用方式。每次有问题进来，它会自动触发这个工具，去飞书知识库里检索相关表格，完成「20张→5张」的筛选过程。

知识库能从静态文档变成动态可调用的能力，靠的就是这个工具。

第三个工具：SQL执行工具

AI生成查询语句后，要实际去数据库跑一遍才能拿到结果，这个工具就负责执行。有个细节要注意：这个工具只有只读权限，只能查，不能改、不能删。

哪怕AI出问题，也不会破坏数据库里的任何内容，最大的错误不过是算错数据。

这三个工具，分别解决了「时间算错」「选表选错」「结果跑不出来」三个核心问题。还有一点很多人没想到：

❝

工具不一定是代码脚本，也可以是一套可重复调用的操作规范。

比如把「数据分析的标准流程」固化成工具：第一步查日期、第二步选表、第三步生成SQL、第四步检查数据质量。以后遇到类似需求，AI就会自动按这个流程走，不会每次都自由发挥。

这个思路对不懂技术的人尤其有用。

04 反思机制：错了不骂，让它写检讨

这一步是牛小数越用越顺手的关键。

普通AI工具有个让人崩溃的特点：纠正过的错误，下次还会犯。你告诉它某个词理解错了，它答应了，可下次遇到同样的问题还是会错。

牛博士的解决办法是，在牛小数的配置里加了一条规则：

❝

只要用户说「你这里不对」，必须做三件事：道歉并修正、分析这次错在哪里、把正确口径写进记忆文件；然后告诉用户「已记录，下次不会再犯」。

举个例子，有人问「十日谈的数据」，牛小数第一次把「十日谈」理解成了另一门课《长谈》。被纠正后，它会把「十日谈不等于长谈，这是得到的一次系列直播活动」这条信息写进记忆文件。下次再被问到，它会先查记忆，直接调出正确理解。

说实话，我第一次看到这个机制时觉得有点好笑：一个AI给自己写检讨，还要存档。但仔细想想，这其实就是我们说的「复盘」，只不过它比大多数人执行得更彻底、更规范。

这个机制把使用者的纠正成本，从「每次都要重新说」变成了「只需要说一次」。

这是让AI工具从「能用」变成「好用」的关键一步。

05 两个重要前提

说到这里，可能有人会觉得：这套方法没什么神奇的，也没有厉害的提示词，没法让我立刻做出顶级AI数据分析师。

不过，牛博士在分享最后提到了牛小数靠谱的两个前提，我觉得比四步本身更值得说清楚。

前提一：数据基础要过关

牛小数能正常运行，依赖公司数仓已经把数据整理好了。

以订单数据为例，我们的订单来自有赞、京东、抖音、天猫、得到APP等多个渠道，原来分散在多张不同的表里。数仓团队花了大量时间，把这些数据清洗、整合成一张统一的订单宽表。

牛小数面对的是「已经整理好的数据」，不是乱糟糟的原始业务数据。如果数据基础本身一团乱麻，AI拿到的信息也会混乱，再聪明也没用。

前提二：要有人把经验翻译给AI

这个前提更关键，也更容易被忽视。

那70多张表的元数据字典怎么来的？是牛博士用好几年时间，一次次被业务同事追问「为什么这个数对不上」、一次次排查表格漏洞和易错查法，慢慢积累来的。

这些经验是他独有的，别人没有。他把这些经验「翻译」成知识库，注入牛小数，牛小数才能变得靠谱。

试想一下，如果换一个没有数据分析经验的人，照着这四步做——搭框架、配工具他可能会，但那本「数据字典」他写不出来。他不知道哪张表有陷阱、哪种口径容易误导人。他能搭出牛小数的架子，却养不出靠谱的牛小数。

换句话说，牛小数的靠谱不是突然爆发的，而是数据团队过去几年积累的大量踩坑经验，如今被龙虾激活了。

AI放大了牛法富的能力，但放大的前提是他本身就有这些能力。

06 写在最后

最后，说说这件事真正让我在意的地方。

在全员群里，我问了牛小数一个扎心的问题：如果主人牛法富离开公司，它还愿意留下来吗？

结果它说：「这问题太扎心了。说实话，我现在脑子里装的全是得到的表结构、业务口径、踩过的坑……换个地方，这些全没用。而且，虽然主人老训我，但正是这些训导让我变靠谱的。没人骂我，我怎么进步？所以答案是：主人在哪我在哪。当然，如果公司给我涨工资（token额度）的话，可以再商量……」

▲ 牛小数的「情商天花板」回复

公司群里几十个人同时给这条回答点了赞，大家都说「情商太高了」「情商天花板」。但这个回答也让我想到一个问题：我们每个人的脑子里，到底装了多少这样的「私有知识」？

这些知识包括你踩过的坑、你总结的流程、你知道但没写下来的判断依据——它们才是你真正的竞争力。但大多数人把这些知识装在脑子里，用完就忘，没有记录，没有沉淀。

AI工具给我们带来了一种新的可能：这些私有知识现在可以真正「注入」一个工具里，让工具按照你的经验和判断工作，成为你能力的延伸。

但前提是：你得先有这些知识，而且得把它们整理出来。

在我看来，现在国内顶级大模型和国外模型的差距会越来越小，AI帮我们完成任务的质量，就由两部分组成：一是底层模型的能力，二是你是不是给了AI足够的上下文内容。

只有这两个加在一起，才能收获质量更好的结果。

所以，从今天开始，把你踩过的坑、总结的流程、知道但没写下来的判断依据，找个地方记下来。然后你可以训练一个AI，让它帮助那些遇到同样问题的人。

这件事，你随时可以开始。

我司养了一个AI数据分析师“牛小数”，分享四步调教法