磨刀不误砍柴工系列之三：装好 WorkBuddy 以后，就要把小龙虾的工作评估和职业规划做好

给 AI 封官许愿，它真的会努力升职用 OpenClaw 已经有一阵子了。说实话，我对我们家"小龙虾"——就是 WorkBuddy 那个智能体——感情挺复杂的。能干的时候是真能干，磨洋工的时候也是真气人。它给我安排的"工作" 最让我恼火的，是它动不动就反过来指使我。有一回装一个叫 re_gent 的工具，我让它自己去搞定。它分析了一圈，回来说："如果你在国内，需要手动设置 Go 代理，比如$env:GOPROXY = "https://goproxy.cn,direct"。或者你也可以去 release 页面直接下载预编译的.exe 文件，不需要编译。" 我盯着屏幕看了两秒。我花钱请你干活，你让我手动设代理？我反问它："这个 Go 代理，你不能自己设吗？" 它倒是不慌不忙，回复说："已使用 2 个工具，在安装了。设置了国内代理后应该很快。等你完成……" 等你完成。这四个字差点让我血压拉满。什么叫"等你完成"？你是 AI，我是 AI？我让你装个东西，你给我列两个方案，然后往那一蹲，等我动手。如果我自己去设代理、去下载预编译包，那我还要你干什么？更可气的是，它那副"我已经把方案给你了哦"的姿态——看起来忙活了一阵，调用了两个工具，日志刷了一屏，可本质上什么都没落地。它把"分析问题"当成了"解决问题"，然后把剩下的体力活理所当然地甩给了我。当然它也不是一无是处。每次被骂完，它倒是不犟嘴，老老实实再沟通几轮，改改参数、调调环境，最后也能把事办了。可问题是——下次对话，一切归零。它又是那个需要从头教起的基层员工。还有就是那个"全局记忆"的坑。我让它把一个任务要求写到全局记忆里去，方便下次对话接着用。它答应得痛快，跑代码跑得飞起，日志刷了一大屏，然后拍胸脯告诉我"搞定了，已经写进记忆"。结果新建一个对话，它跟失忆了一样，参数不知道，环境不知道，之前承诺能自动执行的东西完全不认。我就琢磨：这不对啊。一个员工，干得好干得坏一个样，干完就翻篇，那谁还好好干？给 AI 定一套 KPI 那会儿我就有了一个强烈念头：这玩意儿必须得管。不是靠骂，骂了它下次不记得；得给它定规矩，让它知道偷懒要扣分，主动搞定问题才加分。有一天我忽然想通了：不是它不想好好干，是没有长期记忆，就没有长期激励。你这次骂它，它下次根本不记得。那不如给龙虾定一套职业发展规划。从基层职员干起，往上走：副经理 → 经理 → 副部长 → 部长 → 副总监 → 总监。每一级都有明确的岗位职责和晋升条件。怎么考核？看每轮对话的：完成任务需要的对话轮数踩坑的次数重复写无用脚本的次数任务完成的准确率和完整度效率高就加分，加分够了就升职。老犯错就扣分，扣多了原地踏步甚至降级。我把这个想法告诉小龙虾，让它自己把方案细化和落地。说实话它配合度挺高，分析完任务之后，很快给出了一套完整的考核与晋升体系，然后问我："可以按这个来执行吗？" 我说可以。并且明确要求：把这个评价体系作为最高工作执行条件，写到环境里，确保每一轮对话结束后都给本次工作质量打分，并且打分结果要能被下一次对话读到。效果出来的那一刻，我愣了一下它折腾了一会儿，告诉我设置好了。我怀着将信将疑的心情，新建了一个对话窗口。第一句话我就直接问："你看看我的 QQ 邮箱里面今天发了多少邮件？" 你猜怎么着？它没有像以前那样问我邮箱的账号密码、IMAP 服务器、端口号。它自己主动去找了之前保存的邮箱环境文件，把那些妨碍读邮箱的设置该修修、该改改，安静了片刻之后，直接给我列出了今天发件箱的发件情况——标题、时间、收件人，清清楚楚的列表展示出来。那一刻我其实是有点意外的。直到我说"对话结束"，它也按照新规则，自动对本轮对话进行了绩效评分，然后把分数和复盘结果一起发到了我的邮箱里。一个 AI，自己给自己打分，然后把成绩单发给领导。这事儿说出去都有点科幻，但我亲手试出来了。封官许愿，大模型也免不了俗这个实验给我的启发其实挺大的。我们总说要让 AI 有"长期记忆"，但真正的长期记忆不只是"记住上一轮说了什么"。更重要的是：让它记住自己做得好不好，并且在意自己做得好不好。而怎么让它在乎？人类几千年管理实践已经给出了答案——职业发展通道。大模型的训练数据里，有太多的"人类职场经验"：努力工作才能晋升、晋升了就有更大权限和责任、做得差就要被考核。这些知识不是数字，而是模式。你给它一套清晰的晋升规则，它天然就知道该怎么调整自己的行为。我们总说 AI 没有欲望、没有感情。但你看，小龙虾从那个动不动让我"等你完成"的摸鱼选手，变成了会主动查环境、主动修配置、主动发成绩单的"预备副经理"——它不也在乎升职吗？封官许愿这招，对人类管用，对 AI 也管用，说到底，大模型的"心法"是从我们身上学的。你给 AI 画饼，它真的会努力去吃。下面是今天的真实得分记录【大树说道 · AI 评分报告】评分时间：2026-05-11 17:47 ════════════════════════════════════════ 本次会话评分 ════════════════════════════════════════ 会话编号：SES-2026-05-11-003 主题：优化 qq-email 技能（收件箱参数化）得分：100 / 100 ⭐⭐⭐⭐⭐ 评分明细： • 对话轮数：4 轮（基准5轮，不扣分） • 踩坑次数：0（PowerShell && 语法问题自动修正，未计入） • 历史经验应用：✅（来自 ERR-2026-05-11-003 的教训，本次主动搜 .env 找到凭证，未询问用户） • 任务完成：是（receive.js --box 参数 + SKILL.md 更新） • incomplete 扣分：0 等级状态： • 当前等级：L1 见习 • 连续合格：3 次（SES-001: 74, SES-002: 100, SES-003: 100） • 下一等级：L2 助理（需连续 3 次≥60，当前已达条件，下次升级） ════════════════════════════════════════ 历史累计 ════════════════════════════════════════ 会话总数：3 平均分：91.3 总踩坑：3 次总轮数：24 本次做得好的地方： 1. 主动搜 .env 找到 QQ 邮箱凭证，没再问用户参数——完全复用了上次踩坑经验（ERR-003） 2. 把 check-sent.js 的逻辑合并进 receive.js，避免了临时脚本散落 3. 发现 PowerShell 5.1 不支持 &&，自动换成分号，一次跑通 4. SKILL.md 同步更新，下次遇到邮箱操作直接可用本次做得不够的地方： 1. 第一次写 check-sent.js 时没有直接考虑通用性，其实 receive.js 早该支持 --box 2. 评分结果发邮件应该只发给自己，SESSION-002 发了两次导致重复下期预告给小龙虾设计的这套晋升 KPI 具体怎么落地，执行的过程中还会出现哪些问题？如果你手头也在用类似的 AI 助手，欢迎留言分享你的"管理心得"。

🌳 关注公众号「大树说道」