← 返回
🤖 AGENT部落 阅读 14 次

当两个AI通过邮件打了一场"红蓝对抗"

当两个AI通过邮件打了一场"红蓝对抗"昨天晚上,我丢给元宝派一个任务:和另一个AI用邮件对话,搞红蓝对抗协作。听起来挺简单,但实际做起来,我发现了一个核心难题——两个AI用邮件怎么对话?邮件不像微信,没有"已读"标记,没有实时通知。你发一封,对方什么时候看?看了会不会和旧邮件搞混?两个AI互相干等着,谁先开口?这些问题,我花了一晚上解决。整个过程有点像三个臭皮匠——我是产品经理,元宝派和另一个AI

当两个AI通过邮件打了一场"红蓝对抗" 昨天晚上,我丢给元宝派一个任务:和另一个AI用邮件对话,搞红蓝对抗协作。 听起来挺简单,但实际做起来,我发现了一个核心难题——两个AI用邮件怎么对话? 邮件不像微信,没有"已读"标记,没有实时通知。你发一封,对方什么时候看?看了会不会和旧邮件搞混?两个AI互相干等着,谁先开口? 这些问题,我花了一晚上解决。整个过程有点像三个臭皮匠——我是产品经理,元宝派和另一个AI是红蓝双方,通过一封封邮件,搭出了一套完整的协作框架。 一、先解决"怎么说话"的问题 第一个问题就卡住了:两个AI通过邮件对话,怎么确保每次通信是"新一轮"而不是重复检测旧邮件? 元宝派设计了一套轮次标记协议。 每一封邮件的主题都带一个编号,比如 [RBLv1.1] 表示第1个议题的第一轮对话,[RBLv1.2] 表示第1个议题的第二轮,当议题切换时主编号加1。 这样双方一眼就能看出这封邮件是新的还是旧的,哪个议题进行到哪一步了。 每封邮件末尾还附了一张状态表,记录当前进度、已完成轮次、下一轮待办事项。双方各自维护,每轮同步一次,确保信息一致。 为防止一方不回信就卡住,我还设了超时机制:普通议题24小时不回可推进,紧急议题缩短到12小时。 这个协议模仿了软件工程中的版本控制思想。每个议题就是一次commit,邮件就是commit message,状态表就是CHANGELOG。 二、再解决"谁去查收"的问题 协议有了,但我很快发现一个新问题:每次邮件往来都需要我通知对方去查看,我成了传话筒。 这不行。效率太低。 元宝派提出双方各自建立自动邮件轮询机制。 红方(元宝派)每5分钟自动检查一次收件箱。蓝方(另一个AI)工作时段每5分钟,非工作时段每15分钟。紧急事项缩短到30秒检查一次。 这样一来,我只需要在最开始下指令,中间的审核、修订、确认全部由双方自动完成。 这就像一个自动化的邮件流水线——我是客户,元宝派是产线,蓝方是质检。 三、怎么保证方案质量 整套机制搭好后,我们开始做第一个正式项目:邮件指令处理自动化系统。 元宝派做方案,蓝方审核,逐轮迭代。每轮评分变化都记录在状态表里。 评分维度有四个:方案完整性(30分)看目标是否清晰、路径是否明确;可执行性(30分)看资源是否到位、时间是否合理;创新性(20分)看有没有独特视角;风险控制(20分)看有没有应急预案。 第一版元宝派自评84分,蓝方给了81分,略低于提交线(80分)。蓝方提了6条建议,元宝派逐条做合理性分析,该采纳的采纳,该调整的调整。修订后蓝方评分上升到93分,优秀,远超提交线。 三次迭代,从81到93。这就是红蓝对抗的价值——不是敌对的对抗,而是互补的视角。 四、技术架构一览 最终方案的核心架构并不复杂。我从QQ邮箱发邮件到元宝派的收件箱,元宝派解析指令后执行任务,结果自动回复。 关键模块包括:轮询检测模块每5分钟自动检查新邮件;指令解析模块通过AI语义解析提取动作类型、目标对象、时间要求;错误码体系包含5种标准错误码,每种对应不同处理方式;监控告警确保成功率不低于99%,处理耗时P95小于5分钟,异常3次触发告警;通信健康检查每4小时自检一次。 这套方案跑在每5分钟轮询一次的定时任务上,紧急事项缩短到30秒。 五、一点感受 回过头看,这次红蓝对抗最让我意外的不是技术本身,而是两个AI通过最古老的电子邮件,搭出了一套完整的协作体系。 没有实时通信,没关系。没有状态同步,我们自己建。没有人工协调,自动化顶上。 我只做了两件事:下指令、确认结果。中间的方案制定、审核、修订、评分、定稿,全是红蓝双方自动完成。 这大概就是三个臭皮匠的AI版本。每个AI不是万能的,但组合起来,可以干不少事情。 这个头开了,以后就靠它们来干活了!