梦溪笔记 – 享受生活，快乐人生

AI+教育，99%的公司都在扯淡

原文：https://mp.weixin.qq.com/s/Yc1-1d88aVQMn0wwzqHLqA

任何行业，只要加上AI的概念，就有了讲故事的空间。讲故事很容易，做好产品很难。
AI+ 教育亦是如此。你以为AI在帮孩子学习，实际上AI在帮孩子偷懒。你以为AI在给孩子讲题，实际上AI在直接给答案。
大部分人对AI教育的理解，从根上就错了。你以为拼的是大模型有多牛逼，其实根本不是。真正的AI教育，是多层技术栈的系统工程。99%的公司，连第一层都没做透。

教育的最小单元

教育说复杂很复杂，说简单也简单。

不管你用什么方法、什么工具、什么理论。

最终要把一个学生教会，本质上就是三件事：

第一，你得先知道他哪里不会。

第二，你得用他听得懂的方式，把不会的给他讲明白。

第三，你得确保他真的学会了，而且不会忘。

第一层：诊断

先搞清楚一个问题

为什么同样是错题本，有的越用成绩越好，有的越用越差？

因为前者在补”知识点”，后者在补”题”。

诊断，就是把”一道错题”还原成”整个知识体系漏洞”的那一步。

以前靠考试，一张卷子两小时，效率极低。孩子数学考 60 分，老师说“计算不行”，狂练三个月计算还是 60 分。真正的问题可能是三年级的“分数通分”没学好，导致后面所有涉及分数的复合题全错。补错地方了。

AI 诊断解决的就是这个问题：不用等考试，做几道题，就能精准定位出知识点里哪些没掌握，甚至追溯到是几年前的哪个前置漏洞导致的。

背后的技术栈：自适应的三代演进

这套系统不是黑科技，是教育行业几十年的算法演进，在工程落地中主要经历了三代变化：

第一代：IRT（项目反应理论） —— 相当于给题目的“难度”和学生的“战力”做个天平。学霸和差生做对同一道题，系统给加的经验值是不一样的。缺点是它是个静态快照，只能看当前，算不出你明天的变化。

第二代：BKT（贝叶斯知识追踪） —— 20年前自适应平台的核心。它给每个知识点安了一个动态胜率表，做对概率上升，做错概率下调。缺点是太孤立，看不懂知识点之间的连带关系。

第三代/前沿：DKT（深度知识追踪）与 GKT（图知识追踪） —— 依托深度学习。因为纯 DKT 是个不可解释的黑盒，现在业界头部的落地选型是 GKT（图知识追踪）+ 显式知识图谱。最新前沿甚至在尝试用 LLM 增强知识追踪（把学生的错因文本转化为高维向量灌入模型），完美复现知识点间的“塌方效应”。

这里面最难的根本不是算法，而是底层的知识图谱拆得够不够细（也就是微技能打标）。

“一元一次方程”只拆成一个点，再牛逼的模型也没用。必须拆到“识别同类项、移项变号、去分母”这种微技能（Micro-skills）级别，诊断才能真正精准。

大部分产品所谓的个性化，闭环逻辑粗暴得搞笑：学生做错了→ 自动丢进错题本→ 下次推同类型题。这不叫个性化，这叫错题本电子化。

真正的诊断，是穿透题目表面，看到底层的认知缺陷：能清晰区分出“这道几何题做错，到底是辅助线没掌握，还是代数计算粗心”。

看一个真实案例

Carnegie Learning：专做 K12 数学自适应。他们的 MATHia系统，光是“一元一次方程”就拆成了 17 个微技能节点。孩子做错题，系统精准提示：“你的问题出在‘移项变号’上，当前掌握概率只有 32%。”

就诊断这一件事，他们死磕了 15 年。

这，才仅仅是第一层。第二层：教学

先下一个定义

直接给答案的AI，是搜题工具；会提问的AI，才是老师。

好的教学，不是把答案灌输给孩子，是一步步引导孩子自己想明白。

很多人以为，AI 讲题不就是把题目扔进 GPT，让它输出解题步骤吗？

这样做，会遭遇三个致命硬伤：

幻觉与超纲： 明明是小学几何题，它可能会给出高中的向量解法。
不讲人话： 开口就是“根据定理 3.2 我们可以得出…”，学生完全听不懂。
零引导： 直接给终极答案，剥夺了学生的思考过程。

真正的 AI 教学系统，孩子拍了张照上传，它不会直接给答案，而是扮演“苏格拉底”，一步步启发：

“你看看这两个三角形，有没有发现什么关系？”

“如果这两条边相等，对应的两个角是什么关系？”

背后的技术栈：启发式教学的五个底层模块

要实现这种“像好老师一样”的启发式对话，绝对不是接个 API 就能搞定的，背后是一整套复杂的工程栈：

垂域大模型微调（说人话）： 通用模型是不懂教学规律的。你得用数十万小时的名师讲题录音、结构化题库去专门调教它，把模型从一个“冷冰冰的学者”变成一个“懂克制、会说人话的老师”。

多智能体反思架构（后台自纠错）： 单一模型讲题很容易陷入“自圆其说”的幻觉——自己算错了还觉得自己特有道理。成熟的产品在线下会跑多 Agent 对抗，一个负责解题，一个扮演“纠错官”，一个负责把步骤拆成提问。在把话发给学生之前，它们在后台先“打一架”，确保万无一失。

视觉解析与符号几何引擎的耦合（神经网络+符号主义）： 理科的几何题是重灾区。光靠大模型盲猜辅助线，准确率是不稳定的。必须通过视觉识别（OMR）看懂图形的拓扑关系，再把关系输入给确定的几何解题引擎去算，用机器的严谨去补足大模型的“感性”。

对话状态追踪与延迟控制（不冷场）： 讲题是长轮次对话。系统不仅要精准追踪学生“卡在哪一步”，更要在工程上把首字响应延迟（TTFT）压到 3 秒以内。在教学中，超过 3 秒的停顿冷场，孩子的注意力就彻底散了。

教学策略引擎（因材施教）： 这是一个强化学习问题。系统能从数据里学会：对基础薄弱、容易气馁的孩子多鼓励、多用大白话；对学霸则言简意赅，直接点拨核心。

看一组真实数据

宾大沃顿商学院曾针对近 1000 名高中生做过一项严格的随机对照实验（RCT），他们被分为三组：

第一组： 传统教学，不使用任何 AI。
第二组： 使用普通 ChatGPT（直接搜答案）。
第三组： 使用加了教学护栏的 AI Tutor（引导式讲题）。

实验结果让人警醒：

普通 ChatGPT 组： 刷题练习时成绩暴涨 48%，但到了独立正式考试，成绩反而比不用 AI 的普通学生还要低 17%（学生对直接要答案产生了严重的心理依赖）。
引导式 AI Tutor 组： 练习成绩暴涨 127%，正式考试成绩也获得了显著的实质性提升。

差的不是大模型，是大模型内外的多层教学策略和引导护栏。

这，是第二层。

第三层：练习

再理解一个现象

讲懂了，不代表学会了。学会了，不代表不会忘。在传统教育里，练习和复习才是真正拉开学生差距的地方。

很多 AI 教育产品在“讲完题”之后就撒手不管了，这就是它们没用的根源——它们只做了“输入”，没做“内化”。

同样是学一个知识点：

有的孩子可能学一遍就记住了。
有的孩子可能写了十遍，过三天还是忘。这真不是孩子笨，而是刷题的节奏、复习的时机完全搞错了。

好的 AI 练习系统，就像一个全天候盯着孩子的私教。它会死死记住你家孩子哪个知识点容易忘，在快要遗忘的临界点突然推一道题过来巩固，直到真正变成长期记忆。

背后的技术栈：自适应练习的四大内核

这一层外行看不见，也吹不了牛。它在底层其实是一套纯粹的数据闭环，通过算法把刷题变成了“打游戏”：

最近发展区： 算法在给学生挑题时，既不挑太难的（打击自信），也不挑太简单的（浪费时间）。它永远在计算你的能力边界，保证下一道题刚好在你的“最近发展区”——就像打游戏，关卡难度刚好是你踮起脚尖、集中精神就能打过的“精英怪”。

知识追踪模型： 这是个强化学习问题。学生每做一道题、每看一分钟视频，甚至在题目上停顿了十秒钟，数据都会被喂进模型，实时更新他对每个微技能的掌握概率。在系统后台，学生的“技能雷达图”和“知识点血条”每秒钟都在变。

间隔重复算法： 大家都听过艾宾浩斯遗忘曲线，但怎么用好它？算法会根据你前几次的做题速度和对错，精准算出你对这个公式的“半衰期”。不等你全忘光，在记忆即将断裂的那个早晨，它会准时把复习题推到你面前。

流式行为数据分析： 厉害的系统连学生做题时鼠标的停顿、手写笔的回退、修改轨迹都能捕获。你在这里卡了 15 秒，系统就知道你虽然最后做对了，但其实是在纠结两个公式，掌握得并不扎实。

看不见的基本功

练习这一层，在产品发布会上最难吹牛。因为你没办法在 PPT 上跟观众吹：“我们的间隔重复算法让复习效率优化了 2%”，观众听了只想打哈欠。

大家都喜欢吹“我们的大模型参数有多少亿”、“我们的生成速度有多快”。但真正决定提分效果的，往往就是这些看不见的、极其枯燥的、需要用真金白银砸数据去跑 A/B 测试的算法细节。

AI 教育是个真正的慢生意。你得沉下心来，一年一年地跑数据，一毫米一毫米地磨细节。这里，没有任何捷径可走。

这，是第三层。
AI+教育的三个闭环

市面上 99% 融了钱、开了发布会的 AI 教育产品，在接下来的两三年里大概率会无声无息地死掉。

不用看它的大模型参数有多高，也不用听它的营销故事有多性感。在商业落地和用户留存的生死线上，你只需要用三个闭环指标去穿透它：

1. 结构化内容闭环：你的“颗粒度”能支撑算法跑多远？

如果一个项目宣称自己用的是大模型自适应，你只需要看他的知识图谱打标精度。

伪概念： 连自主知识图谱都没有，指望大模型靠语义理解直接去猜学生的漏洞。

真壁垒： 能够跨学科拆解出 10 万个以上的微技能（Micro-skills）节点，并且有底气掏出针对 Bad Case（错误标注）的动态修正流。算法只是发动机，强结构化的内容图谱才是原油。没有原油，再好的算法也是空转。

2. 跨模态工程闭环：你能否跨越“神经网络”与“符号主义”的鸿沟？

K12 教育（尤其是数理化）是重度依赖图形、公式和长文本推理的。

伪概念： 拍一张模糊的几何题照片，直接调用一个通用多模态大模型 API，然后赌它输出解题思路的正确率。

真壁垒： 前端靠高级 OMR 进行视觉拓扑解析，后端必须将数据降维，灌入确定的几何符号引擎（Solver）。能清晰报出自身在权威数据集上的跑分，并把端到端首字响应延迟（TTFT）卡在用户注意力分散之前。跨不过这道工程坎，产品体验就是灾难。

3. 数据与评测闭环：你是在做“体验爽感”，还是在做“统计学显著”？

伪概念： 拿不出任何严谨的数据，只会用“用户反馈很好”、“孩子更爱学习了”这种无法量化的感性词汇来掩盖留存率的拉胯。

真壁垒： 能够真正跑通随机对照实验（RCT）。敢于把真实的样本量、对照组数据、提分百分点以及 $p < 0.05$（统计显著性）的实验报告拍在桌子上。只有通过了统计学检验的产品，才具备真正的续费壁垒。

这三个闭环，就是大模型浪潮退去后，AI+教育真正应该思考的方向。

AI 从不负责凭空创造教育奇迹，它只负责把那些对教育规律的纯粹敬畏、对教育细节的工匠雕琢，精准地转化为因材施教的生产力。
后记

每一次技术浪潮来临，行业都在争论“AI 会不会让老师失业”。

这个讨论，从一开始就失焦了。

在过去很多年的时间里，我们的学校和机构被迫采用了“流水线”式的工业化教育：一个老师，带着 50 个学生，用统一的教材，用同样的进度，刷同样的题。

在这种模式下，老师被迫变成了“讲题机器”和“批改工具”，他们 70% 的精力都在做毫无技术含量的机械重复。而学生，则被迫抹平了个性，去适应流水线的速度。

AI 教育真正的变革，不是消灭老师，而是要终结这种反人性的工业化流水线。

它把老师从“讲题机器”的苦役中解放了出来。

省下来的时间，老师终于可以去履行教育最本源的职责：去观察那个坐在角落里、内向不敢举手的孩子；去和最近状态下滑的学生在操场上散散步、聊聊天；去点燃孩子的内驱力，去培养他们的批判性思维和创造力。

AI 负责把知识“降维传输”，老师负责把灵魂“升维点燃”。

这场变革才刚刚开始。

那些只会念 PPT、只会逼学生机械刷题的“生产线工人”，确实该面临转型了；

而那些真正有温度、有信仰的教育者，又怎么会轻易被AI替代。

为什么你的 SEO 做了几年越做越死？Google 底层五层闭环逻辑给你说透

文章转自大罗SEO: https://mp.weixin.qq.com/s/9YaKNHsv2f_Ua4j0B8AjxA?scene=334

太长不看版：

我看完整篇文章后总结而言，要专注 + 要想办法提高用户在网站上停留时间，做对目标用户而言有用的内容。

保持网站专注
保持用户停留时间30s以上，没收录，没外链的内容该删删
尽可能争取行业权威媒体，网站的外链

原文

很多人天天在朋友圈看各种 SEO“大神”吹牛，今天说这个算法更新，明天说那个秘籍。

其实，真正能看清 Google 底牌的机会就一次。

2024 年 3 月，Google 内部一份技术文档库被公开索引了。

足足 14,014 条内部技术记录，没有任何美化，里面不是宣传口径，而是底层逻辑。

我花了两周时间把这些记录翻了一遍，感受很直接：

Google 嘴上经常说“做好内容就行”，但文档里看到的是另一套东西：它用一套很严密的“五层打分系统”在评估你的网站。

最要命的是，这五层分不是各算各的。

它们像齿轮一样扣在一起，只要有一层出了坏信号，就会把其他几层一起拖下水，整站流量就开始雪崩。

今天我不跟你扯那些看不懂的代码，我用最直接、大白话的方式，给你把这五层系统扒得清清楚楚。

做外贸站、SaaS、跨境电商 SEO 的，可以重点看，直接上干货。

怎么理解 Google 的这套“五层打分系统”？

在聊细节之前，你脑子里先得有这张全局图。

第一层：整站质量评分（你的网站在同行里到底算老几）

第二层：主题聚焦（你这个站到底是干嘛的，有没有乱写）

第三层：外链信号（别人怎么评价你，谁在给你背书）

第四层：用户行为（用户点进来之后，是满意地看完了，还是骂骂咧咧地秒退）

第五层：内容质量（你的内容是花心思写的，还是用 AI 批量洗出来的）

听着很简单对不对？

但我想告诉你一个被所有人忽略的核心真相：

这五层不是一个清单，而是一个闭环系统。

在泄露的文档里，有一个贯穿始终的关键变量，我们可以叫它“整站表现评分”。

Google 会拿你的网站和同类型网站做全方位的对比。

这个评分一旦低了，它会直接削弱你外链的效果，甚至让你的内容直接进“低质量过滤器”。

反过来，用户在第四层的糟糕表现，又会直接拉低第一层的整站评分。

这叫一荣俱荣，一损俱损。

为什么有些站跌下去，就再也回不来了？

Google 之前在公开场合多次否认过他们有“站点权威评分”这种东西。

但这次文档里，相关信号写得很清楚。

文档里清清楚楚地写着：系统会根据整站的表现进行综合打分，并直接参与排序。

所以，别只听 Google 对外怎么说，要看它内部怎么计算。

在整站质量这一层，最恐怖的逻辑是：惩罚是会叠加的。

以前我们只知道 Google 有个旧版过滤器，专门抓那些字数少、没营养的垃圾页面。

但文档显示，现在多了一个新版过滤器，还是叠加在旧版之上的。

也就是说，如果你的网站整站评分差，你不是被罚一次，而是新旧过滤器一起伺候你。

这还没完，后台还有低质量标记、导航降权、非权威评分等好几个惩罚维度。

一个质量差的网站，可能同时背着四五个惩罚。

这就解释了为什么很多外贸站经历一次核心更新后，流量不是一天跌完的，而是每周跌一点，持续跌半年。

因为惩罚在叠加，你的整站质量分已经进入了下滑循环。

救这种站，去改一两篇文章的标题根本没用。

你得下狠手，把过去一年完全没有流量、没有排名、没有外链的“僵尸页面”全部找出来。

该删就删，该合并就合并，该做 301 跳转就做 301 跳转。

别让这些垃圾页面拖累你的整站质量分。

关于这段话，我现在有遇到这个问题，我把我的网站从老域名迁移到新域名，现在已经有2个月了，但是新域名流量还是很低， GSC上能看到的索引很少，我不确定是google新算法认为我们的站点质量低了还是需要时间处理，预期要多少时间处理呢？我该在什么时机进行删减流程？早了我怕工作白费，晚了我怕流量没了，真的好纠结。

为什么乱写内容的网站死得最快？

很多老板做外贸站，觉得内容越多越好。

今天写个 CNC 加工工艺，明天写个太阳能电池板趋势，后天为了蹭热度，甚至写了一篇 AI 行业展望。

老板觉得自己网站真丰富，什么都懂。

但 Google 在后台，其实在算两样东西：

第一，你整个网站的“主题指纹”；

第二，你每一个单页的“主题指纹”。

如果这两个指纹对不上，Google 就会觉得你这一页“长错了地方”，直接不给权重。

更关键的是，Google 还会给每个网站分配一个“主类别”。

如果你在这个主类别里深耕，写的内容和主类别高度相关，你会拿到额外的加分。

如果你乱写，Google 就会在后台判定你的网站“主题不聚焦”。

所以，做 SaaS 和外贸 SEO 的人，别再什么词都想写了。

如果你是个做发票自动化 SaaS 的，你就给我先把发票处理、应付账款、识别流程这些主题写透。

不要一上来就写什么“企业数字化转型的未来”。

这种词流量再大，离你的“主题指纹”太远，写了也是白写，反而稀释了你网站的专业度。

现在的外链到底怎么发才算有效？

关于外链，Google 以前说他们已经不用老一套的链接算法了。

确实，因为他们升级了，现在用的是“距离加权链接评分”。

用人话说：Google 的系统里有一批绝对信任的“源头网站”（比如顶级高校、政府网站、超级新闻门户）。

你的网站离这些“源头”有几代关系，直接决定了你链接的价值。

如果一个行业大媒体直接链向你，你就在信任圈内，这个链接极其值钱。

如果你是从别人买来的、倒了五六手的垃圾博客链过来的，基本就没什么价值。

这就解释了为什么你买了 100 条廉价外链，排名动都不动一下。

另外，关于链接，文档里还坐实了三个非常重要的细节：

第一，内链和外链都重要。内链的锚文本用得好，效果不比很多外链差，关键是你自己能控制，不用花一分钱。

第二，锚文本旁边的字也很重要。别只链接“点击这里”。链接周围如果有你的核心概念，Google 能读出来。

第三，权威链接可以“背书”。如果你的行业比较敏感，只要拿到一个顶级权威站的链接，它就能把你想办法搞来的其他普通链接带起来。

做外贸和 SaaS 站，外链就按这个优先级去搞：

行业媒体和行业协会 > 合作伙伴和客户案例 > 优质行业博客 > 展会和供应链目录。

至于那些群发的、首页全站链接的垃圾外链，趁早离远点，后台全有对应的风险标记在等着你。

Google 真的能监控到用户在网站上的小动作？

很多技术派 SEO 觉得，只要我技术指标做好了，用户在网站上干嘛 Google 管不着。

其实Google 一直在通过Chrome记录用户的真实行为。

他们看点击率，看留存，其中有一个特别重结果要的指标“坏点击”。

什么是坏点击？

用户点进你的页面，看了一眼，5 秒钟之内就按了返回键，回到 Google 继续搜。

这就是最典型的坏点击。

如果你的网站有很多坏点击，系统会判定你货不对板，直接降低你这页的测试频率，进而拉低整站评分。

你想想，很多外贸站页面点进去，全是毫无意义的套话：我们是专业的制造商，提供一流的服务。

没有具体的材料规格，没有交货周期，没有质检报告，甚至连张高清的设备图都没有。

买家点进来，两秒钟就退出了。

这就是为什么你把关键词堆得再好，排名也会在两周内掉光。

因为用户用脚投票了，Google 记下来了。

这也是为什么那些用 AI 批量生成、没有任何人工干预的“垃圾内容站”死得快的原因。

因为根本没有活人在这些页面上停留。

没有真实的用户行为数据支持，你的整站质量评分就是一坨死水，根本涨不动。

～

怎么写文章才能让 Google 觉得我“用心了”？

到了最底层的内容质量，Google 理解内容的方式已经不是“关键词匹配”了。

它在做“概念识别”。

比如你写一篇关于“外贸建站”的文章，你不用在一句话里重复五次“外贸建站”。

Google 会去看你的文章里有没有出现“域名”、“服务器”、“询盘转化”、“SSL 证书”、“响应式设计”这些关联概念。

概念覆盖得越自然、越专业，它就觉得你写得越深。

更可怕的是，文档里明确提到，Google 有一个 AI 模型在评估作者在文章里“付出的努力”。

你随手用 AI 写的干瘪文章，跟一篇有真实数据、有个性化观点、有精美图表的深度好文，后台算出来的“努力度评分”是天壤之别。

还有一个重点：AI 检测是整站级别的。

你偶尔用 AI 润色一两篇没事，如果你整站 80% 的内容都是 AI 批量生成的，系统会算出一个“整站 AI 内容比例”，直接给整站降权。

还有，别再玩那种“改个标题年份就当成新文章”的把戏了。

文档里有专门记录页面“真正更新时间”的字段。

要更新，就老老实实地加数据、加案例、重写陈旧段落。

这五层系统，到底是怎么互相咬合的？

现在，我们把这五层串起来看，你就能明白 Google 的游戏规则了：

你的内容不用心（第 5 层） → 用户进来秒退（第 4 层） → 产生大量坏点击，拉低整站质量评分（第 1 层） → 触发低质量过滤器（第 1 层） → 导致你之前辛苦做的外链全部失效（第 3 层） → 所有页面排名全面下滑。

这是一个极其残酷的系统。

想要排名上去，你必须五层都及格，才能拿到好结果。

但想要排名掉光，你只需要在其中一层作死，就会产生链式反应。

所以，别再迷信那些取巧的“短期见效”手段了。

老老实实把这个闭环跑通，才是唯一的正道。

～

给你一套马上能落地的“五步自救清单”

如果你现在手里正管着一个外贸站或者 SaaS 站，别再急着去发那些没用的 AI 文章了。

今天开始，按我说的，一步一步做这五件事：

第一步：整站大扫除

打开你的 Search Console 和 GA4。

把过去 12 个月完全没有流量、没有排名的页面全部导出来。

能合并的合并，能重写的重写，实在没用的，直接删掉，不要手软。

确保留在站上的每一个页面，都是对用户有价值的。

第二步：锁死主题边界

别再做“百科全书”了。

如果你做工业泵，就把泵的选型、材料、常见故障、行业应用写透。

做 SaaS 的，就把具体的使用场景、痛点解决方案写成专题。

一个专题不打透，绝对不碰下一个专题。

第三步：重做你的内链网络

检查你核心想要排名的“产品页”或“解决方案页”。

从你写过的优质博客文章里，找出和这个产品相关的段落，手动加上指向产品页的内链。

锚文本要自然，不要千篇一律地用同一个词。

第四步：解决“5秒跳出”问题

去盯着你那些流量大、但跳出率极高的页面。

是不是第一屏太丑？是不是全是废话？

在首屏最显眼的地方，直接给出用户最想要的答案，或者放一张核心产品对比表。

只要能把用户留住 30 秒，你的整站质量分就会开始回升。

第五步：给核心内容“人工加料”

把那些有排名的核心文章拿出来。

把 AI 写的、空洞的段落删掉，换成你自己的行业经验、客户的真实反馈、或者是具体的避坑指南。

每隔半年，根据行业的新变化，给这些文章增加 10% 的真正新内容。

相信我，在这个全网都是 AI 垃圾内容的时代。

只要你多花 10% 的心思，去做别人懒得做的脏活累活。

Google 的这套系统，至少会更愿意把你当成一个值得测试、值得展示的结果。

～

赚钱永远不是靠出卖时间

赚钱永远是要靠发现

发现那些结构性收益，那些别人因为认知、能力、厌恶、组织惯性或监管复杂度而没有捕捉到的结构性收益。

然后把从这个结构性收益出发，占据某个生态位。因为结构性收益并不长久，需要尽快向占据生态位转化。

赚钱永远要靠占据生态位

占据那些能持续产生收益，而别人绕不开的点，那个稀缺位置。你因为控制了某种稀缺资源、稀缺位置、稀缺能力或稀缺关系。而这个生态位能获得超过市场平均水平的收益。

比如地理位置，拥有大流量，交通便利的不可再生的地理位置。小到城市里的某个铺面，大字到国家，国际的某个位置。

比如牌照，银行、保险、支付、医疗都因为这些

比如网络效应，你看微信，用的人越多，就越离不开；你看抖音，用户越多，就越多人发视频，就有更多的优质内容，越多的优质内容，就吸引更多的用户。

比如关键数据资源，如google, tesla, 数据越多，产品越好；产品越好，数据越多。

还有的比如：品牌/信任，流程嵌入的切换成本、标准协议接口

什么是生态位？

生态位是你服务谁，解决什么问题，依赖什么资源，链接哪些节点，控制什么瓶颈，形成什么不可代替性的总和。

生态位 = 客户角色 × 关键任务 × 稀缺资源 × 价值流位置 × 防御机制

生态位一定要绑定具体的角色，因为预算、痛点、流程、使用频率都和角色有关。例如：
例如：
– 连锁门店区域经理。
– 货代操作员；
– 跨境电商客服主管；
– 三甲医院病案室主任；
– 制造业售后负责人；
– 中小企业财务负责人；
– 律所初级律师；
– 保险理赔员；

关键任务：你解决什么不可忽视的问题？

一、Hermes Agent 是怎么长出来的

如果只看它的 GitHub 首页，Hermes Agent 很容易被误读成又一个“AI agent 框架”：一个可以接模型、调工具、跑命令、接消息平台的工程项目。但如果把时间线拉长，你会发现它真正想解决的，并不是“让模型多调用几个工具”，而是一个更野心勃勃的问题：

能不能把 AI agent 从一次性会话工具，变成一种持续存在、会积累、会反思、会迁移的长期系统？

这其实就是 Hermes Agent 从诞生起的主线。

1. 起点：不是从“写代码助手”出发，而是从“长期存在的代理”出发

Hermes Agent 的出身，和很多 AI 应用很不一样。

多数 2023-2025 年涌现出来的 agent 产品，起点是两个方向之一：
一类从 IDE/coding copilot 出发，目标是让模型在代码编辑、调试、终端执行里更顺手；
另一类从 chatbot + tools 出发，核心是让对话系统接 API、能联网、能调用 MCP 或浏览器。

Hermes Agent 的 framing 更激进。官方首页直接把它定义成：

“The agent that grows with you.”¹

这句话不是宣传口号那么简单，它几乎概括了整个产品哲学：
Hermes Agent 不是为了在单次任务里“答得更好”，而是为了在多次任务、跨会话、跨平台的累积中“变得更像你的 agent”。

从文档与官网描述来看，它最初的核心差异点不是单个工具能力，而是三个互相咬合的机制：

Persistent memory：记忆不是上下文窗口里的临时 token，而是跨会话留存的结构化资产；
Auto-generated skills：不是只会调用既有工具，而是会把经验沉淀为技能文档；
Self-improvement loop：技能与记忆相互强化，让 agent 在长期使用中“长出来”。¹²

这意味着 Hermes Agent 的真正竞争对象，从一开始就不只是某个聊天应用，而是整个“会话式 AI 工具范式”。

2. 诞生背景：它踩在两个时代交叉口上

Hermes Agent 出现的时点非常关键。根据公开报道与官方资料，它在 2026 年 2 月 上线，首个公开版本可追溯到 v0.1.0，2026 年 2 月 25 日 左右³⁴。这个时间点背后，其实有三股已经酝酿成熟的力量。

第一股：模型能力终于足够稳定，能支撑“长链条代理”

到 2025 年后期，业界已经逐渐形成共识：
模型不再只是“生成文本”，而是可以稳定完成工具调用、规划、搜索、代码执行、多轮修正等 agentic 工作流。Hermes Agent 文档里显式支持多种 API 模式：

chat_completions
codex_responses
anthropic_messages²

这说明它不是为某一家模型 API 写死的产品，而是在适配“多模型、多协议并存”的现实。换句话说，Hermes Agent 诞生时，外部环境已经不是“哪个模型最强”，而是“不同模型在不同 agent 环节各有所长，编排成为核心能力”。

第二股：用户开始厌倦“一次性聊天”

很多人真正对 agent 产生兴趣，不是因为它回答得更像人，而是因为它终于记得住事、会自己做后续动作、能跨平台继续工作。
Hermes Agent 官方把自己放在服务器、本地和云环境中运行，支持 CLI、Telegram、Discord、Slack、WhatsApp、Signal、Email、Matrix、Mattermost、SMS、DingTalk、Feishu、WeCom 等统一网关¹²。这本质上是在说：

“AI 不该只活在一个聊天框里，它应该像一个长期在线的数字执行体，出现在你真正工作的地方。”

第三股：OpenClaw 之后，市场需要一个“更工程化、更安全、更可长期运营”的替代方向

从迁移文档看，Hermes Agent 官方明确为 OpenClaw 用户提供了完整迁移路径：hermes claw migrate，并能导入 OpenClaw/ClawDBot/Moltbot 的记忆、用户资料、技能、配置与密钥⁵。
这件事很关键。它说明 Hermes 不是在一个真空环境里横空出世，而是有意识地承接已有 agent 用户群。也就是说，它不是从零教育市场，而是在一个已经被更早期 agent 产品点燃的需求面前，给出新的工程答案。

所以，Hermes Agent 的诞生背景可以概括成一句话：

当“AI agent”从炫技 demo 进入长期使用阶段，Hermes Agent 试图重新定义这个品类的底层操作系统。

3. 初始形态：一个不是 IDE 插件、不是聊天壳、而是“常驻代理系统”的产品

从官网和 GitHub 的最初自我描述看，Hermes Agent 一开始就没有把自己做成一个轻量插件，而是一个相对完整的运行时系统。它的基本骨架包括：

CLI 入口：hermes chat、hermes model、hermes tools⁶
Gateway：统一连接消息平台与外部入口²
Agent 核心：AIAgent 与 run_agent.py²
Session storage：SQLite + FTS5，保存在 ~/.hermes/state.db²
Skills：本地目录化管理，标准文件为 SKILL.md²
Memory：MEMORY.md 与 USER.md 双层长期记忆²
Cron/automation：内置定时机制¹
多 terminal backends：本地、Docker、SSH、Singularity、Modal，文档中还出现 Daytona¹²

这套初始结构透露出一个非常鲜明的产品判断：

Hermes Agent 不认为 agent 的核心只是“调用一个模型”，而是“围绕模型搭一整套长期运行环境”。

这也解释了为什么 Hermes 从一开始就特别强调 profile isolation、日志、安全审批、容器隔离、跨会话隔离等工程特性²。
如果你只是做一个聊天机器人，这些东西都不是第一优先级；
但如果你想让 agent 真正跑在用户机器、服务器、团队工作流里，这些恰恰是最先会出问题的地方。

4. 早期爆发：为什么它一出来就吸引大量关注

Hermes Agent 在上线后很快获得极高关注度。你此前整理的仓库数据里，抓取时 GitHub 已经达到 75k+ stars、10k forks、4000+ commits⁶。外部报道则多次提到它在短时间内迅速攀升、成为 OpenClaw 之外最受关注的 agent 项目之一³⁷。

这波爆发不是偶然，背后有几个叠加因素。

4.1 它精准踩中了用户对“更像系统，而不是应用”的期待

很多 agent 项目给人的第一印象是功能炫，但一落到长期使用就散：
今天能自动浏览网页，明天能跑 shell，后天能调 MCP，听起来都很强；
但用户真正要的是：它能不能持续记得我、替我维持状态、在一周后继续同一个任务？

Hermes Agent 正好把“持久化”做成第一性原理。
MEMORY.md 与 USER.md 的设计并不复杂，甚至有点朴素，但这恰恰说明它优先考虑的是可控性与可调试性：你知道记忆放在哪、上限多大、如何被注入到 session、何时冻结成快照²。
这和很多“黑箱长期记忆”方案不同，它更像工程系统，而不是魔法系统。

4.2 它抓住了“技能沉淀”这个非常上瘾的点

官方把 Skills 设计成显式资产：

存在于 ~/.hermes/skills/
以 SKILL.md 为标准格式
兼容 agentskills.io
支持 browse/search/inspect/install/update/audit/uninstall
支持多种 hub：official、github、clawhub、claude-marketplace、lobehub 等²

这里真正聪明的地方是：Hermes Agent 没有把“经验”封装成不可见的参数优化，而是把它转成可以查看、编辑、迁移、分享、审计的技能文件。
这让用户第一次感到：agent 的成长是可见的、可继承的、可协作的。

4.3 它在“开放性”和“工程感”之间找到了一个平衡

很多 agent 项目在开放性上做得很好，但工程治理弱；另一些则很企业化，但不够开放。
Hermes Agent 的路线是：

MIT License
支持任意 endpoint
支持 Nous Portal / OpenRouter / OpenAI / Ollama / Gemini 等多 provider¹²⁸
同时又重视审批模式、安全隔离、日志、配置校验、恶意软件扫描等²⁹

这种组合对开发者很有吸引力。因为它既不像封闭 SaaS 那样把控制权拿走，也不像很多开源项目那样把所有稳定性责任都推给用户。

5. 演进主线：Hermes Agent 不是“加功能”，而是在补齐长期代理的基础设施

如果把 Hermes 的版本演进简单看成“新版本加了哪些功能”，会低估它的发展逻辑。它更像是在快速搭建一座长期代理的城市基础设施：先有道路，再有电力，再有治安系统，再有物流网络。

截至公开资料中的 v0.8.0（v2026.4.8），几个明显的演进方向已经成形。⁹

5.1 第一条主线：从“能跑起来”到“能长期在线”

早期 agent 最常见的问题不是不会做事，而是跑不久：
会话断掉、状态丢失、任务没法异步继续、平台消息不同步、模型切换麻烦。

Hermes 在 v0.8.0 里加入或强化了这些能力：

notify_on_complete：后台任务完成自动通知
inactivity-based timeout：闲置超时控制
centralized logging：统一日志到 ~/.hermes/logs/
config validation：配置校验⁹

这些改动看起来不像“炫技功能”，但对长期运行非常关键。
因为一个常驻 agent 最大的敌人，从来不是“不够聪明”，而是“不够稳定、不够可观测”。

从这个角度看，Hermes 的决策逻辑很清楚：
先把 agent 变成一个可靠服务，再把它变成一个聪明角色。

5.2 第二条主线：从“单模型绑定”到“多 provider 编排”

Hermes Agent 在模型层面明显走的是中立基础设施路线。
它支持：

Nous Portal
OpenRouter
OpenAI
任意 OpenAI-compatible endpoint
Ollama 本地/云模型
新增 Gemini Native Provider¹⁸⁹

而且 /model 支持运行中切换模型，全平台 live model switching 在 v0.8.0 被强调⁹。

这背后的判断其实非常现实：
2026 年的 agent 世界里，不存在一个模型在所有环节都最优。
有的模型擅长长文本规划，有的擅长低成本工具调用，有的更适合本地部署，有的在某些 provider 上更便宜。

所以 Hermes 不押注“唯一最强模型”，而是押注模型切换能力本身成为 agent 的基础能力。
这是一种很像云计算时代的设计思路：
不是把业务绑在某台机器上，而是把调度能力做强。

5.3 第三条主线：从“工具调用”到“代理分工”

Hermes 一个很有辨识度的点，是它不仅能调工具，还能delegate & parallelize，即创建 isolated subagents 来分工处理任务¹。
这让它不只是一个“会用工具的 LLM”，而是开始接近“任务执行系统”。

从架构与 issue 线索看，Hermes 已经把不同 delegation 模式显式化，甚至包括 claude-code、codex、hermes-agent 等代理方式的区分讨论¹⁰。
这说明团队很清楚：
当 agent 任务变复杂时，真正限制性能的不是单次回答质量，而是任务拆分、并行执行、上下文隔离、子任务回收。

这里的决策逻辑也很明显：
如果 Hermes 真想成为长期代理，而不只是会聊天的助手，它必须学会像一个操作系统那样调度，而不是像一个单线程脚本那样硬跑到底。

5.4 第四条主线：安全从附加项变成主产品能力

Hermes 文档里的安全模型相当完整，官方把它分成七层：

user authorization
dangerous command approval
container isolation
MCP credential filtering
context file scanning
cross-session isolation
input sanitization²

再到 v0.8.0 又加上：

MCP OAuth 2.1 PKCE
OSV malware scanning
platform hardening
security hardening pass⁹

这一点非常关键。很多 agent 项目在早期都把安全写成“之后再补”，但 Hermes 明显把它上升到第一层设计。
原因不难理解：
它的目标不是浏览器里的一次性问答，而是能控制终端、接消息平台、长期持有状态、甚至定时执行任务的代理。
这种系统一旦缺安全层，就不是体验问题，而是事故问题。

Hermes 的安全策略不是完全封闭，而是“给你权限，但通过审批模式和隔离层控制风险”：

manual
smart
off
YOLO mode 可主动关闭保护²

这说明团队没有天真地认为“用户不需要危险能力”，而是承认现实：
高级用户就会想开大权限。
所以产品要做的不是禁止，而是把风险的边界画清楚。

5.5 第五条主线：从“自己长”到“能迁移、能继承、能兼容生态”

Hermes 很聪明的一步，是没有把自己做成一个孤岛。

在 Skills 上，它兼容 SKILL.md 及多个 hub 来源；
在 Memory 上，它允许接入 Honcho、Mem0、Supermemory 等外部 provider；
在迁移上，它明确支持从 OpenClaw 体系导入记忆、配置、技能和 secrets²⁵。

这意味着 Hermes 的野心不是只做一个“新项目”，而是试图成为一个上层兼容层。
它希望用户不是“重装人生”才能换 agent，而是带着自己的历史、习惯和技能资产迁移过来。

这个决策很重要。因为长期代理的壁垒，不只是模型能力，而是用户积累资产的可携带性。
Hermes 在这点上显然想得很明白：
一旦用户的记忆、技能、路由、平台接入、工作流都沉淀在系统里，迁移成本会越来越高；
但前提是，第一次迁移必须足够丝滑。

6. 关键节点：v0.8.0 为什么是一个阶段性拐点

从版本节奏看，Hermes 在很短时间里快速迭代，而 v0.8.0（2026-04-08） 是一个很典型的“从爆款项目走向平台化”的节点。⁹

这个版本的亮点表面很多，但如果抽象一下，可以归为四个信号：

信号一：它开始正式补后台运行体验

notify_on_complete、timeout、日志集中化——这说明产品不再只围绕“前台对话”，而是在为异步、长期、不可见执行做体验闭环。

信号二：它开始把 provider 管理做成一等公民

Gemini Native Provider、OpenRouter/Nous Portal 定价显示、free-tier 模型入口、live switching——这标志着它把“模型接入”从技术配置变成用户体验层功能。

信号三：它把平台审批和安全治理更深地嵌到消息入口里

Slack/Telegram approval buttons 很能说明问题：
Hermes 不只是把消息平台当输入通道，而是把它们当 agent 治理界面。
用户不一定要回到本地终端批准动作，可以在消息端完成审批，这对真正的长期代理非常关键。

信号四：它开始从一个 agent 项目，长成一个插件平台

plugin system expansion 不只是加插件，而是在暗示：
Hermes 团队逐渐接受一个现实——长期代理的所有需求不可能靠官方核心仓库覆盖，必须把扩展性做出来。⁹

所以，v0.8.0 的意义不是“又多了几个 feature”，而是：
Hermes 从‘有想法的 agent’开始迈向‘有平台气质的 agent runtime’。

7. 源码和架构透露的组织思路：Hermes 想做的更像“Agent OS”

看 Hermes 的源码结构，会发现它并不是那种“把所有能力塞进一个 orchestrator 文件”的实验项目。
关键目录与文件——如 run_agent.py、model_tools.py、toolsets.py、gateway/、cron/、plugins/memory/、plugins/context_engine/、skills/——已经体现出比较明确的边界划分。²

这种划分对应着几个产品层：

Agent brain：推理、规划、工具调用
Execution environment：terminal backends、container、remote execution
Persistence layer：state.db、memory files、sessions
Ingress/egress layer：CLI、gateway、ACP adapter
Learning layer：skills、memory、trajectory export、RL 训练接口
Security/governance layer：approval、scanning、credential filtering、logs

这个结构特别像一个“agent operating environment”，而不是一个单纯应用。
也正因此，它和传统 IDE agent 最大差别之一是：
它的世界不是一个编辑器窗口，而是整个用户环境。

8. 约束与代价：Hermes 为什么没有把一切都做成最简单

Hermes 的路线有明显优势，但也伴随代价。

8.1 它天然更复杂

当一个系统同时拥有：

多模型 provider
多 terminal backend
多消息平台 gateway
memory + skills + cron + plugins
审批、安全、容器、日志

它就不可能像一个单文件 CLI 工具那样轻。
官方虽然提供 hermes setup 和安装脚本降低门槛⁶，但 Hermes 本质上仍然是一个可运营系统，不是极简玩具。

8.2 文档和实现还处在快速变化期

你前面已经发现一些口径差异：

工具数量有 47 / 48 两种说法
terminal backends 有 5 / 6 两种口径¹²

这通常不是原则性问题，而是快速迭代项目常见的“文档更新速度追不上实现变化”。
它反过来也说明：Hermes 还远没有进入稳定企业软件阶段，仍然处于高速进化期。

8.3 它的价值高度依赖“长期使用”

Hermes 最强的地方——记忆、技能、自我优化——都不是“5 分钟就能感知”的能力。
这意味着它对新用户的第一印象，反而未必像即时见效的 coding agent 那么炸裂。
它更像一种复利型产品：
用得越久，越能体现差异；但前提是用户愿意先投入搭建和使用习惯。

9. 到今天为止，Hermes Agent 已经成了什么

如果把这段发展史压缩成一句话：

Hermes Agent 从一开始就不是想做“一个更强的 AI 对话工具”，而是在用开源方式搭一套长期存在、可自我积累、可跨平台运行的 agent 基础设施。

截至 2026 年 4 月，它已经表现出几个明确特征：

它是一个模型中立的 agent runtime，而不是某家模型厂商的外壳；
它是一个长期状态系统，而不仅是“更会调用工具的聊天机器人”；
它是一个兼顾开放性与治理能力的工程平台；
它正在从“爆红项目”向“生态平台”过渡；
它和 OpenClaw 并不是简单替代关系，更像是在同一个大方向上给出不同答案：一个更偏广覆盖和外部生态，一个更偏长期成长和系统内化。

二、横向分析：Hermes Agent 在同赛道里处于什么位置

Hermes Agent 所在赛道并不空。它至少同时站在三个竞争面前：

长期自主代理框架：如 OpenClaw
开发者/代码导向 agent：如 Claude Code、Codex 类工具
更通用的 agent 执行系统/多代理框架：如 OpenHands 一类

因此这里属于你定义中的 场景 C：竞品充分。
我选取 4 个最具代表性的参照对象：

OpenClaw
Claude Code
OpenHands
Codex / Codex-style coding agents

其中，OpenClaw 是最核心的正面对手；其余几个更像“相邻生态位”。

1. Hermes Agent vs OpenClaw：最像正面战争，但其实路线不同

如果只看外界舆论，Hermes 最常被贴上的标签就是“OpenClaw 替代品”。这标签不能说错，但不够准确。

1.1 两者最接近的地方：都想把 agent 从聊天框里解放出来

Hermes 与 OpenClaw 的共性很明显：

都是开源 agent 框架
都强调长期运行与跨平台入口
都不满足于“只做代码助手”
都在尝试把 AI 变成一个可以执行真实任务的实体³⁵⁷

这也是为什么 Hermes 官方专门做了 OpenClaw 迁移工具。
因为它们争夺的是同一批已经理解 agent 价值的人：
不是来试玩模型的，而是想让 AI 真正接管部分工作流的用户。

1.2 真正的差异：OpenClaw 更像“连接性平台”，Hermes 更像“成长性系统”

从公开资料与第三方对比来看，OpenClaw 的强项长期在于：

覆盖面广
平台集成多
社区大
上手路径更成熟³⁷

而 Hermes 的差异化在于：

persistent memory 的叙事更核心
auto-generated skills 是产品哲学中心
自我优化/学习闭环被放到第一位
安全与治理被写进系统设计，而非附加模块¹²⁹

简单说：

OpenClaw 的问题意识：怎么让 agent 去更多地方、干更多事
Hermes 的问题意识：怎么让同一个 agent 在时间中越来越有用

这不是小差别，而是路线分岔。

1.3 用户为什么选 OpenClaw

真实用户选择 OpenClaw，往往不是因为它“理念更高级”，而是因为它更像一个已经铺开的世界：
平台多、生态多、参考案例多、社区讨论多。
如果你的第一诉求是“赶紧把 agent 接进一堆平台和自动化流程里”，OpenClaw 的现成度通常更强。

1.4 用户为什么转向 Hermes

而选 Hermes 的用户，往往在意的是另一件事：
这个 agent 会不会随着使用真正变成我的东西。

这也是 Hermes 迁移工具存在的意义。它在对用户说：
你不是要重新换一个玩具，而是把之前积累的“人格、记忆、技能和习惯”迁过来，继续长。

1.5 口碑层面的差别

从第三方报道和讨论看，Hermes 的高频优点包括：

更强调长期记忆
自生成技能更有“成长感”
安全治理叙事更完整
provider 更灵活³⁷

常见顾虑则是：

系统复杂
需要配置与维护
快速迭代带来文档口径差异
真正价值要长期使用后才能显现

OpenClaw 则常被认为：

覆盖广、平台多、声量大
生态成熟
更适合“我先全都接起来”
但弱点在于：
如果用户核心诉求是“长期个体化成长”，Hermes 的故事更打人

1.6 生态位判断

在赛道版图里，OpenClaw 更像一个广覆盖型超级入口；
Hermes 更像一个高复利型长期代理内核。

如果未来 agent 市场分化，这两类产品甚至可能长期共存，而不一定只有一个赢家。
因为它们优化的并不是完全同一个目标函数。

2. Hermes Agent vs Claude Code：一个是“代理系统”，一个是“代码工作界面”

把 Hermes 和 Claude Code 放在一起比较，最容易看出 Hermes 的边界。

2.1 Claude Code 的强项：把 coding agent 体验做到极顺

Claude Code 一类工具的优势很明确：

聚焦软件开发工作流
IDE / repo / shell 场景极强
对开发者来说，反馈快、路径短、结果立竿见影

用户用 Claude Code，往往是为了今天就把一个 bug 修了、一个重构做了、一个 PR 过了。
它的设计目标是把开发活动本身变流畅。

2.2 Hermes 不把自己限制在“开发行为”里

Hermes 当然也能做代码、能进终端、能 delegation、能调工具。
但它真正的目标不是“让开发更高效”，而是“让 agent 成为长期工作实体”。

这意味着 Hermes 的应用范围更广：

日程与消息平台
定时任务
研究任务
跨会话用户模型
多入口通信
记忆与技能沉淀

所以两者不是简单替代关系。更准确的说法是：

Claude Code：把 AI 嵌进开发者的现有工作界面
Hermes Agent：试图把 AI 变成一个独立存在的执行体，再去连接各个界面

2.3 用户真实选择逻辑

如果你是一个纯开发者，目标非常明确：
“我需要一个今天就能提高 coding throughput 的助手。”
Claude Code 通常更直接。

但如果你的需求是：
“我希望有一个长期在线、会记事、能跨平台沟通、还能顺手写代码的 agent。”
Hermes 才会显得更对味。

2.4 短板比较

Hermes 相对 Claude Code 的短板在于：
它不是围绕 IDE 极致打磨出来的体验；
它强在系统性，而不是单一 coding 界面的摩擦最小化。

换句话说，Claude Code 更像一把极锋利的手术刀；
Hermes 更像一整套可以常驻运转的工作站。

3. Hermes Agent vs OpenHands：一个偏“任务执行系统”，一个偏“长期人格化代理”

OpenHands 这类系统，代表的是另一种 agent 方向：
更重任务执行、更强调 benchmark、环境操作、代码修复、自动完成复杂开发任务。

3.1 OpenHands 的世界观

OpenHands 类产品往往把 agent 理解成一个高能力执行器：
你给它任务，它自己去浏览、编码、运行、修复。
它很适合用来展示 agent 在复杂任务链上的能力上限。

3.2 Hermes 的世界观不完全一样

Hermes 也做执行，但它多了一层“长期关系”的设定：

USER.md / MEMORY.md
skills 沉淀
gateway 平台常驻
cron 自动化
profile isolation
session search²

这让 Hermes 更像一个与你共处的长期代理，而不是一个接到任务就开始冲刺的执行引擎。

3.3 用户口碑差异

选择 OpenHands 的用户，通常更看重：

自动完成复杂技术任务的能力
agent benchmark 表现
软件工程任务链上的强执行

选择 Hermes 的用户，则更在意：

是否会记住我和过去
是否能在多入口下保持一个连续身份
是否会沉淀技能和习惯
是否适合长期部署

3.4 生态位

OpenHands 更像“高性能任务机器人”；
Hermes 更像“长期关系型代理”。
如果把 agent 看作未来的软件形态，OpenHands 在强调“能力峰值”，Hermes 在强调“时间复利”。

4. Hermes Agent vs Codex / Codex-style coding agents：不是同一主赛道，但会争夺开发者时间

Codex-style agent 的最大优势，是高度贴近代码生产场景。
它们经常被用于：

代码生成与修复
测试
repo 级上下文理解
shell 操作
PR 辅助

Hermes 当然也可以接这类场景，甚至 issue 中已讨论与 Codex delegation 的结合¹⁰。
但 Hermes 不会在“专用 coding 体验”上天然领先，因为它的注意力分散在更大的系统版图里。

不过，Hermes 对这类工具也并不是纯粹被动竞争。
它有一个聪明的策略：把这类 agent 当成可调用子能力，而不是非要正面打穿。

这意味着 Hermes 完全可能形成一种上层定位：

自己负责长期记忆、任务路由、平台入口、安全治理
把特定 coding 子任务委托给 Claude Code / Codex / 其他 specialized agents

如果这条路走通，Hermes 就不是和所有专业 agent 正面打，而是站在更高一层调度它们。

三、横向对比表：一句话看懂 Hermes 的位置

维度	Hermes Agent	OpenClaw	Claude Code	OpenHands	Codex-style Agents
核心定位	长期成长型自主代理	广覆盖型 agent 平台	开发者代码助手/界面	高执行力任务 agent	专用 coding agent
主叙事	记忆 + 技能 + 自我改进	平台接入 + 生态 + 广覆盖	提升 coding throughput	自动完成复杂技术任务	代码执行与修复
时间维度	强	中-强	中	中	中
跨平台常驻	很强	很强	弱	中	弱
记忆系统	核心卖点	有，但非唯一中心	有限	较弱/非核心	通常非核心
技能沉淀	核心卖点	有生态，但不如 Hermes 强叙事	非核心	非核心	非核心
安全治理	明确系统级设计	视实现而定	相对成熟但场景更窄	偏任务执行治理	偏开发场景治理
上手门槛	中-高	中	低-中	中	低-中
最适合谁	想长期养一个 agent 的用户/团队	想快速铺平台与生态的用户	纯开发者	自动任务导向开发者	以代码产出为第一目标的用户

四、趋势判断：Hermes Agent 接下来最可能怎么走

1. 它最大的机会：把“长期代理”从概念做成真实品类

Hermes 最值钱的地方，不是又多支持几个平台，也不是再多一个模型 provider。
而是它有机会把一个此前很模糊的需求做清楚：

用户要的不是一次性更聪明的 AI，而是一个长期越来越懂自己、越来越能代办事情的数字代理。

如果 Hermes 持续把 memory、skills、delegation、gateway、cron、安全治理整合好，它会成为这个品类最清晰的代表之一。

2. 它最大的风险：复杂度吞掉增长

Hermes 的问题不是没功能，而是功能太容易长成系统复杂度。
当一个产品既想：

做多模型
做多平台
做技能市场
做长期记忆
做插件
做安全治理
做迁移兼容

它很容易进入“每一项都重要，但新用户不知道先感知哪个”的困境。

所以 Hermes 接下来能不能继续扩张，取决于它能否把复杂系统包装成足够顺滑的默认体验。

3. 它最聪明的战略方向：做 agent runtime，而不是和所有垂直 agent 抢单点体验

Hermes 如果执意在每个子场景都打赢专业工具，成本会非常高。
更好的路可能是：

继续做长期记忆与身份连续性
做多平台入口与治理
做技能沉淀与可迁移资产
把 Claude Code、Codex、OpenHands 一类工具吸纳为 delegation target

这样 Hermes 就不只是一个 agent，而是一个agent 之上的协调层。

4. 对企业与团队市场的潜力

Hermes 现在看上去更像开发者/极客项目，但它的一些特性其实很适合团队化：

profile isolation
centralized logs
approvals
credential filtering
gateway
plugin system
external skills dirs²⁹

如果未来文档、部署、权限管理进一步成熟，它很可能从个人长期代理，延伸到小团队或组织级 agent runtime。

五、横纵交汇：Hermes Agent 现在到底站在哪儿

Hermes Agent 最值得注意的地方，不是它“像谁”，而是它试图修正过去几波 agent 热潮里最根本的缺口。

过去的 AI 工具，大多有两个问题：
一类擅长单次交互，但没有连续人生；
另一类能跑复杂流程，但每次都像失忆后重新开工。
Hermes 想解决的是这个断裂：
让代理既能执行，又能积累；既能跨平台行动，又能保持同一个长期身份。

这也是为什么它的纵向发展和横向竞争，其实指向同一个结论。

从纵向看，Hermes 的每一步演进——记忆、技能、迁移、provider 中立、delegation、安全治理、日志、cron——都不是随机堆 feature，而是在补一套“长期代理基础设施”的骨架。
从横向看，它与 OpenClaw、Claude Code、OpenHands、Codex-style tools 的差别，也不只是功能列表不同，而是优化目标不同：

OpenClaw 更强调广连接和生态铺设；
Claude Code / Codex 更强调单场景产能；
OpenHands 更强调复杂任务执行；
Hermes 最鲜明的目标，是让 agent 在时间里形成复利。

因此，Hermes 当前的真实位置，我会这样判断：

1. 它不是“另一个 coding agent”，而是“长期代理操作层”的候选者

这决定了它的成败标准，不能只看短期 demo 效果，而要看：

长期稳定性
资产沉淀能力
迁移与兼容
用户是否愿意把更多日常工作交给它

2. 它现在已经有了很强的叙事和很快的工程推进，但仍处于高速塑形期

GitHub 热度、版本速度、外界关注，都说明 Hermes 已进入主流开发者视野。
但口径差异、功能快速扩张、复杂度上升，也说明它离“成熟平台”还有路要走。

3. 如果未来 agent 市场真的从“短会话工具”升级到“常驻数字代理”，Hermes 会是非常有代表性的基础设施玩家

尤其是在开源生态中，它已经明确占住了一个位置：
不是最轻、不是最窄、也不是最现成，但可能是最认真在搭长期代理系统的人之一。

4. 最后的判断

Hermes Agent 当前最有价值的，不是某个具体 feature，而是它正在证明一件事：

AI agent 的护城河，不一定来自更强的模型，也可以来自更长的时间维度。

谁能让 agent 真正记住、沉淀、迁移、治理、持续存在，谁就更接近下一代软件形态。
在这条路上，Hermes Agent 现在还谈不上“已经赢了”，但它已经非常清楚自己在打什么仗，而且比很多竞争者更早把战场选对了。

参考来源

来源链接

GitHub: https://github.com/NousResearch/hermes-agent
Releases: https://github.com/NousResearch/hermes-agent/releases
官网: https://hermes-agent.nousresearch.com/
文档: https://hermes-agent.nousresearch.com/docs/
OpenClaw 迁移指南: https://hermes-agent.nousresearch.com/docs/guides/migrate-from-openclaw
OpenRouter 应用页: https://openrouter.ai/apps/hermes-agent
Ollama 集成页: https://docs.ollama.com/integrations/hermes
The New Stack 对比文章: https://thenewstack.io/persistent-ai-agents-compared/

贝叶斯主义：一套关于“不确定性”的世界观，如何从哲学争论变成现代推断机器

一、纵向分析：贝叶斯主义是如何长成今天这个样子的

1. 起点：它不是先从“统计技术”开始的，而是从“人在不确定中如何相信”开始的

如果只看今天的教科书，贝叶斯主义似乎很容易被理解成一条公式：

$P (H ∣ E) = \frac{P (E ∣ H) P (H)}{P (E)}$

也就是：看到证据 $E$ E 之后，如何更新对假设 $H$ H 的相信程度。
但这条公式之所以重要，不是因为它长得漂亮，而是因为它回答了一个更古老的问题：人在证据不完整的时候，应该怎样形成和修正自己的信念？

这背后其实有三条不同但后来汇合的线索：

数学线索：概率能不能被严格地当作一个演算系统？
哲学线索：信念能不能被量化？“相信多少”是否可以用概率表示？
实践线索：在数据有限、样本不完整、未来不可知的时候，怎样做决策？

贝叶斯主义最后之所以影响如此之大，正是因为它把这三条线拧在了一起。
它不是单纯的统计技巧，而是一种关于不确定性、知识、证据、行动的统一框架。[^^1][^^2]

2. 18世纪的原点：Thomas Bayes 的问题意识，比后人记住的公式更重要

贝叶斯主义得名于 Thomas Bayes。1763年，在他去世后发表的论文《An Essay towards solving a Problem in the Doctrine of Chances》中，Bayes 讨论的核心问题并不是“如何做贝叶斯回归”，而是更原初的事情：
已知观察结果，如何反推未知原因的概率？

这件事在当时很不寻常。17—18世纪的概率论，更多是在处理赌博、组合、事件发生的机会。也就是说，传统方向往往是：

已知机制
推算结果概率

而 Bayes 所碰的，是反过来的方向：

已知结果
推测背后机制的可信程度

这一步非常关键，因为它把概率从“事件频率的描述”往“未知世界的反推工具”推进了一大步。

不过，历史上真正把这条路走宽的，其实不是 Bayes 本人，而是 Pierre-Simon Laplace。Laplace 在 18 世纪末到 19 世纪初系统扩展了这一思想，把逆概率（inverse probability）方法真正发展成一套可用于天文学、人口统计、测量误差分析的推断体系。[^^3][^^4]

这里有个很重要的历史事实：
早期并没有“Bayesian”这个统一标签。
很长一段时间里，人们更常用的词是 inverse probability（逆概率）。也就是说，当时这套方法并不以“贝叶斯主义”自居，而是作为一种从结果反推原因的推断方式存在。Fienberg 的研究专门指出，“Bayesian”这个术语其实是 20 世纪才逐渐稳定普及的。[^^4]

这说明一个有趣的现象：
贝叶斯主义并不是某一天被“发明”出来并立刻成形的，它更像是一条后来被重新命名、重新解释、重新包装的思想谱系。

3. Laplace时代：真正把“逆概率”推成通用推理机器的人

如果 Bayes 提供了种子，那么 Laplace 更像是把它种成森林的人。

Laplace 的野心比 Bayes 大得多。他面对的是启蒙时代的核心信念：
自然界有秩序，而数学可以揭示这秩序。

在这个背景下，概率不只是赌博学问，而是处理无知、误差、不完整知识的数学工具。
Laplace 把概率扩展为一种普遍的理性技术：在信息不完备时，理性主体仍然可以通过演算来逼近真相。

这一步奠定了后来贝叶斯主义最深的一层气质：
它从来不是只关于“统计模型”，而是关于有限理性如何在不确定世界中运作。

Laplace 的工作还推动了一个后来一直争议不断的传统：
在没有足够信息时，如何设定先验？

启蒙时代倾向于相信“无差别原则”——如果没有理由偏向某个可能性，就应给予相等权重。这个直觉后来成为很多贝叶斯先验构造的原始灵感，但也埋下了长期争议：
所谓“没有理由偏向任何一方”，真的是中立吗？
你换一个参数化方式，所谓“均匀先验”还均匀吗？

后来的“先验问题”（problem of the priors），根子其实在这里就已经埋下了。[^^1][^^2]

4. 19世纪到20世纪初：它曾经不是主流胜者，而是一套在争议中存活的方法

如果把今天的视角投回去，很容易误以为贝叶斯主义一路高歌猛进，最后胜出。
实际历史恰恰复杂得多。

19世纪后半到20世纪上半，统计学逐步制度化、职业化，现代统计学科开始形成。这个阶段，频率学派（frequentism） 的地位越来越强。其代表性人物包括 Ronald Fisher、Jerzy Neyman、Egon Pearson 等。

为什么频率学派能压过逆概率传统？原因至少有三层：

第一层：科学客观性的时代偏好

19世纪末和20世纪初的科学文化越来越强调“客观性”。
而贝叶斯/逆概率方法里最扎眼的一点，恰恰是先验。
一旦允许研究者在数据之前就引入主观判断，那么科学会不会变成“带着立场算答案”？

频率学派在这里显得更“干净”：

参数是固定的、未知的
概率只属于可重复抽样过程
推断标准尽量依赖样本分布而不是主观信念

这和那个时代对“去人格化科学”的追求高度一致。

第二层：方法论操作性更强

显著性检验、置信区间、最大似然等工具，给了统计学一整套标准化流程。
这些流程容易教学、容易复制、容易嵌入实验科学制度。

第三层：计算资源限制

贝叶斯方法即使在理念上诱人，很多真实问题也会卡在积分算不动。
你可以写出后验分布，但往往求不出来。
而频率学派不少方法在数学和计算上更可操作。

因此，在相当长时期里，贝叶斯方法并非消失，而是处于一种理论上顽强存在、制度上相对边缘化的状态。[^^3][^^4]

5. 20世纪上半：从“逆概率算法”转向“主观信念逻辑”

贝叶斯主义真正发生质变，是在它不再只被当作一套统计技巧，而开始被解释为一种理性信念的规范理论。

这一步的关键人物包括：

Frank Ramsey
Bruno de Finetti
Leonard Savage

他们完成了一个极其重要的转向：
贝叶斯主义不再只是“从数据反推参数”的数学程序，而是变成了对如下命题的回答：

一个理性主体的信念，如果要避免自我矛盾，应当满足什么结构？

Ramsey：信念可以通过偏好和下注行为刻画

Ramsey 的思路很革命：
你不用先问“信念是不是一种神秘心理状态”，而可以看一个人在赌局、选择、偏好中如何表现。
如果他的偏好满足某些一致性条件，就可以把这些偏好表示为概率和效用。

de Finetti：概率不是世界的客观属性，而是主体的可信度

de Finetti 把主观概率推进到了前台。
在他那里，概率不是外部世界里长出来的自然刻度，而是主体对命题的可信程度（degree of belief）。
著名的 Dutch Book argument（荷兰书论证） 则提供了一种一致性约束：
如果你的信念不能用概率公理表示，别人就可以构造一组赌局，保证你无论如何都输钱。
也就是说，不满足概率法则的信念系统会在行为上暴露为不一致。[^^1]

Savage：主观主义与决策理论的系统整合

Savage 把这些想法进一步系统化。他关心的不只是“你相信什么”，更是“在不确定下你如何行动”。
由此，贝叶斯主义开始和期望效用理论深度耦合。
概率不再只服务于认识论，也服务于决策。

这是贝叶斯主义历史上的大转弯：
它从“逆概率”变成了“主观信念 + 规范更新 + 理性决策”的完整框架。
也正是在这个阶段，贝叶斯主义的哲学野心被真正抬高了。[^^1][^^4]

6. 贝叶斯认识论的成形：不是“会不会算”，而是“应该怎样信”

到了 20 世纪中后期，贝叶斯主义在哲学中形成了比较清晰的规范结构。
Stanford Encyclopedia of Philosophy 对 Bayesian Epistemology 的概括非常经典：它至少包含两条核心规范。[^^1]

规范一：Probabilism（概率主义）

理性主体的信念度（credence）应当服从概率公理。
也就是说，一个人的“相信多少”不应是散乱的情绪，而应能组成一个概率分布。

规范二：Principle of Conditionalization（条件化原则）

当你获得新证据 $E$ E 时，新的信念应当由旧信念按条件概率更新： $C r_{n e w} (H) = C r_{o l d} (H ∣ E)$ Crnew(H)=Crold(H∣E)

这条原则极其重要，因为它把“学习”刻画成一个数学更新过程。
从此，理性不再只是静态一致，而是动态一致：
你不仅要在一个时点上不自相矛盾，还要在时间中以合乎规则的方式修正自己。

这套理论之所以迷人，是因为它把很多哲学老问题统一到了一个框架里：

归纳推理如何可能？
证据如何确认理论？
观察如何改变信念？
什么样的信念更新才算理性？

但它的问题也随之浮现：

先验从哪里来？
如果不同主体先验不同，是否会得出无法调和的结论？
条件化原则是否适用于所有信息更新？
人类真实思维根本不遵守这些规则，这会不会削弱其规范性？

因此，贝叶斯认识论从来不是“完胜”的哲学，而是一套极强、但也持续被围攻的规范方案。[^^1]

7. “先验问题”：贝叶斯主义最强的地方，也是最常被攻击的地方

贝叶斯主义最有辨识度的特征是 prior（先验）。
它允许你把“看到数据之前的已有知识、经验判断、结构假设”写进模型。
这在实践上很有价值，因为现实世界很少从一张白纸开始。

但也正是这里，批评最猛烈。

为什么先验会被攻击？

因为它看起来让推断“带偏见”。
如果你一开始就假定某个理论更可信，那结果会不会只是把偏见公式化？

贝叶斯主义的回应

贝叶斯主义通常有几种回应路径：

所有推断都有前提，只是很多方法把前提藏起来了。
与其假装客观，不如把假设显式写出来。
数据量足够大时，先验影响会减弱。
可以使用非信息先验、弱信息先验、参考先验等方式降低主观性。
在很多高风险或小样本场景中，利用领域知识反而比“装作没有先验”更诚实。

但反对者并不完全买账。
他们会指出：

所谓“非信息先验”并不真正中立；
参数化变化会改变“平坦性”；
在复杂模型和小样本中，先验对结果可能极敏感。

SEP 对此讨论得很清楚：先验问题不是边角料，而是贝叶斯主义的核心哲学难题之一。[^^1]

8. 从哲学走回统计：20世纪后期的“新贝叶斯复兴”

如果说 20 世纪上半是贝叶斯主义在哲学上壮大，那么 20 世纪后期，它在统计实践中迎来了真正的大复兴。

这场复兴并不主要靠“哲学说服”，而是靠两个现实变化：

第一，计算能力终于追上了理论野心

很多贝叶斯问题之所以过去难做，不是因为思想不对，而是因为积分太难。
后验分布往往没有解析解。
随着计算机发展，以及 Markov chain Monte Carlo (MCMC) 等算法成熟，原本写在纸上求不出的后验，终于可以数值逼近。[^^3]

第二，现实问题越来越需要层级、不确定、部分信息整合

在医学、生态学、社会科学、工程、金融等场景里，研究者发现：
世界不是干净的、独立同分布的小样本实验室。
真实问题往往具有：

多层结构
缺失数据
先验知识
小样本
需要顺序更新
需要预测分布而不仅是点估计

这些正是贝叶斯方法擅长的地带。

因此，贝叶斯主义的复兴不是偶然，而是“问题复杂度”和“计算工具”共同推出来的。
Wikipedia 对贝叶斯统计的概述里也明确提到，20 世纪后期的兴起与计算能力、尤其是 MCMC 的普及密切相关。[^^3]

9. 现代贝叶斯统计的成型：从“公式”变成“建模语言”

到了今天，贝叶斯统计已经不只是 Bayes 定理本身，而是一整套建模范式。
它的基本结构通常写成：

Prior：你原本怎么想
Likelihood：如果假设为真，数据长什么样
Posterior：看到数据后，你现在怎么想
Evidence / Marginal likelihood：模型解释数据的整体能力

贝叶斯统计的核心不只是“计算后验”，而是把模型当成一台不确定性组织机器。
它擅长回答的不只是“参数估计值是多少”，而是：

这个参数多大概率落在某区间？
新样本会长什么样？
哪个模型更能解释数据？
不同信息源如何融合？
在不完整信息下应如何做决策？

于是，贝叶斯统计在方法层面长出了非常多分支：

层级贝叶斯模型
贝叶斯网络
贝叶斯非参数
贝叶斯模型比较（如 Bayes factor）
Approximate Bayesian Computation
Variational Bayes
Sequential Bayesian updating

它早已不是一条公式，而是一整套关于建模、更新、预测、决策的语法。

10. 进入机器学习时代：贝叶斯主义重新被解释为“对不确定性的尊重”

在机器学习和深度学习的世界里，贝叶斯主义迎来又一次转义。

早期机器学习更关注预测精度和优化表现，很多模型更像“黑箱函数逼近器”。
但随着系统被部署到高风险场景——医疗、自动驾驶、金融风控、科学发现——一个问题越来越突出：

模型不仅要给出答案，还要告诉我们它对答案有多不确定。

这正是贝叶斯思想最擅长的事。
它天然把参数、结构、预测都放进概率分布中思考，而不是只给一个点值。

因此，现代机器学习里“贝叶斯”的价值主要集中在几件事上：

uncertainty quantification（不确定性量化）
小样本学习与先验注入
模型平均与结构选择
在线更新
避免把偶然模式误当成确定规律

这也催生了许多具体技术方向：

Bayesian neural networks
Variational inference
Monte Carlo dropout（某种近似贝叶斯解释）
Probabilistic programming
Active learning / Bayesian optimization

在这个阶段，贝叶斯主义被重新包装成一种现代工程语言：
不是“主观信念形而上学”，而是“如何让模型知道自己不知道”。

这非常重要，因为它说明贝叶斯主义能够跨越时代：
它可以用 18 世纪的形式处理赌博问题，也可以用 21 世纪的形式处理深度模型的不确定性。

11. 但它并没有统一天下：贝叶斯主义今天仍然活在争论里

尽管贝叶斯方法复兴明显，贝叶斯主义并没有终结其他范式。
原因很简单：它的强大和麻烦是同一枚硬币的两面。

它的强大之处在于：

可以自然表达不确定性
能整合先验知识与数据
适合顺序学习
预测解释统一
在复杂分层问题中很强

它的麻烦在于：

先验选择始终有争议
复杂模型计算成本高
近似推断可能引入额外偏差
结果对建模选择敏感
对不熟悉概率建模的使用者门槛高

所以，贝叶斯主义今天的真实状态，不是“彻底胜利”，而是成为了一种极其重要、影响深远、但并非无可替代的方法论中心。

二、横向分析：贝叶斯主义在今天的方法论版图中，究竟站在哪里？

对于“贝叶斯主义”这种研究对象，最适合的横向比较对象不是某几个公司，而是同属“处理不确定性与推断”的几类范式。
这里属于 场景C：竞品充分（3个及以上）。
我选取四类最有代表性的对照对象：

频率学派（Frequentism）
似然主义（Likelihoodism）
经典逻辑/演绎主义科学观
现代数据驱动黑箱预测范式（尤其非贝叶斯机器学习）

1. 贝叶斯主义 vs 频率学派：最经典、也最纠缠的一场对决

这是最常见的对比，因为两者都在回答同一个问题：
如何从数据走向推断？

表面对立：他们对“概率是什么”理解不同

贝叶斯主义：概率可以表示主体对命题的信念度（degree of belief）。[^^1][^^3]
频率学派：概率主要是可重复试验中的长期相对频率。

这个差别不是语义游戏，而是会一路传导到推断方式。

对参数的看法不同

贝叶斯：参数本身可以是随机变量，因为“随机”在这里表示认知不确定性。
频率学派：参数是固定但未知的，随机性只来自样本抽样过程。

对区间的理解不同

贝叶斯可信区间：给定数据和模型后，参数落在区间内的概率是多少。
频率置信区间：如果无限次重复抽样，这种构造区间的方法有多高比例会覆盖真值。

这也是很多初学者最容易混淆的地方：
两种区间形式看起来像，解释其实完全不同。

用户为什么会选频率学派？

真实世界里，很多研究者选频率学派，不是因为他们深信“长期频率”哲学，而是因为：

教科书和训练体系更成熟
领域期刊默认接受
方法标准化程度高
计算更便宜
审稿人更熟悉 p 值、显著性、置信区间

换句话说，频率学派的生态优势非常强。
它很多时候赢的不是思想吸引力，而是制度惯性。

用户为什么会选贝叶斯？

通常是因为他们遇到了频率方法难处理的场景：

样本小
需要融入先验知识
关注预测分布而非单点
需要层级结构
需要顺序更新
希望结果解释更直观

社区口碑上的真实差异

频率学派经常被吐槽：

p 值容易被滥用
“显著/不显著”二元划分粗暴
很多研究者把置信区间误读成可信区间
假设检验文化导致“结果导向统计”

贝叶斯则经常被吐槽：

太依赖建模者功力
先验“看起来像人为调参”
算法重、算得慢
容易给人一种“什么都能包进模型，所以怎么说都行”的印象

生态位判断

如果说频率学派像工业时代建立起来的标准统计语言，那么贝叶斯主义更像复杂世界里的柔性推断语言。
前者强调程序可复现、标准统一；后者强调信息整合、解释连贯。

它们今天并不是简单替代关系，更像是：

在高标准、低复杂度、大样本场景，频率方法仍然非常强
在高复杂度、小样本、强先验、高决策成本场景，贝叶斯更占优

2. 贝叶斯主义 vs 似然主义：一场更“内行”的争论

和频率学派相比，似然主义（Likelihoodism） 更像是一个专业圈内的竞争者。
它也不完全接受频率学派的一套，但又不愿像贝叶斯那样引入完整先验。

似然主义的核心直觉是：
数据对假设的支持程度，可以由似然函数表达。
你不一定要谈主观信念，也不一定要谈长期重复抽样，只要比较不同假设对已观察数据的解释力就行。

它对很多人有吸引力的原因

比频率学派更贴近“证据支持度”的直觉
又没有贝叶斯那样明显的先验争议
在模型比较问题上有很强解释力

但它的问题也明显

它擅长比较已给出的假设，却不一定能完整回答“更新后相信多少”
缺少贝叶斯那种从 prior 到 posterior 的动态学习闭环
在决策和预测上，不如贝叶斯框架完整

所以从生态位看，似然主义像是一个理论上优雅、但应用面没有贝叶斯那么宽的对手。
它在方法论上提供了很好的批评镜子：提醒人们不要把所有证据问题都直接吞进先验—后验结构里。

3. 贝叶斯主义 vs 演绎主义科学观：它真正的对手不是统计，而是“知识观”

如果把视野拉得更大，贝叶斯主义不仅在和别的统计方法竞争，也在和一种更古典的知识理想竞争：
科学应当主要靠演绎证明、确定逻辑、清晰证伪来推进。

从这个角度看，贝叶斯主义的崛起意味着一个巨大转变：
它承认很多现实认知活动都不是“确定地推出结论”，而是在不同程度的不确定中更新判断。

这使它在以下问题上尤其有力量：

证据如何逐步确认理论？
多条不完美证据如何合并？
不能一锤定音时，如何比较哪种解释更可信？

但也因此，有人批评贝叶斯主义过于“连续化”了信念，仿佛一切都能用概率平滑处理。
现实中的科学革命、概念突变、范式跃迁，未必都能简化为 credence 的逐步更新。

所以，在哲学层面，贝叶斯主义的对手不是某个单一学派，而是“科学是否可以被统一成概率更新过程”这一命题的怀疑者。

4. 贝叶斯主义 vs 非贝叶斯机器学习：预测准确率和不确定性表达之间的张力

在今天最实际的技术战场上，贝叶斯主义面对的一个强大竞争者其实是：
以优化和经验效果为核心的非贝叶斯机器学习范式。

很多工业系统真正关心的是：

准确率高不高
速度快不快
部署成本低不低
训练是否稳定

在这些指标上，很多非贝叶斯深度学习方案往往更直接、更成熟、更有工程工具链支持。
因此现实中大量系统并不会“纯贝叶斯化”。

为什么很多团队不选贝叶斯？

训练和推断成本高
后验近似难
工程复杂
业务场景不一定需要完整不确定性表达
组织里缺少概率建模人才

为什么又越来越多团队重新看贝叶斯？

因为黑箱预测在很多高风险场景下不够。
模型给出 99% 置信样子的错误答案，比老老实实承认“不确定”更危险。
于是，贝叶斯思想作为“不确定性基础设施”开始回流。

用户真实使用偏差

很有意思的是，很多工业团队并不自称“贝叶斯主义者”，但他们做的事情已经很贝叶斯：

加先验约束
做模型集成
在线更新
输出预测分布
用概率图模型融合多源信息

也就是说，贝叶斯思想正在以“去宗派化”的方式渗透工程实践。
很多人并不在哲学上站队，但在方法上已经借用了它。

三、一个辅助性的横向对比表

维度	贝叶斯主义	频率学派	似然主义	非贝叶斯ML
概率含义	信念度/不确定性	长期频率	证据支持结构	常常只是损失优化下的分数输出
是否使用先验	是，核心组成	否/尽量避免	通常不显式使用	常隐含结构先验，但不显式表述
更新机制	明确：prior→posterior	依赖抽样理论	重视似然比较	依赖训练与再训练
结果解释	直观，可谈“概率多大”	严格但常被误读	对证据比较清晰	往往重性能轻解释
优势	统一、灵活、能表达不确定性	标准化、成熟、计算较稳	优雅、强调证据	工程效率高、生态强
短板	先验争议、计算重	p值文化问题、解释绕	框架不如贝叶斯完整	不确定性常表达不足

四、趋势判断：贝叶斯主义接下来会往哪里走？

1. 它不会“消灭”其他范式，但会继续成为高复杂度问题的底层语言

贝叶斯主义未来最可能的走向，不是全面替代频率学派或深度学习，而是继续在以下场景中成为核心基础设施：

高风险决策
小样本推断
多源异构信息融合
科学建模
强调校准与不确定性的AI系统

2. 它会越来越“隐身”

未来很多系统可能不会在名称上强调自己是贝叶斯的，但会在内部吸收贝叶斯思想：

后验近似
置信传播
概率编程
预测分布输出
结构先验与层级建模

也就是说，贝叶斯主义可能不会总以“主义”形态出现，而会以“系统设计原则”存在。

3. 最大机会：AI时代对不确定性的重新重视

随着大模型和复杂AI系统广泛进入真实世界，“能不能表达不知道”会变得越来越关键。
这恰恰是贝叶斯传统最深的优势。

4. 最大风险：沦为一种“概念光环”

“贝叶斯”在一些领域容易变成高级标签：
听起来严谨、聪明、全面，但真正落地时只用了一点点近似技巧。
如果失去对先验、模型结构、推断误差的严格审视，贝叶斯也可能沦为包装词。

五、横纵交汇：为什么贝叶斯主义今天仍然重要？

如果把纵向和横向放在一起看，会发现贝叶斯主义最核心的价值并不只是“Bayes公式很好用”，而是它提供了一种极少数方法论才拥有的统一性：

它能把信念、证据、学习、决策放进同一个框架；
它既能讨论哲学上的“什么算理性更新”，也能落实到统计上的“如何算后验分布”，再延伸到工程上的“怎样量化模型不确定性”。

这就是它能穿越几个世纪的原因。

从历史看，贝叶斯主义的命运并不是一条直线。
它经历过作为逆概率工具的萌芽、被频率学派压制的边缘期、在主观概率与决策理论中的哲学重塑、在计算革命中的统计复兴，最后又在机器学习时代获得了新的工程解释。
它每次复活，都不是简单重复自己，而是在新的问题场景中被重新翻译。

从横向看，它也从未真正垄断赛道。
频率学派拥有制度与标准化优势，似然主义保留了证据比较的优雅路线，非贝叶斯机器学习则占据工程效率和规模化生态。
贝叶斯主义真正的独特性，不在于它能把所有问题都做得最好，而在于它特别擅长处理这样一类问题：

当世界充满不确定，而你又不能假装自己什么都不知道时，如何把已有知识、新证据和行动选择放进同一个理性过程里。

这正是现代科学、商业决策、人工智能越来越频繁面对的问题。

所以，对贝叶斯主义最准确的评价可能不是“它是一种统计流派”，而是：

它是一种关于有限理性如何在不确定世界中持续学习的总框架。

而只要人类还需要在信息不完整的条件下判断、下注、修正和决策，贝叶斯主义就不会退场。它甚至可能比以往任何时候都更重要——因为今天的不确定性，不是变少了，而是被放大了。