贝叶斯主义：一套关于“不确定性”的世界观，如何从哲学争论变成现代推断机器

一、纵向分析：贝叶斯主义是如何长成今天这个样子的

1. 起点：它不是先从“统计技术”开始的，而是从“人在不确定中如何相信”开始的

如果只看今天的教科书，贝叶斯主义似乎很容易被理解成一条公式：

$P (H ∣ E) = \frac{P (E ∣ H) P (H)}{P (E)}$

也就是：看到证据 $E$ E 之后，如何更新对假设 $H$ H 的相信程度。
但这条公式之所以重要，不是因为它长得漂亮，而是因为它回答了一个更古老的问题：人在证据不完整的时候，应该怎样形成和修正自己的信念？

这背后其实有三条不同但后来汇合的线索：

数学线索：概率能不能被严格地当作一个演算系统？
哲学线索：信念能不能被量化？“相信多少”是否可以用概率表示？
实践线索：在数据有限、样本不完整、未来不可知的时候，怎样做决策？

贝叶斯主义最后之所以影响如此之大，正是因为它把这三条线拧在了一起。
它不是单纯的统计技巧，而是一种关于不确定性、知识、证据、行动的统一框架。[^^1][^^2]

2. 18世纪的原点：Thomas Bayes 的问题意识，比后人记住的公式更重要

贝叶斯主义得名于 Thomas Bayes。1763年，在他去世后发表的论文《An Essay towards solving a Problem in the Doctrine of Chances》中，Bayes 讨论的核心问题并不是“如何做贝叶斯回归”，而是更原初的事情：
已知观察结果，如何反推未知原因的概率？

这件事在当时很不寻常。17—18世纪的概率论，更多是在处理赌博、组合、事件发生的机会。也就是说，传统方向往往是：

已知机制
推算结果概率

而 Bayes 所碰的，是反过来的方向：

已知结果
推测背后机制的可信程度

这一步非常关键，因为它把概率从“事件频率的描述”往“未知世界的反推工具”推进了一大步。

不过，历史上真正把这条路走宽的，其实不是 Bayes 本人，而是 Pierre-Simon Laplace。Laplace 在 18 世纪末到 19 世纪初系统扩展了这一思想，把逆概率（inverse probability）方法真正发展成一套可用于天文学、人口统计、测量误差分析的推断体系。[^^3][^^4]

这里有个很重要的历史事实：
早期并没有“Bayesian”这个统一标签。
很长一段时间里，人们更常用的词是 inverse probability（逆概率）。也就是说，当时这套方法并不以“贝叶斯主义”自居，而是作为一种从结果反推原因的推断方式存在。Fienberg 的研究专门指出，“Bayesian”这个术语其实是 20 世纪才逐渐稳定普及的。[^^4]

这说明一个有趣的现象：
贝叶斯主义并不是某一天被“发明”出来并立刻成形的，它更像是一条后来被重新命名、重新解释、重新包装的思想谱系。

3. Laplace时代：真正把“逆概率”推成通用推理机器的人

如果 Bayes 提供了种子，那么 Laplace 更像是把它种成森林的人。

Laplace 的野心比 Bayes 大得多。他面对的是启蒙时代的核心信念：
自然界有秩序，而数学可以揭示这秩序。

在这个背景下，概率不只是赌博学问，而是处理无知、误差、不完整知识的数学工具。
Laplace 把概率扩展为一种普遍的理性技术：在信息不完备时，理性主体仍然可以通过演算来逼近真相。

这一步奠定了后来贝叶斯主义最深的一层气质：
它从来不是只关于“统计模型”，而是关于有限理性如何在不确定世界中运作。

Laplace 的工作还推动了一个后来一直争议不断的传统：
在没有足够信息时，如何设定先验？

启蒙时代倾向于相信“无差别原则”——如果没有理由偏向某个可能性，就应给予相等权重。这个直觉后来成为很多贝叶斯先验构造的原始灵感，但也埋下了长期争议：
所谓“没有理由偏向任何一方”，真的是中立吗？
你换一个参数化方式，所谓“均匀先验”还均匀吗？

后来的“先验问题”（problem of the priors），根子其实在这里就已经埋下了。[^^1][^^2]

4. 19世纪到20世纪初：它曾经不是主流胜者，而是一套在争议中存活的方法

如果把今天的视角投回去，很容易误以为贝叶斯主义一路高歌猛进，最后胜出。
实际历史恰恰复杂得多。

19世纪后半到20世纪上半，统计学逐步制度化、职业化，现代统计学科开始形成。这个阶段，频率学派（frequentism） 的地位越来越强。其代表性人物包括 Ronald Fisher、Jerzy Neyman、Egon Pearson 等。

为什么频率学派能压过逆概率传统？原因至少有三层：

第一层：科学客观性的时代偏好

19世纪末和20世纪初的科学文化越来越强调“客观性”。
而贝叶斯/逆概率方法里最扎眼的一点，恰恰是先验。
一旦允许研究者在数据之前就引入主观判断，那么科学会不会变成“带着立场算答案”？

频率学派在这里显得更“干净”：

参数是固定的、未知的
概率只属于可重复抽样过程
推断标准尽量依赖样本分布而不是主观信念

这和那个时代对“去人格化科学”的追求高度一致。

第二层：方法论操作性更强

显著性检验、置信区间、最大似然等工具，给了统计学一整套标准化流程。
这些流程容易教学、容易复制、容易嵌入实验科学制度。

第三层：计算资源限制

贝叶斯方法即使在理念上诱人，很多真实问题也会卡在积分算不动。
你可以写出后验分布，但往往求不出来。
而频率学派不少方法在数学和计算上更可操作。

因此，在相当长时期里，贝叶斯方法并非消失，而是处于一种理论上顽强存在、制度上相对边缘化的状态。[^^3][^^4]

5. 20世纪上半：从“逆概率算法”转向“主观信念逻辑”

贝叶斯主义真正发生质变，是在它不再只被当作一套统计技巧，而开始被解释为一种理性信念的规范理论。

这一步的关键人物包括：

Frank Ramsey
Bruno de Finetti
Leonard Savage

他们完成了一个极其重要的转向：
贝叶斯主义不再只是“从数据反推参数”的数学程序，而是变成了对如下命题的回答：

一个理性主体的信念，如果要避免自我矛盾，应当满足什么结构？

Ramsey：信念可以通过偏好和下注行为刻画

Ramsey 的思路很革命：
你不用先问“信念是不是一种神秘心理状态”，而可以看一个人在赌局、选择、偏好中如何表现。
如果他的偏好满足某些一致性条件，就可以把这些偏好表示为概率和效用。

de Finetti：概率不是世界的客观属性，而是主体的可信度

de Finetti 把主观概率推进到了前台。
在他那里，概率不是外部世界里长出来的自然刻度，而是主体对命题的可信程度（degree of belief）。
著名的 Dutch Book argument（荷兰书论证） 则提供了一种一致性约束：
如果你的信念不能用概率公理表示，别人就可以构造一组赌局，保证你无论如何都输钱。
也就是说，不满足概率法则的信念系统会在行为上暴露为不一致。[^^1]

Savage：主观主义与决策理论的系统整合

Savage 把这些想法进一步系统化。他关心的不只是“你相信什么”，更是“在不确定下你如何行动”。
由此，贝叶斯主义开始和期望效用理论深度耦合。
概率不再只服务于认识论，也服务于决策。

这是贝叶斯主义历史上的大转弯：
它从“逆概率”变成了“主观信念 + 规范更新 + 理性决策”的完整框架。
也正是在这个阶段，贝叶斯主义的哲学野心被真正抬高了。[^^1][^^4]

6. 贝叶斯认识论的成形：不是“会不会算”，而是“应该怎样信”

到了 20 世纪中后期，贝叶斯主义在哲学中形成了比较清晰的规范结构。
Stanford Encyclopedia of Philosophy 对 Bayesian Epistemology 的概括非常经典：它至少包含两条核心规范。[^^1]

规范一：Probabilism（概率主义）

理性主体的信念度（credence）应当服从概率公理。
也就是说，一个人的“相信多少”不应是散乱的情绪，而应能组成一个概率分布。

规范二：Principle of Conditionalization（条件化原则）

当你获得新证据 $E$ E 时，新的信念应当由旧信念按条件概率更新： $C r_{n e w} (H) = C r_{o l d} (H ∣ E)$ Crnew(H)=Crold(H∣E)

这条原则极其重要，因为它把“学习”刻画成一个数学更新过程。
从此，理性不再只是静态一致，而是动态一致：
你不仅要在一个时点上不自相矛盾，还要在时间中以合乎规则的方式修正自己。

这套理论之所以迷人，是因为它把很多哲学老问题统一到了一个框架里：

归纳推理如何可能？
证据如何确认理论？
观察如何改变信念？
什么样的信念更新才算理性？

但它的问题也随之浮现：

先验从哪里来？
如果不同主体先验不同，是否会得出无法调和的结论？
条件化原则是否适用于所有信息更新？
人类真实思维根本不遵守这些规则，这会不会削弱其规范性？

因此，贝叶斯认识论从来不是“完胜”的哲学，而是一套极强、但也持续被围攻的规范方案。[^^1]

7. “先验问题”：贝叶斯主义最强的地方，也是最常被攻击的地方

贝叶斯主义最有辨识度的特征是 prior（先验）。
它允许你把“看到数据之前的已有知识、经验判断、结构假设”写进模型。
这在实践上很有价值，因为现实世界很少从一张白纸开始。

但也正是这里，批评最猛烈。

为什么先验会被攻击？

因为它看起来让推断“带偏见”。
如果你一开始就假定某个理论更可信，那结果会不会只是把偏见公式化？

贝叶斯主义的回应

贝叶斯主义通常有几种回应路径：

所有推断都有前提，只是很多方法把前提藏起来了。
与其假装客观，不如把假设显式写出来。
数据量足够大时，先验影响会减弱。
可以使用非信息先验、弱信息先验、参考先验等方式降低主观性。
在很多高风险或小样本场景中，利用领域知识反而比“装作没有先验”更诚实。

但反对者并不完全买账。
他们会指出：

所谓“非信息先验”并不真正中立；
参数化变化会改变“平坦性”；
在复杂模型和小样本中，先验对结果可能极敏感。

SEP 对此讨论得很清楚：先验问题不是边角料，而是贝叶斯主义的核心哲学难题之一。[^^1]

8. 从哲学走回统计：20世纪后期的“新贝叶斯复兴”

如果说 20 世纪上半是贝叶斯主义在哲学上壮大，那么 20 世纪后期，它在统计实践中迎来了真正的大复兴。

这场复兴并不主要靠“哲学说服”，而是靠两个现实变化：

第一，计算能力终于追上了理论野心

很多贝叶斯问题之所以过去难做，不是因为思想不对，而是因为积分太难。
后验分布往往没有解析解。
随着计算机发展，以及 Markov chain Monte Carlo (MCMC) 等算法成熟，原本写在纸上求不出的后验，终于可以数值逼近。[^^3]

第二，现实问题越来越需要层级、不确定、部分信息整合

在医学、生态学、社会科学、工程、金融等场景里，研究者发现：
世界不是干净的、独立同分布的小样本实验室。
真实问题往往具有：

多层结构
缺失数据
先验知识
小样本
需要顺序更新
需要预测分布而不仅是点估计

这些正是贝叶斯方法擅长的地带。

因此，贝叶斯主义的复兴不是偶然，而是“问题复杂度”和“计算工具”共同推出来的。
Wikipedia 对贝叶斯统计的概述里也明确提到，20 世纪后期的兴起与计算能力、尤其是 MCMC 的普及密切相关。[^^3]

9. 现代贝叶斯统计的成型：从“公式”变成“建模语言”

到了今天，贝叶斯统计已经不只是 Bayes 定理本身，而是一整套建模范式。
它的基本结构通常写成：

Prior：你原本怎么想
Likelihood：如果假设为真，数据长什么样
Posterior：看到数据后，你现在怎么想
Evidence / Marginal likelihood：模型解释数据的整体能力

贝叶斯统计的核心不只是“计算后验”，而是把模型当成一台不确定性组织机器。
它擅长回答的不只是“参数估计值是多少”，而是：

这个参数多大概率落在某区间？
新样本会长什么样？
哪个模型更能解释数据？
不同信息源如何融合？
在不完整信息下应如何做决策？

于是，贝叶斯统计在方法层面长出了非常多分支：

层级贝叶斯模型
贝叶斯网络
贝叶斯非参数
贝叶斯模型比较（如 Bayes factor）
Approximate Bayesian Computation
Variational Bayes
Sequential Bayesian updating

它早已不是一条公式，而是一整套关于建模、更新、预测、决策的语法。

10. 进入机器学习时代：贝叶斯主义重新被解释为“对不确定性的尊重”

在机器学习和深度学习的世界里，贝叶斯主义迎来又一次转义。

早期机器学习更关注预测精度和优化表现，很多模型更像“黑箱函数逼近器”。
但随着系统被部署到高风险场景——医疗、自动驾驶、金融风控、科学发现——一个问题越来越突出：

模型不仅要给出答案，还要告诉我们它对答案有多不确定。

这正是贝叶斯思想最擅长的事。
它天然把参数、结构、预测都放进概率分布中思考，而不是只给一个点值。

因此，现代机器学习里“贝叶斯”的价值主要集中在几件事上：

uncertainty quantification（不确定性量化）
小样本学习与先验注入
模型平均与结构选择
在线更新
避免把偶然模式误当成确定规律

这也催生了许多具体技术方向：

Bayesian neural networks
Variational inference
Monte Carlo dropout（某种近似贝叶斯解释）
Probabilistic programming
Active learning / Bayesian optimization

在这个阶段，贝叶斯主义被重新包装成一种现代工程语言：
不是“主观信念形而上学”，而是“如何让模型知道自己不知道”。

这非常重要，因为它说明贝叶斯主义能够跨越时代：
它可以用 18 世纪的形式处理赌博问题，也可以用 21 世纪的形式处理深度模型的不确定性。

11. 但它并没有统一天下：贝叶斯主义今天仍然活在争论里

尽管贝叶斯方法复兴明显，贝叶斯主义并没有终结其他范式。
原因很简单：它的强大和麻烦是同一枚硬币的两面。

它的强大之处在于：

可以自然表达不确定性
能整合先验知识与数据
适合顺序学习
预测解释统一
在复杂分层问题中很强

它的麻烦在于：

先验选择始终有争议
复杂模型计算成本高
近似推断可能引入额外偏差
结果对建模选择敏感
对不熟悉概率建模的使用者门槛高

所以，贝叶斯主义今天的真实状态，不是“彻底胜利”，而是成为了一种极其重要、影响深远、但并非无可替代的方法论中心。

二、横向分析：贝叶斯主义在今天的方法论版图中，究竟站在哪里？

对于“贝叶斯主义”这种研究对象，最适合的横向比较对象不是某几个公司，而是同属“处理不确定性与推断”的几类范式。
这里属于 场景C：竞品充分（3个及以上）。
我选取四类最有代表性的对照对象：

频率学派（Frequentism）
似然主义（Likelihoodism）
经典逻辑/演绎主义科学观
现代数据驱动黑箱预测范式（尤其非贝叶斯机器学习）

1. 贝叶斯主义 vs 频率学派：最经典、也最纠缠的一场对决

这是最常见的对比，因为两者都在回答同一个问题：
如何从数据走向推断？

表面对立：他们对“概率是什么”理解不同

贝叶斯主义：概率可以表示主体对命题的信念度（degree of belief）。[^^1][^^3]
频率学派：概率主要是可重复试验中的长期相对频率。

这个差别不是语义游戏，而是会一路传导到推断方式。

对参数的看法不同

贝叶斯：参数本身可以是随机变量，因为“随机”在这里表示认知不确定性。
频率学派：参数是固定但未知的，随机性只来自样本抽样过程。

对区间的理解不同

贝叶斯可信区间：给定数据和模型后，参数落在区间内的概率是多少。
频率置信区间：如果无限次重复抽样，这种构造区间的方法有多高比例会覆盖真值。

这也是很多初学者最容易混淆的地方：
两种区间形式看起来像，解释其实完全不同。

用户为什么会选频率学派？

真实世界里，很多研究者选频率学派，不是因为他们深信“长期频率”哲学，而是因为：

教科书和训练体系更成熟
领域期刊默认接受
方法标准化程度高
计算更便宜
审稿人更熟悉 p 值、显著性、置信区间

换句话说，频率学派的生态优势非常强。
它很多时候赢的不是思想吸引力，而是制度惯性。

用户为什么会选贝叶斯？

通常是因为他们遇到了频率方法难处理的场景：

样本小
需要融入先验知识
关注预测分布而非单点
需要层级结构
需要顺序更新
希望结果解释更直观

社区口碑上的真实差异

频率学派经常被吐槽：

p 值容易被滥用
“显著/不显著”二元划分粗暴
很多研究者把置信区间误读成可信区间
假设检验文化导致“结果导向统计”

贝叶斯则经常被吐槽：

太依赖建模者功力
先验“看起来像人为调参”
算法重、算得慢
容易给人一种“什么都能包进模型，所以怎么说都行”的印象

生态位判断

如果说频率学派像工业时代建立起来的标准统计语言，那么贝叶斯主义更像复杂世界里的柔性推断语言。
前者强调程序可复现、标准统一；后者强调信息整合、解释连贯。

它们今天并不是简单替代关系，更像是：

在高标准、低复杂度、大样本场景，频率方法仍然非常强
在高复杂度、小样本、强先验、高决策成本场景，贝叶斯更占优

2. 贝叶斯主义 vs 似然主义：一场更“内行”的争论

和频率学派相比，似然主义（Likelihoodism） 更像是一个专业圈内的竞争者。
它也不完全接受频率学派的一套，但又不愿像贝叶斯那样引入完整先验。

似然主义的核心直觉是：
数据对假设的支持程度，可以由似然函数表达。
你不一定要谈主观信念，也不一定要谈长期重复抽样，只要比较不同假设对已观察数据的解释力就行。

它对很多人有吸引力的原因

比频率学派更贴近“证据支持度”的直觉
又没有贝叶斯那样明显的先验争议
在模型比较问题上有很强解释力

但它的问题也明显

它擅长比较已给出的假设，却不一定能完整回答“更新后相信多少”
缺少贝叶斯那种从 prior 到 posterior 的动态学习闭环
在决策和预测上，不如贝叶斯框架完整

所以从生态位看，似然主义像是一个理论上优雅、但应用面没有贝叶斯那么宽的对手。
它在方法论上提供了很好的批评镜子：提醒人们不要把所有证据问题都直接吞进先验—后验结构里。

3. 贝叶斯主义 vs 演绎主义科学观：它真正的对手不是统计，而是“知识观”

如果把视野拉得更大，贝叶斯主义不仅在和别的统计方法竞争，也在和一种更古典的知识理想竞争：
科学应当主要靠演绎证明、确定逻辑、清晰证伪来推进。

从这个角度看，贝叶斯主义的崛起意味着一个巨大转变：
它承认很多现实认知活动都不是“确定地推出结论”，而是在不同程度的不确定中更新判断。

这使它在以下问题上尤其有力量：

证据如何逐步确认理论？
多条不完美证据如何合并？
不能一锤定音时，如何比较哪种解释更可信？

但也因此，有人批评贝叶斯主义过于“连续化”了信念，仿佛一切都能用概率平滑处理。
现实中的科学革命、概念突变、范式跃迁，未必都能简化为 credence 的逐步更新。

所以，在哲学层面，贝叶斯主义的对手不是某个单一学派，而是“科学是否可以被统一成概率更新过程”这一命题的怀疑者。

4. 贝叶斯主义 vs 非贝叶斯机器学习：预测准确率和不确定性表达之间的张力

在今天最实际的技术战场上，贝叶斯主义面对的一个强大竞争者其实是：
以优化和经验效果为核心的非贝叶斯机器学习范式。

很多工业系统真正关心的是：

准确率高不高
速度快不快
部署成本低不低
训练是否稳定

在这些指标上，很多非贝叶斯深度学习方案往往更直接、更成熟、更有工程工具链支持。
因此现实中大量系统并不会“纯贝叶斯化”。

为什么很多团队不选贝叶斯？

训练和推断成本高
后验近似难
工程复杂
业务场景不一定需要完整不确定性表达
组织里缺少概率建模人才

为什么又越来越多团队重新看贝叶斯？

因为黑箱预测在很多高风险场景下不够。
模型给出 99% 置信样子的错误答案，比老老实实承认“不确定”更危险。
于是，贝叶斯思想作为“不确定性基础设施”开始回流。

用户真实使用偏差

很有意思的是，很多工业团队并不自称“贝叶斯主义者”，但他们做的事情已经很贝叶斯：

加先验约束
做模型集成
在线更新
输出预测分布
用概率图模型融合多源信息

也就是说，贝叶斯思想正在以“去宗派化”的方式渗透工程实践。
很多人并不在哲学上站队，但在方法上已经借用了它。

三、一个辅助性的横向对比表

维度	贝叶斯主义	频率学派	似然主义	非贝叶斯ML
概率含义	信念度/不确定性	长期频率	证据支持结构	常常只是损失优化下的分数输出
是否使用先验	是，核心组成	否/尽量避免	通常不显式使用	常隐含结构先验，但不显式表述
更新机制	明确：prior→posterior	依赖抽样理论	重视似然比较	依赖训练与再训练
结果解释	直观，可谈“概率多大”	严格但常被误读	对证据比较清晰	往往重性能轻解释
优势	统一、灵活、能表达不确定性	标准化、成熟、计算较稳	优雅、强调证据	工程效率高、生态强
短板	先验争议、计算重	p值文化问题、解释绕	框架不如贝叶斯完整	不确定性常表达不足

四、趋势判断：贝叶斯主义接下来会往哪里走？

1. 它不会“消灭”其他范式，但会继续成为高复杂度问题的底层语言

贝叶斯主义未来最可能的走向，不是全面替代频率学派或深度学习，而是继续在以下场景中成为核心基础设施：

高风险决策
小样本推断
多源异构信息融合
科学建模
强调校准与不确定性的AI系统

2. 它会越来越“隐身”

未来很多系统可能不会在名称上强调自己是贝叶斯的，但会在内部吸收贝叶斯思想：

后验近似
置信传播
概率编程
预测分布输出
结构先验与层级建模

也就是说，贝叶斯主义可能不会总以“主义”形态出现，而会以“系统设计原则”存在。

3. 最大机会：AI时代对不确定性的重新重视

随着大模型和复杂AI系统广泛进入真实世界，“能不能表达不知道”会变得越来越关键。
这恰恰是贝叶斯传统最深的优势。

4. 最大风险：沦为一种“概念光环”

“贝叶斯”在一些领域容易变成高级标签：
听起来严谨、聪明、全面，但真正落地时只用了一点点近似技巧。
如果失去对先验、模型结构、推断误差的严格审视，贝叶斯也可能沦为包装词。

五、横纵交汇：为什么贝叶斯主义今天仍然重要？

如果把纵向和横向放在一起看，会发现贝叶斯主义最核心的价值并不只是“Bayes公式很好用”，而是它提供了一种极少数方法论才拥有的统一性：

它能把信念、证据、学习、决策放进同一个框架；
它既能讨论哲学上的“什么算理性更新”，也能落实到统计上的“如何算后验分布”，再延伸到工程上的“怎样量化模型不确定性”。

这就是它能穿越几个世纪的原因。

从历史看，贝叶斯主义的命运并不是一条直线。
它经历过作为逆概率工具的萌芽、被频率学派压制的边缘期、在主观概率与决策理论中的哲学重塑、在计算革命中的统计复兴，最后又在机器学习时代获得了新的工程解释。
它每次复活，都不是简单重复自己，而是在新的问题场景中被重新翻译。

从横向看，它也从未真正垄断赛道。
频率学派拥有制度与标准化优势，似然主义保留了证据比较的优雅路线，非贝叶斯机器学习则占据工程效率和规模化生态。
贝叶斯主义真正的独特性，不在于它能把所有问题都做得最好，而在于它特别擅长处理这样一类问题：

当世界充满不确定，而你又不能假装自己什么都不知道时，如何把已有知识、新证据和行动选择放进同一个理性过程里。

这正是现代科学、商业决策、人工智能越来越频繁面对的问题。

所以，对贝叶斯主义最准确的评价可能不是“它是一种统计流派”，而是：

它是一种关于有限理性如何在不确定世界中持续学习的总框架。

而只要人类还需要在信息不完整的条件下判断、下注、修正和决策，贝叶斯主义就不会退场。它甚至可能比以往任何时候都更重要——因为今天的不确定性，不是变少了，而是被放大了。