什么是迪利克雷分布？

迪利克雷的参数为

其中代表第个类别的证据。一般来说， $证据量$

这里的数字 1 代表一个先验，也就是没有任何证据时的初始状态。因此迪利克雷分布可以反应三种状况：

论文具体是如何解决？

模型输出一个向量，代表每个类别的证据量。然后迪利克雷的参数定义为。总强度为，则模型整体的不确定性定义为：

那么损失函数如何设计呢？完整的损失函数设计如下：

可以看到包含两部分，一部分是分类损失，一部分是 KL 散度损失。

其中 KL 散度的公式中的为：

对于正确类别；对于错误类别，

由此可知，在计算 KL 散度前，模型会手动把正确类别的证据设置成 1。

现在让我们理解一下这个公式：

可以分情况考虑：

注意这里的退火系数：

在训练初期，模型没有见到多少数据，预测基本都是错的。这个时候如果系数很大，模型容易崩溃，不稳定。

另外就是分类误差项：

注意这里不是交叉熵，作者发现平方和更加稳定。另外损失函数的第二项是方差项，希望迪利克雷分布的方差越小越好。

#EvidenceLearning

Evidence Learning

https://d4wnnn.github.io/2026/03/30/Notion/Evidence Learning/

作者

D4wn

发布于

2026年3月30日

许可协议