贝叶斯垃圾邮件分类学习笔记

发表于 2021-12-18 分类于笔记

贝叶斯垃圾邮件过滤器的工作原理

贝叶斯垃圾邮件过滤器的基本依据是条件概率。

贝叶斯定理（Bayes’ rule）：$P(A|B)=\frac{P(B|A) P(A)}{P(B)}$。

证明：根据Venn图可得，在B发生的情况下A发生的概率$P(A|B)=\frac{P(A\cap B)}{P(B)}$。由此，$P(A\cap B)=P(A|B) P(B)$。同理，$P(A\cap B)=P(B|A) P(A)$。因此，$P(A|B) P(B)=P(B|A) P(A)$，即$P(A|B)=\frac{P(B|A) P(A)}{P(B)}$。

贝叶斯推断（Bayes’ inference）：利用贝叶斯定理的公式变形得到$P(A|B)=P(A)\frac{P(B|A)}{P(B)}$，其中$P(A)$称为先验概率（Prior probability），$P(A|B)$称为后验概率（Posterior probability），$\frac{P(B|A)}{P(B)}$称为可能性函数（Likelihood）。其含义为在B事件发生后，通过可能性函数对A发生的概率进行重新评估，得到相较先验概率更接近真实概率的后验概率。

贝叶斯垃圾邮件过滤器的工作原理：设A表示邮件是垃圾邮件，B表示出现特定单词W。根据贝叶斯推断，我们可以通过事件B推得事件A更准确的概率，此处可能性函数的值可以通过垃圾邮件中W出现的概率与W在所有邮件中出现的概率的比值得到。则在设定初始的先验概率后，通过特定单词在垃圾邮件中的出现情况，可以得到邮件中出现单词W且该邮件是垃圾邮件的概率。贝叶斯垃圾邮件过滤器即通过这样的原理，由邮件中单词的出现概率和在垃圾邮件中的出现概率，进一步对邮件是垃圾邮件的概率进行推算，若达到设定阈值则认定邮件是垃圾邮件，反之为正常邮件。

通常初始先验概率为0.5，判定阈值为0.9。

参考

贝叶斯推断及其互联网应用（二）：过滤垃圾邮件

贝叶斯推断及其互联网应用（一）：定理简介