贝叶斯垃圾邮件分类学习笔记
贝叶斯垃圾邮件过滤器的工作原理
贝叶斯垃圾邮件过滤器的基本依据是条件概率。
贝叶斯定理(Bayes’ rule):$P(A|B)=\frac{P(B|A) P(A)}{P(B)}$。
证明:根据Venn图可得,在B发生的情况下A发生的概率$P(A|B)=\frac{P(A\cap B)}{P(B)}$。由此,$P(A\cap B)=P(A|B) P(B)$。同理,$P(A\cap B)=P(B|A) P(A)$。因此,$P(A|B) P(B)=P(B|A) P(A)$,即$P(A|B)=\frac{P(B|A) P(A)}{P(B)}$。
贝叶斯推断(Bayes’ inference):利用贝叶斯定理的公式变形得到$P(A|B)=P(A)\frac{P(B|A)}{P(B)}$,其中$P(A)$称为先验概率(Prior probability),$P(A|B)$称为后验概率(Posterior probability),$\frac{P(B|A)}{P(B)}$称为可能性函数(Likelihood)。其含义为在B事件发生后,通过可能性函数对A发生的概率进行重新评估,得到相较先验概率更接近真实概率的后验概率。
贝叶斯垃圾邮件过滤器的工作原理:设A表示邮件是垃圾邮件,B表示出现特定单词W。根据贝叶斯推断,我们可以通过事件B推得事件A更准确的概率,此处可能性函数的值可以通过垃圾邮件中W出现的概率与W在所有邮件中出现的概率的比值得到。则在设定初始的先验概率后,通过特定单词在垃圾邮件中的出现情况,可以得到邮件中出现单词W且该邮件是垃圾邮件的概率。贝叶斯垃圾邮件过滤器即通过这样的原理,由邮件中单词的出现概率和在垃圾邮件中的出现概率,进一步对邮件是垃圾邮件的概率进行推算,若达到设定阈值则认定邮件是垃圾邮件,反之为正常邮件。
通常初始先验概率为0.5,判定阈值为0.9。