9.6 主题模型：潜在狄利克雷分布及其变体

主题模型是一类旨在从文档集合中自动发现抽象“主题”的无监督机器学习方法。其核心思想是，文档由潜在的主题混合而成，而每个主题则表现为一个在词汇表上的概率分布。潜在狄利克雷分布（Latent Dirichlet Allocation, LDA）是主题模型中最具代表性和影响力的生成式概率模型。它通过引入贝叶斯先验，为文档的主题混合和主题的词项分布提供了完整的生成过程描述，从而能够从非结构化的文本数据中提取可解释的主题结构。本节将系统阐述LDA的基本原理、生成过程、推断方法，并介绍其重要的变体模型。

9.6.1 主题建模的问题定义与LDA的核心思想

给定一个包含 MMM 篇文档的语料库，每篇文档 ddd 由 NdN_dNd 个词（词项）组成，整个语料库的词汇表大小为 VVV。传统词袋模型丢失了词序信息，仅保留词频，将文档表示为高维稀疏向量。主题建模的目标是发现 KKK 个潜在的主题（KKK 通常远小于 VVV 但大于1），每个主题 kkk 是一个 VVV 维向量 ϕkoldsymbol{phi}_kϕk，其中 ϕk,vphi_{k,v}ϕk,v 表示词项 vvv 在主题 kkk 中出现的概率。同时，为每篇文档 ddd 分配一个 KKK 维向量 θdoldsymbol{ heta}_dθd，其中 θd,k heta_{d,k}θd,k 表示主题 kkk 在文档 ddd 中的混合比例。

LDA的核心创新在于其贝叶斯生成框架[1]。与早期模型（如pLSI）不同，LDA将文档的主题比例 θdoldsymbol{ heta}_dθd 和主题的词分布 ϕkoldsymbol{phi}_kϕk 均视为随机变量，并为其分配了先验分布——狄利克雷分布。这使得模型自然地具有处理未知文档、避免过拟合以及量化不确定性的能力。

9.6.2 LDA的生成过程与概率模型

LDA假设文档的生成遵循以下随机过程，其中涉及两个关键的狄利克雷先验参数：αoldsymbol{alpha}α 和 βoldsymbol{eta}β。

9.6.2.1 生成过程

对于每个主题 k=1,…,Kk = 1, …, Kk=1,…,K：

从参数为 βoldsymbol{eta}β 的狄利克雷分布中采样一个主题-词分布：ϕk∼Dir(β)oldsymbol{phi}_k sim ext{Dir}(oldsymbol{eta})ϕk∼Dir(β)。

对于语料库中的每篇文档 d=1,…,Md = 1, …, Md=1,…,M：

从参数为 αoldsymbol{alpha}α 的狄利克雷分布中采样一个文档-主题分布：θd∼Dir(α)oldsymbol{ heta}_d sim ext{Dir}(oldsymbol{alpha})θd∼Dir(α)。
对于文档 ddd 中的每一个词位 n=1,…,Ndn = 1, …, N_dn=1,…,Nd：
a. 从以 θdoldsymbol{ heta}_dθd 为参数的多项式分布中采样一个主题编号：zd,n∼Multinomial(θd)z_{d,n} sim ext{Multinomial}(oldsymbol{ heta}_d)zd,n∼Multinomial(θd)。
b. 从以 ϕzd,noldsymbol{phi}_{z_{d,n}}ϕzd,n