近期,计算机与人工智能学院万常选教授投稿的“主题方面共享的领域主题层次模型”论文被《软件学报》收录刊登,是我校在数据挖掘领域取得的又一重大进展。
《软件学报》是由中国科学院软件研究所与中国计算机学会主办的学术期刊,主要刊登计算机软件各领域原创性研究成果,所刊登的论文均经过严格的同行专家评议。
“主题方面共享的领域主题层次模型”:论文针对文档形成层次主题任务进行了探讨。为了从领域文本中自动、有效地挖掘出领域主题的层次关系和关联关系,作者在4 个方面进行了创新研究。首先,通过主题共享机制改进nCRP 构造方法,提出nCRP+层次构造方法;其次,结合nCRP+和HDP 模型构建重分层的狄利克雷过程,提出了rHDP (reallocated hierarchical Dirichlet processes) 层次主题模型;第三,结合领域分类信息、词语语义和主题词的领域代表性,定义领域知识,包括基于投票机制的领域隶属度、词语与领域主题的语义相关度和层次化的主题-词语贡献度;最后,通过领域知识改进rHDP 主题模型中领域主题和主题词的分配过程,提出结合领域知识的层次主题模型rHDP_DK (rHDP with domain knowledge),并改进采样过程。该技术可用于为输入的文档构建层次主题,使得用户能够快速清楚文档表达的主题内容。