毕业去向:杭州阿里巴巴
所学专业:软件工程
研究方向:数字媒介
介绍:
提出了一种基于CBOW-LDA的主题建模方法,先采用基于CBOW词向量的方法对目标语料进行相似词聚类,再以聚类结果为输入语料进行后续LDA主题模型文本表达和主题建模。以Stack Overflow网站上的编程问题帖的文本数据作为研究对象,采集2010-2015年的问题帖数据集POST进行实验,同等主题数下采用困惑度(perplexity)来度量算法性能,结果表明采用CBOW—LDA方法与现有的基于词频权重的词量化主题建模TF-LDA方法相比困惑度更低;同时在对Stack Overflow的热点挖掘上,建立手工标注的标准评测集进行判定,结果表明CBOW—LDA评价指标优于TF-LDA,证实CBOW—LDA具有良好的算法性能和热点挖掘效果。研究成功挖掘出Stack Overflow上2010-2015年的热门主题和热搜词汇并进行相关数据分析,设计完成了基于CBOW-LDA热点主题发现的原型工具,运用该原型工具能快速便捷地实现对特定数据语料的热点主题发现和挖掘。
学历:硕士研究生毕业
学位:硕士
状态:离校
毕业论文标题:《基于CBOW-LDA主题模型的Stack Overflow网站热点主题发现研究》
学号:2015202160011