融合频繁项集和潜在语义分析的股评论坛主题发现方法
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

TP391

基金项目:

国家自然科学基金资助项目(71171126); 上海市科学技术委员会“科技创新行动计划”资助项目(16511104704); 同济大学青年优秀人才培养计划(1508-219-040).


Topic Discovery Method of Stock Bar Forum Based on Integration of Frequent Item-set and Latent Semantic Analysis
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对股评论坛主题发现,提出基于频繁项集与潜在语义相结合的短文本聚类(STC_FL)框架.在基于知网的知识获取后得到概念向量空间,挖掘并筛选出重要频繁项集,然后采用统计和潜在语义相结合的方法进行重要频繁项集的自适应聚类.最后,提出TSCSN(text soft classifying based on similarity threshold and nonoverlapping)算法,通过参数调优策略选择和控制文本软聚类过程.股吧论坛数据实证分析发现:所提出的STC_FL框架和TSCSN算法可充分挖掘文本潜在语义信息,并有效降低特征空间维度,最终实现对短文本的深层次信息挖掘和主题归类.

    Abstract:

    To achieve more effective topic discovery of stock bar forum, this paper presents a framework with short text clustering based on frequent itemset and latent semantic (STC_FL). The important frequent itemsets are acquired with the concept vector space based on HowNet, and then a combination pattern of statistics and latent semantics is used to realize the selfadaptive clustering of important frequent itemsets. Finally, the algorithm of text soft classifying based on similarity threshold and nonoverlapping (TSCSN) is proposed. Text soft clustering is selected and controlled with parameter optimization. By taking the real stock bar forum data as a specific case of empirical analysis, it is shown that STC_FL framework and TSCSN algorithm can fully exploit the latent semantic information of text and reduce the dimension of feature space, which realizes the deep information mining and topic classification of short texts.

    参考文献
    相似文献
    引证文献
引用本文

张涛,翁康年,顾小敏,张玥杰.融合频繁项集和潜在语义分析的股评论坛主题发现方法[J].同济大学学报(自然科学版),2019,47(04):0583~

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2018-05-01
  • 最后修改日期:2019-02-26
  • 录用日期:2018-12-31
  • 在线发布日期: 2019-04-30
  • 出版日期: