中华视窗是诚信为本,市场在变,我们的诚信永远不变...
一、热点事件概述
热点事件具有不可预测性,这决定了热点事件往往是一个“事后诸葛亮”的产物,一个热点事件从刚开始出现之时并没有带有成为热点的性质,当然,重大事故或者突发事件(如总统被杀、日本地震、印尼海啸、巴黎圣母院火灾)等除外,不平凡的2019年发生的一些列重大事件都先后成为国内和国际社会所关注的热点。究其本质而言,是因为这些事件本身就存在着高度传播性和敏感性,往往伴随着灾难性的后果,并且这种特性是一定的,只要发生了,就会成为焦点。别的热点则不会这个样子,过去一个非突发性事件发生了,到了后面发生了,则不一定会成为热点,因为当时的客观和主观条件因素都已经截然不同。因此,对弈常规热点而言,是无法进行提前预测的。
二、热点事件的挖掘可行性
最近,有个公司有个项目想让我提提建议,大致的任务是:能不能提前发现热点,并且做热点的演化分析。作为实验,给了我三天的全网资讯,每天大约10万篇新闻,根据标题去重后大约是每天5万左右的资讯。周末之余,对这三天的资讯进行了实验,大致技术路线:
1)、热点发现
1、对三日文本进行分词、去停用词等预处理,使用lda主题模型进行主题建模,形成领域主题模型。
2、基于领域主题模型,对文本进行稠密向量表示,设定相似度阈值,计算文本之间的相似度,并构建相似度无向图,使用-pass聚类算法,形成文本类簇,将三日共23万文本聚类成6万余个类簇,称为热点。
3、根据热点类簇结果,对三日文本进行文本类标引。根据每日的文本,计算每个热点的热度。热度计算值为热点簇大小/当日新闻总数。
4、根据热点类簇的热度结果&