科技>计算机>网络与互联网
大数据背景下的Web层次化话题检测与跟踪关键技术研究及应用  

大数据背景下的Web层次化话题检测与跟踪关键技术研究及应用  "

作者:陈默
ISBN:9787121353130
定价:¥88.0
字数:162千字
页数:164
出版时间:2023-05
开本:16开
版次:01-01
装帧:
出版社:电子工业出版社
简介

在Web文本挖掘、网络信息智能分析与大数据技术不断发展的背景下,作为网络中的一种流式资源,Web 新闻的数量正呈现爆炸式的增长态势,而产生这种情形的根源是社会上不断发生突发事件。针对Web新闻所具有的多维特征,研究大数据背景下的Web层次化话题检测与跟踪关键技术,是一个具有实际意义的研究方向。通过研究话题检测与跟踪关键技术相关的文献,笔者研究并应用了大数据背景下的Web层次化话题检测与跟踪关键技术,同时提出了基于大数据五元组语义描述分析的话题检测关键技术、基于大数据实用性评价的话题检测关键技术,以及基于大数据使用行为分析的层次化话题检测与跟踪关键技术。本书可作为大数据相关专业研究生的参考书,也可作为大数据分析与挖掘相关科研工作人员的参考书。

前言

序言 近年来,政治、经济、人口、环境、公共安全等诸多因素在人类社会发展进程中所发挥的综合作用,使得社会突发事件呈现出频发的态势。在我国,随着网络化、开放式的发展,由社会突发事件所引发的网络话题正在以极强的延展力、渗透力和独特的流动性、互动性,加剧个体问题的普遍化、局部问题的全局化、简单问题的复杂化及一般问题的热点化。因此,对于社会突发事件的及时监测、分析、应对和妥善处置就显得尤为重要。同时,海量事件背后,也会反映出具体的社会民生问题与诉求。 通过网络上实时发布的Web新闻,用户能够获知当前发生在社会上的事件,而随着这些事件的不断发生,用户所关注的Web新闻大数据中又蕴含着有待检测的Web层次化话题。因此,面对这些Web新闻大数据,用户更渴望从中获知能够体现数据量大、时效性高、可疑性低、多样性强、蕴含价值高等特点的大数据信息。这些信息又能反映出社会突发事件从缘由开始,逐步深入到发展、曲折、高潮,直至最终结束的过程。 当公众跟踪某个社会事件时,在每个跟踪时间点上都会有Web新闻大数据给予支持,从研究者的角度,可将其视为由一系列事件支持的Web话题。某个Web话题又可衍生出一系列事件,并形成一个针对这些事件的跟踪过程,进而形成Web层次化话题。利用人工方式去挖掘这些事件下的Web层次化话题,不仅工作量大、难度大,而且检测与跟踪结果也不准确,还存在一定的滞后性。因此,针对Web新闻所具有的多维特征,Web层次化话题检测与跟踪将成为一种从大数据中发现知识并进行深度分析的科学手段,其研究具有重要的理论与实际意义。 在大数据驱动下,本书将研究如何分析Web文本的语义特征,如何评价Web文本的实用特征,如何跟踪Web文本的使用特征,具有Web文本挖掘、网络信息智能分析技术拓展的理论意义。在社会事件背景下,本书将研究如何获知所跟踪的话题及其衍生事件以满足大数据检索需求,如何获知社会事件的发展态势及其话题的跟踪趋势,如何预警社会事件、监测突发事件以及时采取应急管理措施,这对Web文本挖掘、网络信息智能分析与大数据技术的应用扩充具有实际意义。 前言 在Web文本挖掘与大数据技术发展的背景下,网络已成为传播最受用户关注信息的服务之一。作为该服务中的一种流式资源,Web新闻的数量正呈现爆炸式的增长态势,而产生这种情形的根源是社会上不断发生突发事件。面对海量的Web新闻,如何从中分析出可服务于用户的信息是近年来研究者所关注的问题。 在Web文本挖掘技术领域,话题可描述海量Web新闻中所蕴含的和用户所关注的内容。随着社会上不断发生各种事件,用户所关注的海量Web新闻中蕴含着有待检测与跟踪的话题。若利用人工方式去挖掘这些话题,不仅工作量大、难度大,而且检测与跟踪结果也不准确,还会存在一定的滞后性。因此,话题检测与跟踪将成为一种话题发现和分析的科学手段。针对Web新闻所具有的多维特征,研究大数据背景下Web层次化话题检测与跟踪关键技术是一个具有实际意义的研究方向。 通过研究话题检测与跟踪关键技术相关的文献,笔者研究并应用了大数据背景下的Web层次化话题检测与跟踪关键技术。首先,从发生的社会事件中挖掘出能够检测话题的Web新闻内容和语义特征。其次,基于这些特征挖掘出能够检测话题的Web新闻实用特征。最后,基于上述特征与话题跟踪指标挖掘出面向Web新闻的话题与事件语料。 (1)基于大数据五元组语义描述分析的话题检测关键技术。 针对该关键技术,设计了基于大数据五元组语义描述分析的话题检测框架;设计了主题相似度度量算法与增量实例提取算法,可从海量Web新闻中增量式提取出主题实例;设计了时间序列构建算法与语义描述分析算法,使Web新闻能够形式化描述出所检测的话题。该关键技术充分考虑了Web新闻实例所归属的社会事件背景,充分考虑了Web新闻数量随着社会事件发展的变化,并将非结构化的Web新闻内容转存为结构化的五元组语义描述,降低了Web新闻实例聚类的复杂性,提高了Web新闻话题检测的准确率。 (2)基于大数据实用性评价的话题检测关键技术。 针对该关键技术,设计了基于大数据实用性评价的话题检测框架;设计了语义时效分析算法,以对能够描述话题的Web新闻实例进行语义时效分析;设计了语义真实分析算法,以对能够描述话题的Web新闻实例进行语义真实分析;设计了实用特征分析算法,以对能够描述话题的Web新闻实例进行实用特征分析。该关键技术充分考虑了Web新闻实例所具有的基于时效性和真实性的实用特征,充分考虑了所检测话题的Web新闻实例质量,再次提高了Web新闻话题检测的准确率。 (3)基于大数据使用行为分析的层次化话题检测与跟踪关键技术。 针对该关键技术,设计了基于大数据使用行为分析的层次化话题检测与跟踪框架;设计了使用模式分析算法与时序话题构建算法,可跟踪面向Web新闻的话题;设计了时序事件构建算法与事件演化分析算法,可挖掘出面向Web新闻话题的演化事件。该关键技术不仅考虑了Web新闻实例所具有的使用行为,还考虑了社会事件背景下所具有的话题及其演化对象之间的逻辑层次关系,降低了话题检测的复杂性,提高了话题跟踪分析的准确率。 在话题应用方面,可将笔者在大数据背景下的Web层次化话题检测与跟踪过程中所完成的创新性研究成果应用到社会事件背景下,以验证笔者所提出的关键技术、所设计的算法及所进行的实验的科学性与可行性。 本书的出版受到北京市教育委员会科技计划一般项目资助,项目号为KM202011417011。

目录

目录 第1章 Web话题检测与跟踪的研究现状 1 1.1 Web话题检测与跟踪的研究背景 2 1.2 Web话题检测的研究现状 7 1.3 Web话题跟踪的研究现状 20 第2章 基于大数据五元组语义描述分析的话题检测关键技术 27 2.1 应用问题定义 28 2.2 基于大数据五元组语义描述分析的话题检测框架 34 2.3 主题相似度度量算法 35 2.4 增量实例提取算法 38 2.5 时间序列构建算法 41 2.6 语义描述分析算法 44 2.7 关键技术实验分析 47 ? 第3章 基于大数据实用性评价的话题检测关键技术 60 3.1 应用问题定义 61 3.2 基于大数据实用性评价的话题检测框架 66 3.3 语义时效分析算法 67 3.4 语义真实分析算法 69 3.5 实用特征分析算法 72 3.6 关键技术实验分析 74 第4章 基于大数据使用行为分析的层次化话题检测与 跟踪关键技术 86 4.1 应用问题定义 87 4.2 基于大数据使用行为分析的层次化话题检测与跟踪框架 92 4.3 使用模式分析算法 93 4.4 时序话题构建算法 95 4.5 时序事件构建算法 98 4.6 事件演化分析算法 101 4.7 关键技术实验分析 104 第5章 大数据背景下的Web层次化话题检测与跟踪应用 115 5.1 Web大数据资源 116 5.2 Web层次化话题检测应用 123 5.3 Web层次化话题跟踪应用 127 第6章 总结与展望 130 6.1 研究与应用总结 131 6.2 研究与应用展望 132 参考文献 136

作者简介

编辑推荐

作者寄语

电子资料

www.luweidong.cn

下一个