科技>计算机>计算机科学
文本语义相似度计算

文本语义相似度计算"

作者:刘宏哲
ISBN:9787121224072
定价:¥55.0
字数:190千字
页数:212
出版时间:2014-02
开本:16(165*235)
版次:01-01
装帧:
出版社:电子工业出版社
简介

本书基于领域本体信息,从概念、语句和文档三个对象层面研究文本数据的语义相似度计算问题。详细描述了语义提取、语义描述、语义计算三方面内容。包括概念相似度/相关度计算方法;语句相似度计算方法;文档相似度计算方法以及基于语义的领域搜索引擎的索引、排序技术等。书后还附有作者提供的计算数据,以便帮助读者更好地阅读使用本书。

前言

随着计算机和互联网技术的发展,文本数据的数量大幅度增长, 但是这类数据对于计算机来说难于理解和使用,语义相似度计算是 解决这一问题的重要途径。现有的语义相似度计算方法在应用时大 都需要大规模语料库或完备本体等附加信息,在缺乏这些附加信息 的实际应用中,方法的应用受到了限制;此外,针对概念、语句和 文档不同粒度的文本研究对象的相似度计算方法研究是在不同时期、 不同背景下进行的,没有形成统一的理论体系。针对以上问题,本 书基于领域本体结构信息,从概念、语句和文档三个对象层面研究 文本数据的语义相似度计算问题,计算过程包括语义提取、语义描述、 语义计算三个主要阶段。提取研究对象在本体中的结构信息描述对 象本身,构建语义向量,从而进行语义相似度计算。本书主要包括 以下3 个方面的内容: 1. 提出了一种基于树结构和以树为主体的图结构的相似度和相 关度计算方法。通过分析本体的树结构,可以发现概念节点的祖先 概念节点和后代概念节点与当前概念节点语义相关,据此特点可以 找出概念节点在本体树中的相关概念节点;根据概念节点在本体中 所处位置的结构信息计算概念节点密度,实现基于树结构本体的概 念语义提取、语义描述和语义相似度计算。在树结构本体相似度计 算方法的基础上,进一步提出了基于以树为主体的图结构的概念相 关度计算方法。针对特定语义相关度计算需要,将以树为主体的图 结构本体转化为树结构本体,计算概念节点间的语义相关度。本方 法在领域数据中得到较好的应用,在标准数据集WordNet 上的实 验也证明:与经典的计算方法相比,在缺乏大规模语料库的前提下, 本方法获得了很好的皮尔森线性相关系数值(Correlation)。 2. 提出了一种基于树结构本体的语句相似度计算方法。利用本 体概念与语句中关键词之间建立的语义索引,构建语句与本体间的 直接和间接语义联系,据此提取描述句子的语义向量,从而计算语 句间的语义相似度。应用微软研究院的意译语料库(MSRP)对本 方法进行验证,实验结果表明:在仅基于领域本体的计算背景下, 本方法获得了较好的准确率和召回率。 3. 提出了一种基于树结构本体的文档相似度计算方法。除利用 本体概念与文档中的关键词建立的语义索引来构建文档与本体间的 直接和间接语义联系外,还利用本体的层次结构信息估算文档关键 词的权重,据此构建基于本体的文档语义向量来计算文档间的语义 相似度。用Michael D. LEE 50 标准文档相似度测试数据集进行验 证,实验结果表明:在仅基于领域本体的计算背景下,本方法获得 了较好的皮尔森线性相关系数值。 本书第1 章简要介绍和分析语义相似度计算既有研究成果;第 2 章详细论述基于树结构和以树为主体图结构本体的概念相似度和 相关度计算方法,并在WordNet 上进行案例分析;第3 章在详细 分析语句相似度计算已有工作的基础上,详细论述基于本体的语句 相似度方法,并介绍在微软研究院的意译语料库(MSRP)上的案 例分析;第4 章在详细分析文档相似度计算已有研究工作的基础上, 详细论述基于本体的文档相似度方法,并描述在Michael D. LEE 50 标准文档相似度测试数据集上的案例分析情况;第5 章中利用 提出的语义相似度计算方法来设计搜索引擎的语义索引机制和排序 机制。 很长时间以来,笔者致力于文本语义计算的研究工作,发表了 多篇较高学术水平论文,申请了相关计算方法的软件著作权等,形 成了较完整的基于领域本体的多粒度文本对象的语义相似度计算方 法和理论。本书内容详实,实验数据丰富,适合作为相关领域从事 科研或应用开发人员的参考用书。 本书受北京市信息服务工程重点实验室、北京市属高等学校人 才强教深化计划中青年骨干人才项目(PHR201108419)、国家自然 科学基金项目(No.61372148,61271369)和北京市属高等学校创 新团队建设与教师职业发展计划项目(CIT&TCD20130513) 资助; 感谢北京联合大学鲍泓教授和北京交通大学须徳教授对本书的撰写、 出版所做的指导,感谢徐维正、王军两位同学对本书实验编程所做 的贡献,感谢王棚飞、吴焰樟、李晓光同学在本书出版之前给出的 读者意见。

目录

第1 章绪论 1.1 国内外研究现状及分析 / 1 1.1.1 国内外研究现状 / 1 1.1.2 国内外研究分析 / 5 1.2 本书的主要研究工作与创新点 / 6 1.2.1 本书主要研究工作 / 6 1.2.2 本书创新点 / 7 第2 章概念相似度/相关度计算方法 2.1 概念相似度计算中的本体和语料库 / 9 2.1.1 WordNet 本体简介 / 9 2.1.2 语料库简介 / 24 2.2 概念相似度和相关度关系 / 25 2.3 概念语义相似度计算的既有研究成果 / 26 2.4 本体的树结构(HCT)和图结构(HCG) / 32 2.4.1 HCT 和HCG / 32 2.4.2 WordNet 中的HCT 和HCG 结构 / 32 2.4.3 HCT 和HCG 结构中影响语义相似度和相关度 的因素 / 33 2.5 基于HCT 本体结构的语义相似度 / 36 2.5.1 方法起源 / 36 2.5.2 概念相似度计算的相关定义 / 38 2.5.3 概念节点密度和相关概念节点对相似度计算 的影响 / 40 2.5.4 概念相似度计算 / 44 2.6 基于HCG 本体结构的语义相关度 / 45 2.6.1 HCT 结构和HCG 结构的关系 / 45 2.6.2 HCG 中的整体/ 部分关系的分类 / 46 2.6.3 将HCG 转换为HCT 的方法 / 51 2.7 案例分析 / 53 2.7.1 案例1 利用某大学信息学院本体来计算概念 相关度 / 53 2.7.2 案例2 WordNet 本体 / 58 2.8 小结 / 66 第3章语句相似度计算方法 3.1 语句相似度计算简介 / 68 3.2 语句相似度计算的既有研究成果 / 68 3.3 基于本体的语句相似度计算方法 / 69 3.3.1 语句相似度计算相关定义 / 69 3.3.2 基于HCT 本体结构的语句相似度计算方法 / 71 3.4 案例分析 / 73 3.4.1 案例1 基于领域本体计算语句相似度 / 73 3.4.2 案例2 基于MSRP 语料库的语句相似度计算 / 76 3.5 小结 / 85 第4 章文档相似度计算方法 4.1 文档相似度计算简介 / 87 4.2 文档相似度计算的既有研究成果 / 87 4.3 基于本体的文档相似度计算方法 / 88 4.3.1 文档相似度计算相关定义 / 88 4.3.2 概念节点权重关系 / 89 4.3.3 基于HCT 本体结构的文档相似度计算方法 / 91 4.4 案例分析 / 95 4.4.1 案例1 基于领域本体计算文档相似度 / 95 4.4.2 案例2 使用Michael D. Lee 标准文档 数据集计算文档相似度 / 95 4.5 小结 / 101 第5 章基于语义的领域搜索引擎 5.1 搜索引擎工作原理 / 103 5.2 基于语义相似度的索引技术 / 106 5.2.1 相关技术及分析 / 106 5.2.2 基于语义相似度计算的领域搜索索引技术 / 106 5.3 基于语义相似度的排序技术 / 109 5.3.1 已有排序技术与分析 / 109 5.3.2 基于语义相似度计算的领域搜索排序技术 / 109 5.4 小结 / 112 附录 案例分析计算数据 / 174

作者简介

编辑推荐

作者寄语

电子资料

www.luweidong.cn

下一个