教育>本科研究生>计算机类
计算机视觉原理与实践  

计算机视觉原理与实践  "

作者:许桂秋,白宗文,张志立
ISBN:9787121447419
定价:¥49.8
字数:403千字
页数:252
出版时间:2022-12
开本:16开
版次:01-01
装帧:
出版社:电子工业出版社
简介

本书结合理论和实践,主要介绍如何使用图像处理和深度学习技术来使计算机感知和理解图形。全书分为概述、OpenCV 图像基本操作、深度学习与计算机视觉、计算机视觉基础技术、计算机视觉综合应用五大部分(共 11 章)。概述部分(第 1 章)主要介绍计算机视觉的概念和发展史;OpenCV 图像基本操作(第 2 章)主要介绍基于OpenCV 的图像处理操作;深度学习与计算机视觉(第3 章)主要介绍深度学习的概念及其应用、深度学习的实现框架TensorFlow 的用法以及卷积神经网络的概念、结构和算法;计算机视觉基础技术(第4~9 章)主要介绍图像分类、目标检测、图像分割、场景文字识别、人体关键点检测、图像生成等关键技术的原理、方法及应用;计算机视觉综合应用(第 10、11 章)主要介绍视觉交互机器人和无人驾驶的自动巡线两个大型综合实验。本书围绕基本理论,设置了较多的实验操作和实践案例,通过自己动手练习,帮助读者巩固所学内容。

前言

前 言 当前人工智能浪潮正在席卷全球,这是一门研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的技术科学。简单来说,人工智能研究的主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。人类完成复杂工作,往往需要输入、吸收外界知识,然后结合历史经验和现实数据进行分析、判断和决策。举一个简单的例子,我们在马路上开车,会根据交通信号灯完成“红灯停绿灯行”的操作,会根据道路交通线控制行车路线和方向,会躲避障碍,也会避让行人等。这些行为看起来很简单,但人类也是先经过了一定时间的基础知识学习和上路操作的实践,在这个过程中积累了丰富的经验,从而才能在下次碰到类似情况时做出正确的判断和处理。而让机器胜任这样一项驾驶员的工作,并不容易,这需要让机器能够“看到”和“看懂”驾驶环境,并做出合适且正确的决策。 人类认识、了解世界的信息中91%来自视觉,要真正实现人工智能,必须让机器能够“睁眼”看世界。让机器能够“看到”和“看懂”世界,这正是计算机视觉的研究内容和研究目标。相对人类而言,在一定程度上,机器能够处理更多的信息,计算能力更强。一旦机器能够顺利感知到外界的信息,则其能替代人类完成一些基础但耗费人力的任务。 计算机视觉作为一门使机器能“看”的科学,既要“看到”,又要“看懂”。“看到”是能读取图像,需要图像处理的相关知识,“看懂”是能理解图像,需要深度学习的相关知识。本书介绍如何使用图像处理和深度学习技术来构建模型,使计算机拥有感知和理解图像的能力。全书共11章,分为五大部分。 第一部分—概述(第1章),介绍计算机视觉的基础概念和发展史,让读者对计算机视觉有一个整体的初步了解。 第二部分—OpenCV图像基本操作(第2章)。图像处理知识是计算机视觉的底层基础知识,是进入计算机视觉任何一个细分领域的必备知识,本部分主要介绍基于OpenCV的图像处理操作,包括图片的读取、显示、存储,以及感兴趣区域提取、通道处理、图像的几何变换和算术运算等。 第三部分—深度学习与计算机视觉(第3章)。基于几何方法和深度学习是计算机视觉的两个主流研究方向,本部分主要介绍深度学习的基础知识,包括深度学习的概念及其在计算机视觉领域的应用、深度学习的实现框架TensorFlow的用法,以及卷积神经网络的概念、结构和算法,这些知识是后续学习计算机视觉关键技术的基础。 第四部分—计算机视觉基础技术(第4~9章)。学习了图像处理和深度学习的知识后,就可以进入计算机视觉一个或者多个细分领域进行研究,本部分选取图像分类、目标检测、图像分割、场景文字识别、人体关键点检测、图像生成这几个计算机视觉领域最基础、最主流的关键技术进行详细讲述,每项技术都提供一个或多个实验演练,读者学习后不仅能了解每项技术的定义、实现原理和方法、常用模型和应用场景等理论知识,还能培养开发和调优常见的基于深度学习的计算机视觉算法的能力。 第五部分—计算机视觉综合应用(第10、第11章)。在了解了一个或多个计算机视觉的基础技术后,可以进入综合应用阶段,本部分设置了视觉交互机器人和无人驾驶的自动巡线两个大型综合应用实验,注重培养学生使用一个或多个计算机视觉技术解决实际问题的综合实操能力。 本书适合人工智能相关专业的学生和技术人员,以及对人工智能领域感兴趣的爱好者阅读。 由于编者水平有限,编写时间较为仓促,书中难免会存在一些疏漏和不足之处,恳请广大读者批评指正。 编者

目录

目 录 第1章 概述 1 1.1 什么是计算机视觉 1 1.2 计算机视觉的发展史 3 第2章 OpenCV图像基本操作 6 2.1 如何使用OpenCV 6 2.2 图像的基础操作 8 2.2.1 图像的基本表示方法 8 2.2.2 图像的读取、显示和存储 11 2.2.3 视频序列的读取和存储 16 2.2.4 图像像素的处理与访问 20 2.2.5 获取图像属性 23 2.2.6 图像RoI 23 2.2.7 图像通道的拆分与合并 25 2.3 图像的几何变换 28 2.3.1 图像缩放 28 2.3.2 图像翻转 30 2.3.3 图像仿射变换 31 2.3.4 图像透视 34 2.4 图像的算术运算 35 2.4.1 图像的加法运算 35 2.4.2 图像的加权和运算 37 2.4.3 图像的按位逻辑运算 38 第3章 深度学习与计算机视觉 42 3.1 深度学习概述 42 3.1.1 深度学习的概念 42 3.1.2 深度学习的发展历程 42 3.2 卷积神经网络 45 3.2.1 卷积神经网络的研究历史与意义 45 3.2.2 卷积神经网络的基本结构 46 3.2.3 卷积神经网络的工作原理 48 3.2.4 卷积神经网络的发展趋势 49 3.2.5 实验—机器人识别你的字 50 3.3 基于深度学习的计算机视觉 56 3.3.1 计算机视觉与深度学习的关系 56 3.3.2 计算机视觉和深度学习发展的加速器—GPU 58 3.3.3 计算机视觉与深度学习的基础与研究方向 59 3.4 深度学习的实现框架TensorFlow 60 3.4.1 TensorFlow简介 60 3.4.2 TensorFlow环境的搭建 60 3.4.3 TensorFlow计算模型—计算图 68 3.4.4 TensorFlow数据模型—张量 70 3.4.5 TensorFlow运行模型—会话 74 第4章 图像分类 76 4.1 定义与应用场景 76 4.2 实现方法 77 4.3 常用数据集 80 4.4 实验—机器人看图识物 82 4.5 实验—机器人识别人脸表情 100 第5章 目标检测 112 5.1 定义与应用场景 112 5.2 实现方法 113 5.2.1 基于候选区域的目标检测算法 114 5.2.2 基于直接回归的目标检测算法 119 5.3 常用数据集 122 5.4 实验—机器人捕捉人脸并识别 123 5.5 实验—无人驾驶中的目标检测 141 第6章 图像分割 146 6.1 定义与应用场景 146 6.2 实现方法 147 6.2.1 基于特征编码的模型 147 6.2.2 基于区域选择的模型 148 6.2.3 基于上采样/反卷积的模型 150 6.2.4 基于RNN的模型 151 6.2.5 基于提高特征分辨率的模型 152 6.3 常用数据集 152 6.4 实验—无人驾驶场景感知 153 第7章 场景文字识别 165 7.1 定义与应用场景 165 7.2 实现方法 167 7.2.1 传统方法时期 167 7.2.2 深度学习方法时期 167 7.3 常用数据集 170 7.4 实验—无人值守车牌识别机器人 171 第8章 人体关键点检测 179 8.1 定义与应用场景 179 8.1.1 人体关键点检测的定义 179 8.1.2 人体关键点检测的应用场景 180 8.2 实现方法 182 8.2.1 自顶向下 183 8.2.2 自底向上 184 8.3 常用数据集 186 8.3.1 MPII数据集 187 8.3.2 MSCOCO数据集 188 8.4 实验—姿态识别互动机器人 189 第9章 图像生成 194 9.1 定义与应用场景 194 9.1.1 图像生成的定义 194 9.1.2 图像生成的应用 195 9.2 实现方法 196 9.2.1 GAN模型 196 9.2.2 PixelRNN/PixelCNN模型 197 9.2.3 VAE模型 198 9.3 常用数据集 200 9.4 实验—机器人书法学习 200 第10章 视觉交互机器人 212 10.1 实验目的 212 10.2 实验背景 212 10.3 实验原理 212 10.4 实验环境 215 10.5 实验步骤 215 10.5.1 利用CNN主流架构的mini_Xception训练情感分类 215 10.5.2 视觉交互机器人综合实验 221 第11章 无人驾驶的自动巡线 228 11.1 实验目的 228 11.2 实验背景 228 11.3 实验原理 230 11.4 实验环境 231 11.5 实验步骤 231 11.5.1 数据准备 231 11.5.2 网络设计 231 11.5.3 模型训练 237 11.5.4 模型测试 243

作者简介

编辑推荐

作者寄语

电子资料

www.luweidong.cn

下一个