
全书内容分为三部分,共15 章。第1~6 章为第一部分,主要讲解音视频开发的基础知识,简要介绍音视频技术的发展背景,以及主流的音视频压缩编码算法、音视频容器格式和网络流媒体协议等。第7~9章为第二部分,主要讲解命令行工具ffmpeg、ffprobe 和ffplay 的使用方法,包括如何使用这些工具进行视频播放、格式检测、编转码、格式转换和流媒体推拉流等操作;第10~15 章为第三部分,主要讲解基于FFmpeg SDK 的开发实战,主要介绍如何在工程中调用libavcodec 和libavformat 等库提供的接口实现音视频处理的相关功能。本书适合从事音视频编解码、多媒体应用开发和流媒体技术的初、中级开发者,以及各大院校学生阅读,也适合有一定经验的开发人员参考使用。
前言 多年来,音视频、多媒体技术一直以各种各样的形式对社会产生深刻影响,从专业领域的广播电视到消费领域的个人数字摄像机等这些都已融入人们生活的方方面面。进入互联网时代,在线视频、短视频等娱乐场景,以及远程会议、远程医疗等专业应用进一步扩展了音视频技术的应用领域,使其与现代文明的联系更加密不可分。 音视频技术推动泛娱乐行业高速发展 从21 世纪的最初几年开始,在线视频产业便渐渐开始兴起。随着宽带网逐渐走入寻常百姓家,消费者们无须再忍受拨号网络缓慢的传输速度,部分知名门户网站(如搜狐等)也逐渐开始涉足在线视频领域。此后,如乐视网、优酷网、土豆网、PPLive、PPS、酷6 等在线视频网站层出不穷,再加上背靠互联网巨头公司的腾讯视频、爱奇艺等,国内在线视频行业呈现百花齐放的场景。然而,随着版权和带宽等成本的日渐高涨,多数平台逐渐沉寂,最终形成了“爱(奇异)优(酷视频)腾(讯视频)”三足鼎立的格局。此外,如Acfun 和bilibili 等二次元主题网站和芒果TV 等以综艺为特色的平台也在各自的领域逐渐扩大了影响力。 在视频网站平台的发展起起伏伏之际,另一种在线视频娱乐的形态——网络互动直播开始异军突起。直播本是历史最悠久的视频应用之一,多年以来广电领域的数字电视广播、闭路电视系统一直是直播系统的最典型应用。进入互联网时代,直播的整体形态与产品细节与传统的闭路电视系统相比发生了翻天覆地的变化,最典型的升级是从主播到观众的单方面放送,转变为主播与观众的双向互动,如通过弹幕或连麦等方式。网络互动直播从萌芽到兴起,到最为繁荣的“千播大战”,直到最终经历多次的兼并和淘汰,其中的幸存者已经寥寥无几。当前仍较为活跃的直播平台有头部的斗鱼、虎牙和主要用于带货的淘宝直播和京东直播等。 除中、长视频外,随着以智能手机为代表的移动智能设备的日渐普及,短视频作为一项新的业务形态逐渐占据了消费者的碎片时间。通常认为短视频起源自本世纪早期的微电影、网络短片和校园DV 等形态,伴随着各种UGC 视频平台的蓬勃发展而越发兴盛。但由于平台的定位、资本及政策等的多重影响,多数平台在昙花一现后迅速消失在市场中,甚至腾讯旗下的微视也难逃被雪藏多年的命运。在智能移动设备全面进入人们的生活后,通过移动设备进行“短、平、快”风格的内容分享重新点燃了短视频行业的星星之火,低成本、快节奏的短视频拍摄成为人们分享生活和观点的重要手段。今天,以抖音和快手为代表的移动短视频平台凭借其丰富的内容和对用户心理与喜好的研究在用户中产生了巨大影响,成为当前基于音视频的泛娱乐场景中新的一极。 音视频技术给商务与办公领域带来新生命 目前,远程办公已成为必然选择。当前市场上多家科技企业发布了多款远程办公产品软件或一体式解决方案,典型的有Microsoft 的Teams、Google 的Google Meet、腾讯的腾讯会议、字节跳动的飞书、阿里巴巴的钉钉和Zoom 的同名产品Zoom 等。这些产品的共同特点是基于互联网、云计算等技术,集成了电子邮件、电子白板、远程连接与桌面共享等模块,旨在为异地办公的员工和团队提供强大而可靠的交流和共享服务。构建一个稳定而完备的远程办公系统需要多个不同的系统精密配合,而实时音视频通信可谓其中技术最为复杂、挑战最大的模块之一,其稳定性和性能直接决定了系统整体的性能与用户体验。目前主流的实时音视频通信解决方案主要基于WebRTC 标准。与传统的RTMP+CDN 系统相比,基于WebRTC 的方案延迟更低,卡顿情况更少,且支持直接接入浏览器进行推流与播放。 音视频技术具有广阔的发展前景和学习价值 从上述音视频应用的发展历史我们可以看出,音视频技术始终在行业内占据重要地位。从在线视频网站到互动直播,再到短视频与实时音视频通信,当音视频领域在某一个行业发展到顶峰,甚至随后开始逐渐衰落时,也总是有另一个风口异军突起成功接棒。究其原因在于,音视频由于具有可以生动形象地携带大量信息,且易于被人们快速理解的特性,已成为信息传输效率最高的通信媒介。几乎所有的商业形态都可以通过音视频技术实现信息的快速理解与交换,实现效率的倍增。因此,近年来无论社会如何发展变化,音视频领域依然以朝阳产业的面貌蓬勃发展。 另一方面,音视频技术是软件编程的一项高阶技术,具有较高的准入门槛。一名优秀的音视频工程师应当从原理到实践做到融会贯通,至少需要掌握以下领域的知识与技能:数学、信息与编码理论、计算机系统原理、算法理论、编程语言(如C++、Java、Go 等)、网络开发、跨平台软件开发(如移动端、服务端和客户端)和系统架构设计等。因此,音视频技术的学习之路比普通的软件开发之路更加艰难、漫长。而另一方面,这也成为音视频领域技术人员最好的护城河,为行业内的开发者提供了深入沉淀的机会。 本书的价值 音视频技术并不是一项可以轻松掌握的技术,为了解决这个问题,许多天才程序员贡献了多项开源工程对音视频开发的底层技术进行了封装与集成,以提升整体的开发效率,FFmpeg便是其中的典型。作为最强大的音视频开源项目之一,FFmpeg 提供了音视频的编码与解码、封装与解封装、推拉流和音视频数据编辑等操作,屏蔽了许多底层技术细节,使得开发者可以将更多的精力专注在业务逻辑的实现上,大幅提升了开发如播放器、推流、音视频编辑等客户端或SDK 等产品的效率。 尽管如此,对初学者来说,FFmpeg 提供的命令行工具和SDK 的使用方法仍然较为困难。除音视频的基本概念外,繁冗复杂的命令行参数与API 常常让初学者无从下手,除官方提供的文档外,几乎没有完备的技术资料可供参考。本书系统地讲解了音视频领域的基础知识,并由浅入深地介绍了FFmpeg 的基本使用方法,笔者希望本书的面世可以进一步降低音视频开发的入门门槛,让更多有志于从事音视频开发的同学可以为整个行业添砖加瓦。 本书的内容及学习方法 本书内容分为三部分,各部分之间的内容相互关联但又相对独立,读者可以根据自身的需求按顺序阅读或选择性学习。 第1~6 章为本书的第一部分,主要讲解音视频技术的基础知识,包括音视频编码与解码标准、媒体容器的封装格式和网络流媒体协议简介。建议对音视频技术不够熟悉的读者从该部分开始阅读,有一定基础的读者可以选择泛读或跳过该部分。 第7~9 章为本书的第二部分,主要讲解命令行工具ffmpeg、ffprobe 和ffplay 的主要使用方法。命令行工具在搭建测试环境、构建测试用例和排查系统Bug 时常常起到重要作用。如果想要在实际工作中有效提升工作效率,那么应熟练掌握 FFmpeg 命令行工具的使用方法。 第10~15 章为本书的第三部分,主要讲解如何使用libavcodec、libavformat 等FFmpegSDK 进行编码与解码、封装与解封装,以及媒体信息编辑等音视频基本功能开发的方法。在实际的企业级音视频项目中,通常采用调用FFmpeg 相关的API 而非使用命令行工具的方式实现最基本的功能,因此该部分内容具有较强的实践意义,推荐所有读者阅读并多加实践。此部分的代码实现基本来自FFmpeg 官方文档中的示例代码,笔者在此基础上进行了一定的改编。书中代码整体上遵循了示例代码的指导,稳定性较强,且更易于理解。 勘误与联系方式 由于本书内容较为繁杂,且笔者在撰写稿件的同时仍承担繁重的一线开发任务,因此书中极有可能出现部分疏漏或错误,望广大读者阅读后不吝指正,提出宝贵的意见或建议,联系邮箱:yinwenjie-1@163.com。 致谢 自本书初步策划开始,截至今日已一年有余。这是我第一次独立撰写书稿,其间所经历的困难甚至痛苦不言而喻。最终初稿得以完成,首先必须感谢我的伴侣,在本书定稿的过程中,你完成了身份从女朋友到妻子的升级,没有你的支持,本书断无问世的可能。此外还必须感谢我的父母,你们的关爱、期望与督促,也是本书问世的源动力之一。 感谢博文视点的编辑老师,你们的专业程度一直令我叹服。没有你们从开始到最终的指导和帮助,本书是一定无法完成的。 感谢各个技术交流群中的同行与朋友,以及我的博客与课程的读者,有了你们的支持,我才克服了所经历的困难,将本书带到你们的面前。 希望在不久的将来,能有更多更有价值的内容贡献给大家,谢谢! 殷汶杰 2021 年6 月于上海
第一部分 基础知识 第1 章 音视频技术概述 ................................................................................................. 2 1.1 音视频信息与多媒体系统 .................................................................................... 2 1.1.1 信息传输系统的发展 ................................................................................. 2 1.1.2 信息时代的音视频技术 ............................................................................. 4 1.1.3 音视频技术的未来展望 ............................................................................. 5 1.2 典型的音视频与多媒体系统结构 ........................................................................ 6 1.2.1 视频点播 ..................................................................................................... 7 1.2.2 视频直播 ..................................................................................................... 8 1.2.3 安防监控 ..................................................................................................... 9 1.2.4 视频会议 ..................................................................................................... 9 第2 章 图像、像素与颜色空间 ..................................................................................... 11 2.1 图像与像素 .......................................................................................................... 11 2.2 图像的位深与颜色空间 ...................................................................................... 12 2.2.1 图像的位深 ............................................................................................... 12 2.2.2 图像的颜色空间 ....................................................................................... 14 2.3 图像压缩编码 ...................................................................................................... 15 2.3.1 图像压缩算法分类 ................................................................................... 16 2.3.2 图像压缩基本算法 ................................................................................... 16 2.3.3 常见的图像压缩编码格式 ....................................................................... 20 第3 章 视频压缩编码 .................................................................................................. 22 3.1 视频压缩编码的基础知识 .................................................................................. 22 3.1.1 视频信息的数字化表示 ........................................................................... 22 3.1.2 常用的视频格式与分辨率 ....................................................................... 24 3.1.3 对视频数据压缩编码的原因.................................................................... 24 3.2 视频压缩编码标准的发展历程 .......................................................................... 24 3.3 视频压缩编码的基本原理 .................................................................................. 25 3.3.1 视频数据中的冗余信息 ........................................................................... 25 3.3.2 预测编码 ................................................................................................... 26 3.3.3 变换编码 ................................................................................................... 27 3.3.4 熵编码 ....................................................................................................... 28 3.4 视频编码标准H.264 ........................................................................................... 28 3.4.1 H.264 简介 ................................................................................................ 28 3.4.2 H.264 的框架 ............................................................................................ 28 3.4.3 H.264 的基本算法 ..................................................................................... 30 3.5 高效视频编码标准H.265.................................................................................... 33 3.5.1 H.265 简介 ................................................................................................ 33 3.5.2 H.265 的框架 ............................................................................................ 33 3.5.3 H.265 的基本算法 ..................................................................................... 35 第4 章 音频压缩编码 .................................................................................................. 42 4.1 音频压缩编码的基础知识 .................................................................................. 42 4.1.1 声音信息的概念 ....................................................................................... 42 4.1.2 声音信息的基本要素 ............................................................................... 42 4.2 音频信息采样与数字化 ...................................................................................... 43 4.2.1 模拟音频 ................................................................................................... 43 4.2.2 数字音频 ................................................................................................... 44 4.2.3 采样和量化 ............................................................................................... 44 4.3 脉冲编码调制 ...................................................................................................... 46 4.3.1 PCM 量化区间分割 .................................................................................. 46 4.3.2 PCM 量化编码规则 .................................................................................. 49 4.4 MP3 格式与MP3 编码标准 ................................................................................ 51 4.4.1 MP3 格式 ................................................................................................... 52 4.4.2 MP3 编码标准 ........................................................................................... 62 4.5 AAC 格式与AAC 编码标准 ............................................................................... 67 4.5.1 AAC 格式 .................................................................................................. 67 4.5.2 AAC 编码标准 .......................................................................................... 72 第5 章 音视频文件容器和封装格式 ............................................................................. 74 5.1 概述 ...................................................................................................................... 74 5.2 FLV 格式 .............................................................................................................. 75 5.2.1 FLV 文件结构 ........................................................................................... 75 5.2.2 FLV 文件头 ............................................................................................... 76 5.2.3 FLV 标签 ................................................................................................... 77 5.3 MPEG-TS 格式 .................................................................................................... 84 5.3.1 信息包头 ................................................................................................... 84 5.3.2 PES 包结构 ............................................................................................... 85 5.3.3 PSI 结构 ..................................................................................................... 87 5.4 MP4 格式 ............................................................................................................. 88 5.4.1 MP4 格式简介 ........................................................................................... 88 5.4.2 ISO 协议族 ................................................................................................ 89 5.4.3 MP4 封装格式 ........................................................................................... 89 5.4.4 Box 类型 .................................................................................................... 90 5.4.5 MP4 文件结构 ........................................................................................... 92 5.4.6 构建视频流的播放时间轴 ....................................................................... 98 第6 章 音视频流媒体协议 ......................................................................................... 104 6.1 网络协议模型 .................................................................................................... 105 6.1.1 ISO/OSI 模型结构 .................................................................................. 105 6.1.2 TCP/IP 模型结构 .................................................................................... 106 6.2 网络流媒体协议——RTMP .............................................................................. 120 6.2.1 RTMP 的概念 .......................................................................................... 120 6.2.2 RTMP 分块与块流 .................................................................................. 121 6.2.3 RTMP 信息格式 ...................................................................................... 126 6.2.4 RTMP 信息与命令 .................................................................................. 129 6.3 网络流媒体协议——HLS 协议 ........................................................................ 136 6.3.1 HLS 协议的概念 ..................................................................................... 136 6.3.2 HLS 直播流媒体系统结构 ..................................................................... 136 6.3.3 HLS 索引文件格式 ................................................................................. 138 第二部分 命令行工具 第7 章 FFmpeg 的基本操作 ...................................................................................... 144 7.1 FFmpeg 概述 ...................................................................................................... 144 7.1.1 各个编译类型的区别 ............................................................................. 145 7.1.2 编译FFmpeg 源代码 .............................................................................. 148 7.2 ffplay 的基本使用方法 ...................................................................................... 155 7.2.1 显示ffplay 版本 ...................................................................................... 155 7.2.2 显示编译选项 ......................................................................................... 156 7.2.3 设置日志级别 ......................................................................................... 156 7.2.4 全屏播放 ................................................................................................. 158 7.2.5 指定输入视频的宽、高和帧率 .............................................................. 158 7.2.6 禁用音频流、视频流和字幕流 .............................................................. 158 7.2.7 指定播放的起始时间和时长.................................................................. 159 7.2.8 指定播放音量 ......................................................................................... 159 7.2.9 设置播放窗口 ......................................................................................... 159 7.3 ffprobe 的基本使用方法 .................................................................................... 159 7.3.1 显示详细的封装格式信息 ..................................................................... 160 7.3.2 显示每一路媒体流信息 ......................................................................... 161 7.3.3 显示每一个码流包的信息 ..................................................................... 164 7.3.4 显示媒体流和码流包的负载信息 .......................................................... 165 7.3.5 显示每一帧图像的信息 ......................................................................... 167 7.3.6 指定检测信息的输出格式 ..................................................................... 169 7.4 ffmpeg 的基本使用方法 .................................................................................... 175 7.4.1 显示版本和编译配置信息 ..................................................................... 176 7.4.2 显示支持的解复用器格式 ..................................................................... 177 7.4.3 显示支持的复用器格式 ......................................................................... 179 7.4.4 显示支持的所有输入格式和输出格式 .................................................. 181 7.4.5 显示支持的解码器 ................................................................................. 183 7.4.6 显示支持的编码器 ................................................................................. 184 7.4.7 显示支持的媒体协议 ............................................................................. 186 7.4.8 显示支持的硬件加速框架 ..................................................................... 188 7.4.9 ffmpeg 封装格式转换 ............................................................................. 188 7.4.10 视频的解码和编码 ............................................................................... 193 7.4.11 从视频中截取图像 ................................................................................ 206 7.4.12 ffmpeg 视频转码 ................................................................................... 207 第8 章 滤镜图 ........................................................................................................... 209 8.1 ffmpeg 音视频滤镜 ............................................................................................ 209 8.1.1 简单滤镜图 ............................................................................................. 209 8.1.2 复合滤镜图 ............................................................................................. 210 8.1.3 ffmpeg 支持的滤镜列表 ......................................................................... 211 8.2 简单滤镜图的应用 ............................................................................................ 212 8.2.1 常用的视频编辑简单滤镜图.................................................................. 212 8.2.2 常用的音频编辑简单滤镜图.................................................................. 227 8.3 复合滤镜图的应用 ............................................................................................ 230 8.3.1 常用的视频编辑复合滤镜图.................................................................. 230 8.3.2 常用的音频编辑复合滤镜图.................................................................. 234 第9 章 流媒体应用 .................................................................................................... 236 9.1 构建SRS 流媒体服务 ....................................................................................... 236 9.1.1 部署RTMP 流媒体服务 ......................................................................... 238 9.1.2 部署HLS 流媒体服务 ............................................................................ 240 9.1.3 部署HTTP-FLV 流媒体服务 ................................................................. 241 9.2 构建Nginx RTMP 流媒体服务 ......................................................................... 241 9.2.1 Nginx 的编译和部署 .............................................................................. 242 9.2.2 Nginx 的流媒体模块nginx-rtmp-module .............................................. 246 第三部分 开发实战 第10 章 FFmpeg SDK 的使用................................................................................... 254 10.1 使用CMake 构建工程 ..................................................................................... 255 10.1.1 使用CMake 构建Hello World 工程 .................................................... 255 10.1.2 在工程中编译并输出多个文件 ............................................................ 257 10.1.3 在工程中添加头文件和源文件目录 .................................................... 259 10.1.4 在工程中引入动态库 ........................................................................... 262 10.2 FFmpeg SDK 基本使用方法示例:获取目录下的文件信息 ....................... 264 10.2.1 显示指定目录信息 ............................................................................... 264 10.2.2 解析API 和结构体 ............................................................................... 266 第11 章 使用FFmpeg SDK 进行视频编解码 ............................................................ 269 11.1 libavcodec 视频编码 ........................................................................................ 269 11.1.1 主函数与数据I/O 实现 ........................................................................ 269 11.1.2 视频编码器初始化 ................................................................................ 272 11.1.3 编码循环体............................................................................................ 284 11.1.4 关闭编码器............................................................................................ 289 11.1.5 FFmpeg 视频编码延迟分析 ................................................................. 290 11.2 libavcodec 视频解码 ........................................................................................ 294 11.2.1 主函数实现............................................................................................ 294 11.2.2 视频解码器初始化 ................................................................................ 295 11.2.3 解码循环体............................................................................................ 297 11.2.4 关闭解码器............................................................................................ 304 第12 章 使用FFmpeg SDK 进行音频编解码 ............................................................ 306 12.1 libavcodec 音频编码 ........................................................................................ 306 目录 ∣ XIII 12.1.1 主函数实现 ........................................................................................... 306 12.1.2 音频编码器初始化 ............................................................................... 307 12.1.3 编码循环体 ........................................................................................... 310 12.1.4 关闭编码器 ........................................................................................... 313 12.2 libavcodec 音频解码 ........................................................................................ 315 12.2.1 主函数实现 ........................................................................................... 315 12.2.2 音频解码器初始化 ............................................................................... 316 12.2.3 解码循环体 ........................................................................................... 318 12.2.4 关闭解码器 ........................................................................................... 324 第13 章 使用FFmpeg SDK 进行音视频文件的解封装与封装 ................................... 326 13.1 音视频文件的解封装 ...................................................................................... 326 13.1.1 主函数实现 ........................................................................................... 326 13.1.2 解复用器初始化 ................................................................................... 327 13.1.3 循环读取码流包数据 ........................................................................... 335 13.1.4 释放解复用器和解码器 ....................................................................... 338 13.1.5 主函数的整体实现 ............................................................................... 339 13.2 音频流与视频流文件的封装 .......................................................................... 340 13.2.1 主函数实现 ........................................................................................... 340 13.2.2 音视频流复用器的初始化.................................................................... 341 13.2.3 复用音频流和视频流 ........................................................................... 348 13.2.4 释放复用器实例 ................................................................................... 353 第14 章 使用FFmpeg SDK 添加视频滤镜和音频滤镜 .............................................. 355 14.1 视频滤镜 .......................................................................................................... 355 14.1.1 主函数实现 ........................................................................................... 355 14.1.2 视频滤镜初始化 ................................................................................... 356 14.1.3 循环编辑视频帧 ................................................................................... 365 14.1.4 销毁视频滤镜 ....................................................................................... 368 14.2 音频滤镜 .......................................................................................................... 370 14.2.1 主函数框架 ........................................................................................... 370 14.2.2 音频滤镜初始化 ................................................................................... 371 14.2.3 循环编辑音频帧 ................................................................................... 380 14.2.4 销毁音频滤镜 ....................................................................................... 381 第15 章 使用FFmpeg SDK 进行视频图像转换与音频重采样 ................................... 383 15.1 视频图像转换 .................................................................................................. 383 15.1.1 主函数实现 ........................................................................................... 383 15.1.2 视频格式转换初始化 ........................................................................... 384 15.1.3 视频的图像帧循环转换 ....................................................................... 388 15.1.4 视频格式转换结构的销毁和释放 ........................................................ 390 15.2 音频重采样 ...................................................................................................... 391 15.2.1 主函数实现 ........................................................................................... 392 15.2.2 音频重采样初始化 ............................................................................... 392 15.2.3 对音频帧循环重采样 ........................................................................... 397 15.2.4 音频重采样结构的销毁和释放 ............................................................ 400