科技>计算机>数据库
数据新闻实战

数据新闻实战"

作者:刘英华
ISBN:9787121297380
定价:¥49.0
字数:450千字
页数:276
出版时间:2016-10
开本:16开
版次:01-01
装帧:
出版社:电子工业出版社
简介

数据新闻作为一种新型的新闻报道形式,弥补了传统新闻或叙事性新闻无法呈现的效果。数据新闻采用可视化的方法将单调的数据用一种直观、便于理解、更具说服力的方法呈献给读者。大量的数据比采访几十个对象获取的信息更多,做出的结论更客观易懂,也更容易阐明观点。 本书介绍在大数据环境下数据新闻的制作流程。以丰富的实践案例解析数据新闻的制作理念和方法。紧密围绕新闻人在制作数据新闻中的实际需求,全面介绍了数据新闻概述,获取数据的工具和方法,使用Openrefine清理和分析数据,数据质量分析,使用Tableau实现数据分析及可视化,以及标签云、关系图制作、Echarts和HTML5等其他数据新闻制作工具。 本书理论与实践结合,偏重数据新闻的具体制作方法。不仅包含必备的理论知识,而且包含具体的实践案例,多角度启发和引导读者的创新思维,增强读者对抽象数据的把握和综合分析能力,帮助读者快速掌握数据新闻的制作过程。内容通俗易懂,简明实用,包含配套的电子教学辅助资料,可免费下载。

前言

前 言 写作目的 在大数据环境下,数据新闻作为一种新的报道形态受到了读者的认可和追捧。新闻工作者需要 全面提升自己的专业技能,其中之一就是具备数据分析和数据呈现的能力。但无论是国内还是国外, 大多数新闻工作者缺乏数据方面的知识,因为传统高校缺乏相应的课程,市场上也难以寻觅相应的 图书。 现有的数据新闻方面的书籍主要研究的是数据新闻理论、点评数据新闻作品,缺少数据新闻的 实战流程。本书正是为学习数据新闻制作的读者准备的,通过阅读本书可以快速获取数据、清理数 据、可视化数据,独立完成数据新闻制作的全过程。 本书内容 第1 章 数据新闻概述。本章阐述数据新闻的概念、数据新闻制作人才的需求、数据新闻技术要 求和制作流程,最后展示并点评了近期数据新闻奖的获奖作品。 第2 章 获取数据。本章讲解获取数据的方法和具体途径,包括政府、国际组织与第三方机构数 据的获取,政府信息公开数据的申请,众包搜集数据及搜索引擎的使用,最后讲解数据的存储和综 合案例。 第3 章 清理和分析数据。本章分析“脏数据”的成因及其表现形式,基于OpenRefine 环境清 理“脏数据”,使用Excel 简单分析数据,阐明数据清理原则和综合案例。 第4 章 数据质量分析。本章讲解评估数据合理性的外部合理性检查和内部合理性检查,以及游 程检验、抽样分析、缺失数据的预测和时间序列预测。 第5 章 数据分析及可视化工具应用。本章阐明了数据可视化的概念,介绍常见的数据可视化工 具。以Tableau 为例详细讲解了数据可视化的具体方法,包括创建第一个可视化作品、连接数据、数 据视图、高级分析、仪表板、故事和发布,最后分析了三个优秀的Tableau 作品。 第6 章 其他数据新闻制作工具。本章讲解其他常用的数据新闻制作工具,包括图表绘制工具库 ECharts、标签云、关系图制作工具PeoplePlotr 和语义万维网服务Open Calais,最后使用 HTML5 网 站制作模板将所有作品整合。 本书内容全面翔实,操作细节清楚,案例典型,方便学习,素材丰富,有利于强化读者操作能 力,提高专业技能。 数据新闻实战 IV 读前准备 ? Windows 操作系统,互联网接入,IE 浏览器、Firefox 浏览器和Chrome 浏览器。 ? 文本编辑器,如Windows 中的记事本或者EditPlus。 ? 微软Office 工具包中的Excel,版本不限。 ? 安装Java 环境,具体参见本书3.3.1 小节。 ? 如果是大中专学生,可以提前申请Tableau 免费一年使用权。 排版约定 ? 菜单项的名称放在【】中,如单击【分析】|【创建计算字段】选项。 ? 代码使用Courier New 字体并增加阴影,例如: series: [{ //设置系列列表 name: '销量', //设置图表系列的名称 type: 'line', //设置图表类型是折线图 data: [5, 20, 36, 10, 10, 20]//设置系列数据 }] ? 使用“+”表示快捷键的组合,如按【Ctrl】+【C】快捷键。 ? 没有特殊说明时,单击和双击分别表示鼠标左键单击和双击。 感谢 首先,感谢购买本书的读者。您的阅读是我写作动力的源泉。数据新闻发展较快,真心希望您 在阅读本书后提出宝贵的意见,我们可以共同分析探讨问题,为后续图书的撰写提供素材和经验。 其次,感谢我的爱人和父母。在写作最困难的时候,是他们为我鼓劲加油,支持我完成书稿。 父母年迈,但很开心地戴着老花镜帮我校稿。 最后,感谢电子工业出版社的张慧敏编辑、杨嘉媛编辑和戴新编辑,她们的严谨细致和辛勤努 力保证了本书的顺利出版。 联系作者 如果您对本书有想法和意见,或者想与作者探讨某个问题,请发送电子邮件至yinghliu@163.com。 刘英华 2016 年8 月于北京

目录

目 录 第1 章 数据新闻概述 1 1.1 数据新闻的概念 . 2 1.2 制作数据新闻 . 8 1.2.1 人才需求 9 1.2.2 技术需要 10 1.2.3 制作流程 11 1.3 数据新闻奖(DJA)获奖作品 12 第2 章 获取数据 22 2.1 政府、国际组织与第三方机构的公开数据 . 23 2.2 政府信息公开数据的申请 . 26 2.3 众包搜集数据 . 29 2.4 搜索引擎的使用 . 30 2.4.1 搜索指令 30 2.4.2 百度搜索工具 33 2.4.3 百度高级搜索页面 34 2.5 数据存储 . 34 2.5.1 PDF 格式转换为Excel 格式 . 35 2.5.2 在线转换工具Zamzar . 37 2.5.3 浏览器插件 38 2.5.4 结构化信息表格化 40 2.5.5 批量下载文件 42 2.6 综合案例 . 44 2.6.1 使用联合国数据库 44 2.6.2 获取北京市2014 年常住人口数量 . 46 第3 章 清理和分析数据 49 3.1 “脏数据”(Dirty Data) 50 3.1.1 “脏数据”的成因 50 3.1.2 “脏数据”的表现形式 . 51 3.2 数据清理/分析工具 52 3.3 清理“脏数据” . 53 3.3.1 安装OpenRefine 环境 . 53 3.3.2 创建项目(导入数据) . 55 3.3.3 主界面 . 56 3.3.4 归类(Facet) 57 3.3.5 文本过滤器(Text filter) . 63 3.3.6 编辑单元格(Edit cells) 64 3.3.7 编辑列(Edit column) . 66 3.3.8 变换(Transpose) 68 3.3.9 排序(Sort) 70 3.3.10 视图(View) 71 3.3.11 导出(Export) 71 3.3.12 函数 . 72 3.3.13 正则表达式 77 3.4 使用Excel 简单分析数据 81 3.4.1 常用函数 81 3.4.2 筛选 . 84 3.4.3 数据透视表(PivotTable) . 85 3.4.4 在透视表里做筛选 86 3.5 数据清理原则 . 87 3.6 综合案例 . 87 3.6.1 查找重复记录 87 3.6.2 使用OpenRefine 清理数据 . 90 第4 章 数据质量分析 102 4.1 数据合理性 . 103 4.1.1 内部合理性 104 4.1.2 外部合理性 109 4.2 游程检验 112 4.3 抽样分析 113 4.4 缺失数据的预测 115 4.5 时间序列预测 117 4.5.1 移动平均 117 4.5.2 指数平滑 119 4.5.3 回归 . 122 第5 章 数据分析及可视化工具应用 124 5.1 数据可视化 . 125 5.2 数据可视化工具 . 125 5.3 Tableau 下载和安装 . 128 5.4 创建第一个可视化作品 . 131 5.4.1 首次数据连接 131 5.4.2 首次创建多种图表 132 5.4.3 首次创建仪表板 135 5.4.4 首次输出 136 5.5 连接数据 . 138 5.5.1 在图表中查看数据 138 5.5.2 简单数据连接 139 5.5.3 连接多个数据源 141 5.5.4 连接一个数据源的多个表 . 143 5.5.5 提取数据 144 5.5.6 数据类型 146 5.6 数据视图 . 146 5.6.1 工作表和工作簿 147 5.6.2 数据视图界面 148 5.6.3 文本表、压力图和突出显示表 . 149 5.6.4 条形图 150 5.6.5 线图 . 157 5.6.6 地图 . 163 5.6.7 饼图 . 166 5.6.8 树地图 169 5.6.9 填充气泡图 170 5.6.10 甘特图 171 5.6.11 散点图 173 5.6.12 双组合图和面积图 175 5.6.13 盒须图 179 5.6.14 标靶图 180 5.7 高级分析 . 182 5.7.1 函数 . 182 5.7.2 聚合 . 184 5.7.3 注释 . 184 5.7.4 计算 . 186 5.7.5 简单预测 194 5.7.6 合计 . 194 5.7.7 参数 . 196 5.7.8 分层 . 199 5.7.9 分组 . 200 5.7.10 “页面”功能区 201 5.7.11 数据桶和直方图 . 203 5.7.12 背景图像 204 5.8 仪表板 . 206 5.8.1 创建仪表板 206 5.8.2 布局容器 210 5.8.3 编辑仪表板 211 5.8.4 仪表板和工作表 212 5.8.5 操作 . 213 5.9 故事 . 219 5.10 作品发布 . 221 5.10.1 工作簿和工作表 221 5.10.2 发布 . 222 5.10.3 打印 . 223 5.11 Tableau 作品 . 225 5.11.1 Is Your Country Good at Reducing CO2 Emissions 225 5.11.2 Cabs in NYC . 227 5.11.3 Analysis of Twitter Hashtags Following the Paris Attacks 228 第6 章 其他数据新闻制作工具 231 6.1 图表绘制工具库ECharts . 232 6.1.1 获取ECharts 232 6.1.2 绘制一个简单的图表. 232 6.1.3 编辑图表 234 6.1.4 图表中的地图 237 6.2 标签云 . 241 6.2.1 标签云制作工具Tagul 242 6.2.2 标签云制作工具Tagxedo 245 6.3 关系图制作工具PeoplePlotr . 249 6.4 语义万维网服务Open Calais 257 6.5 HTML5 网站制作模板 . 261

作者简介

刘英华,1975年出生,女,博士,副教授。研究方向:数据挖掘、隐私保护、数字媒体。已出版专著《Java2程序设计》、《数字媒体传播实务》和《基于数据发布的隐私保护模型研究》。__eol__先后发表学术论文30余篇,参与国家自然科学基金面上资助项目“基于大规模复杂结构知识库的知识发现机理、模型与算法研究”和“基于多关系的模糊认知图挖掘模型、算法与评价机制研究”。__eol__

编辑推荐

作者寄语

电子资料

www.luweidong.cn

下一个