图书介绍

大数据技术概论【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

大数据技术概论
  • 陈明编著 著
  • 出版社: 北京:中国铁道出版社
  • ISBN:9787113248185
  • 出版时间:2019
  • 标注页数:264页
  • 文件大小:53MB
  • 文件页数:276页
  • 主题词:数据处理-高等学校-教材

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据技术概论PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 概述1

1.1 数据科学2

1.1.1 数据科学的产生与发展2

1.1.2 数据科学的相关术语2

1.1.3 数据科学的主要内容3

1.1.4 数据科学的研究过程与体系框架4

1.1.5 数据科学、数据技术与数据工程6

1.1.6 大数据问题6

1.2 大数据的生态环境7

1.2.1 互联网世界7

1.2.2 物理世界9

1.3 大数据的概念9

1.3.1 数据容量10

1.3.2 数据类型11

1.3.3 价值密度11

1.3.4 速度11

1.3.5 真实性11

1.4 大数据的性质11

1.4.1 非结构性12

1.4.2 不完备性13

1.4.3 时效性13

1.4.4 安全性13

1.4.5 可靠性13

1.5 大数据处理周期13

1.5.1 大数据处理全过程14

1.5.2 大数据技术的特征15

1.5.3 大数据的一些热点技术17

1.6 科学研究范式18

1.6.1 科学研究范式的产生与发展18

1.6.2 数据密集型科学研究第四范式19

小结23

第2章 大数据处理平台24

2.1 Hadoop大数据处理平台24

2.1.1 离线计算概述25

2.1.2 MapReduce分布编程模型26

2.1.3 基于Hadoop的分布计算27

2.1.4 MapReduce程序设计分析31

2.1.5 Hadoop环境部署与程序运行36

2.2 Storm大数据处理平台42

2.2.1 流式数据的概念与特征43

2.2.2 大数据的计算模式45

2.2.3 流式数据处理技术的应用46

2.2.4 流式计算的系统架构50

2.2.5 Storm流处理过程52

2.2.6 单词计数topology56

2.3 Spark大数据处理平台58

2.3.1 交互式处理系统的问题58

2.3.2 Scala编程语言简介58

2.3.3 Spark的主要特点59

2.3.4 软件栈60

2.3.5 核心概念61

2.3.6 弹性分布式数据集RDD62

2.3.7 单词计数实例分析66

小结67

第3章 大数据获取与存储管理技术68

3.1 大数据获取69

3.1.1 大数据获取的挑战69

3.1.2 传统的数据获取与大数据获取的区别69

3.2 领域数据70

3.2.1 文本数据70

3.2.2 语音数据71

3.2.3 图片数据71

3.2.4 摄像头视频数据71

3.2.5 图像数字化数据71

3.2.6 图形数字化数据71

3.2.7 空间数据72

3.3 网站数据72

3.3.1 网站内部数据73

3.3.2 网站外部数据73

3.3.3 移动网站数据73

3.4 网络爬虫73

3.4.1 网络爬虫的工作过程74

3.4.2 通用网络爬虫74

3.4.3 聚焦网络爬虫77

3.4.4 数据抓取目标的定义79

3.4.5 网页分析算法80

3.4.6 更新策略81

3.4.7 分布式爬虫的系统结构82

3.5 大数据存储84

3.5.1 大数据存储模型84

3.5.2 大数据存储问题84

3.5.3 大数据存储方式85

3.6 大数据存储管理技术86

3.6.1 数据容量问题86

3.6.2 大图数据87

3.6.3 数据存储管理88

3.7 NoSQL和NewSQL89

3.7.1 NoSQL90

3.7.2 NewSQL数据库93

3.7.3 不同数据库架构混合应用模式93

3.8 分布式文件系统94

3.8.1 评价指标94

3.8.2 HDFS文件系统95

3.8.3 NFS文件系统96

3.9 虚拟存储技术97

3.9.1 虚拟存储的特点98

3.9.2 虚拟存储的应用98

3.10 云存储技术99

3.10.1 云存储原理99

3.10.2 网络结构99

3.10.3 云的分类99

小结100

第4章 大数据抽取技术101

4.1 大数据抽取技术概述101

4.1.1 数据抽取的定义102

4.1.2 数据映射与数据迁移102

4.1.3 数据抽取程序103

4.1.4 抽取、转换和加载103

4.1.5 数据抽取方式104

4.2 增量数据抽取技术104

4.2.1 增量抽取的特点与策略105

4.2.2 基于触发器的增量抽取方式105

4.2.3 基于时间戳的增量抽取方式105

4.2.4 全表删除插入方式106

4.2.5 全表比对抽取方式106

4.2.6 日志表方式107

4.2.7 系统日志分析方式107

4.2.8 各种数据抽取机制的比较与分析107

4.3 非结构化数据抽取109

4.3.1 非结构化数据类型109

4.3.2 非结构化数据模型109

4.3.3 非结构化数据组织111

4.3.4 纯文本抽取通用程序库112

4.4 基于Hadoop平台的数据抽取113

小结114

第5章 大数据清洗技术115

5.1 数据质量与数据清洗115

5.1.1 数据质量116

5.1.2 数据质量提高技术118

5.1.3 数据清洗算法的标准120

5.1.4 数据清洗的过程与模型120

5.2 不完整数据清洗121

5.2.1 基本方法121

5.2.2 基于k-NN近邻缺失数据的填充算法123

5.3 异常数据清洗124

5.3.1 异常值产生的原因125

5.3.2 统计方法125

5.3.3 基于邻近度的离群点检测126

5.4 重复数据清洗127

5.4.1 使用字段相似度识别重复值算法127

5.4.2 搜索引擎快速去重算法128

5.5 文本清洗128

5.5.1 字符串匹配算法129

5.5.2 文本相似度度量131

5.5.3 文档去重算法135

5.6 数据清洗的实现135

5.6.1 数据清洗的步骤135

5.6.2 基于MapReduce的大数据去重136

小结138

第6章 大数据去噪与标准化139

6.1 基本的数据转换方法139

6.1.1 对数转换139

6.1.2 平方根转换140

6.1.3 平方转换140

6.1.4 倒数变换140

6.2 数据平滑技术140

6.2.1 移动平均法141

6.2.2 指数平滑法142

6.2.3 分箱平滑法146

6.3 数据规范化148

6.3.1 最小-最大规范化方法148

6.3.2 z分数规范化方法149

6.3.3 小数定标规范化方法149

6.4 数据泛化处理150

6.4.1 空间数据支配泛化算法150

6.4.2 非空间数据支配泛化方法151

6.4.3 统计信息网格方法151

小结151

第7章 大数据约简与集成技术152

7.1 数据约简概述153

7.1.1 数据约简定义153

7.1.2 数据约简方式153

7.2 特征约简153

7.2.1 特征提取154

7.2.2 特征选择154

7.3 样本约简155

7.3.1 简单随机抽样155

7.3.2 系统抽样155

7.3.3 分层抽样155

7.4 数据立方体聚集155

7.4.1 多维性156

7.4.2 数据聚集156

7.5 维约简157

7.5.1 维约简的目的157

7.5.2 维约简的基本策略158

7.5.3 维约简的分类158

7.6 属性子集选择算法159

7.6.1 逐步向前选择属性159

7.6.2 逐步向后删除属性159

7.6.3 混合式选择159

7.6.4 判定树归纳159

7.7 数据压缩160

7.7.1 离散小波变换方法160

7.7.2 主成分分析压缩方法161

7.8 数值约简162

7.8.1 有参数值约简162

7.8.2 无参数值约简162

7.9 数据集成的概念与相关问题163

7.9.1 数据集成的核心问题165

7.9.2 数据集成的分类166

7.10 数据迁移168

7.10.1 在组织内部移动数据169

7.10.2 非结构化数据集成169

7.10.3 将处理移动到数据端170

7.11 数据集成模式171

7.11.1 联邦数据库集成模式171

7.11.2 中间件集成模式172

7.11.3 数据仓库集成模式173

7.12 数据集成系统173

7.12.1 全局模式174

7.12.2 语义映射175

7.12.3 查询重写175

7.13 数据聚类集成175

7.13.1 数据聚类集成概述175

7.13.2 高维数据聚类集成176

小结178

第8章 大数据分析与挖掘技术179

8.1 大数据分析概述180

8.1.1 大数据分析的类型180

8.1.2 数字特征182

8.1.3 统计方法论184

8.1.4 模型与构建186

8.1.5 R语言186

8.2 统计分析方法188

8.2.1 基本方法188

8.2.2 常用分析方法194

8.3 数据挖掘理论基础211

8.3.1 数据挖掘是面向应用的技术211

8.3.2 数据挖掘的理论基础212

8.3.3 基于数据存储方式的数据挖掘212

8.4 关联规则挖掘214

8.4.1 频繁项目集生成算法215

8.4.2 关联规则挖掘质量217

8.5 分类方法218

8.5.1 基于距离的分类算法219

8.5.2 KNN算法的MapReduce实现220

8.5.3 决策树分类方法220

8.6 聚类方法223

8.6.1 聚类定义与分类223

8.6.2 距离与相似性的度量225

8.6.3 划分聚类方法226

8.6.4 层次聚类方法228

8.7 序列模式挖掘与文本数据挖掘229

8.7.1 时间序列预测的常用方法229

8.7.2 序列模式挖掘230

8.8 非结构化文本数据挖掘231

8.8.1 用户反馈文本232

8.8.2 用户反馈文本挖掘的一般过程232

8.8.3 文本的自然语言处理234

8.9 基于MapReduce的分析与挖掘实例235

8.9.1 大数据平均值计算235

8.9.2 大数据排序236

8.9.3 倒排索引237

小结241

第9章 大数据分析结果解释与展现242

9.1 数据分析结果解释的目的与内容243

9.1.1 解释的目的243

9.1.2 检查和验证假设243

9.1.3 追踪分析过程244

9.2 数据的基本展现方式245

9.2.1 基于时间变化的可视化展现245

9.2.2 由大及小的可视化展现245

9.2.3 由小及大的可视化展现246

9.2.4 突出对比的可视化展现246

9.2.5 地域空间可视化展现246

9.2.6 概念可视化展现248

9.2.7 气泡图可视化展现248

9.2.8 注重交叉点的数据可视化展现248

9.2.9 剖析原因的数据可视化展现248

9.2.10 描绘出异常值的可视化展现249

9.3 大数据可视化249

9.3.1 文本可视化249

9.3.2 网络(图)可视化250

9.3.3 时空数据可视化252

9.3.4 多维数据可视化252

9.4 大数据可视分析253

9.4.1 可视分析的理论基础254

9.4.2 大数据可视分析技术257

9.5 数据可视化实现260

小结262

参考文献263

热门推荐