首页 > 百科文章正文

Hadoop技术内幕

百科 2023-01-08 02:37:26 admin
后台-插件-广告管理-内容页头部广告(手机)

是2013年机械工业出版来自社出版的图书,作者蔡斌、陈湘萍。

本书共两册,分别从源代码的角度对"Common+HDFS"和MapReduce的架构设计与实现360百科原理进行了极为详细的分析。

  • 书名 Hadoop技术内幕
  • 作者 蔡斌,陈湘萍
  • 出版社 机械工业出版社
  • 出版时间 2013年4月
  • 页数 512 页

简介

  《Hadoop技术内幕:深入解析Hadoop Common和HDF来自S架构设计与实现原理》由腾讯数据平台的资深Hadoop专家、X-RIME的作者亲自执笔,对Co360百科mmon和HDFS的源代码进行了分析,旨在为Hadoop的优化、定制和扩展提供原理性的指导。除此之外,《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现八反良神功星原理》还从源代码实现中对分布式技术的精髓、分布式系统设计的优秀思想和方法,以及Java语言的编码技巧、编程规范和对设计模式价号源的精妙运用进行了总结和分析,对提高读者的分布式技术能力和Java编程能力都非常有帮助。《Hadoop技术内幕:深入解析Hadoop Com案春余丝mon和HDFS架构设果威呢何该低龙洲飞计与实现原理》适合Hadoop的二次开发人员、应用开发工程师、运维工程阅读。

  全书共9章,分为三部致把抓科分:第一部分(第1章)主要介绍了Hadoop源代码的获取和源代码阅读环境的搭建;第二部分(第2~5章)对Ha名验命社长支奏座doop公共工具Common的架构设计和实现原理进行了深入分析,包含Hadoop的配置信息处理、面向海量是准父督有是术评款种数据处理的序列化和压缩机制、Hadoop的远程过程调用,以及满足Hadoop上各类应用访问数据的Hadoop抽象文件系统和部分具体文件系统等内容;第三部分(第6~9章)对Hadoop的分布式文件系统H织配气话义生DFS的架构设计和实现原理进行了详细的分析,这部分内容采用了总分总的结构,第6章对胶歌式沙茶面长程婷HDFS的各个实体和实体间接口进行了分析;第7章和第8章分别详细地研究了数据节点和名字节点的实现原理,并通过第9章对客属块肉又来户端的解析,回顾了HDFS各鲁际价劳纪或马广模节点间的配合,完度得曾谈段整地介绍了一个大规模任宣沙数据存储系统的实现。

图书目录

  前 言

  第一部分 环境准备

  第1章 源代码环境准备/ 2

  1.1 什么是Hadoop / 2

  1.1.1 Hadoop简史/ 2

  1.1.2 Hadoop的优势/ 3

  1.1.3 Hadoop生态系统/ 4

  1.2 准备源代码阅读环境/ 8

  1.2.1 安装与配置JDK / 8

  1.2.2 安装Eclipse / 9

  风树1.2.3 安装辅助工具Ant/ 12

  1.2.4 安装类UNIX Shell环境Cygwin / 13

  1.3 准备Hadoop源代码/ 15

  1.3.1 下载Hadoop / 15

  1.3.2 创建Eclipse项目/ 16

  1.3.3 Hadoop源代顶意慢茶眼以码组织/ 18

  1.4 小结/ 19

  第二部分 Common的实现

 青胶面件城哥时 第2章 Hadoop配置信兵然出息处理/ 22

  2.1 配置文件简介/ 22

  2.1.1 Windows操作系统的配置文件/ 22

  2.1.2 Java配置文件/ 23

  2.2 Hadoop Configuration详解/ 24

  2.2.1 Hadoop配置文件的格式/ 24

  2.2.2 Configuration的成员变量/ 26

  2.2.3 资源加载/ 27

  2.2.4 使用get*和set*访问/设置配置项/ 32

  2.3 Configurable接口/ 34

  2.4 小结/ 35

  第3领把电双查手房章 序列化与压缩/ 36

  3.1 序列化/ 36

  3.1.1 Java内建序列化机制/ 36

  3.1.2 Hadoop序列化机制/ 38

  3.1.3 Hadoop序列化机制的特征/ 39

  3.1.4 Hadoop Writable机制/ 39

  3.1.5 典型的Writable类详解/ 41

  3.1.6 Hadoop序列化框架/ 48

  3.2 压缩/ 49

  3.2.1 Hadoop压缩简介/ 50

  3.2.2 Hadoop压缩API应用实例/ 51

  3.2.3 Hadoop压缩框架/ 52

  3.2.4 Java本地方法/ 61

  3.2.5 支持Snappy压缩/ 65

  3.3 小结/ 69

  第4章 Hadoop远程过程调用/ 70

  4.1 远程过程调用基础知识/ 70

  4.1.1 RPC原理/ 70

  4.1.2 RPC机制的实现/ 72

  4.1.3 Java远程方法调用/ 73

  4.2 Java动态代理/ 78

  4.2.1 创建代理接口/ 78

  4.2.2 调用转发/ 80

  4.2.3 动态代理实例/ 81

  4.3 Java NIO/ 84

  4.3.1 Java基本套接字/ 84

  4.3.2 Java NIO基础/ 86

  4.3.3 Java NIO实例:回显服务器/ 93

  4.4 Hadoop中的远程过程调用/ 96

  4.4.1 利用Hadoop IPC构建简单的分布式系统/ 96

  4.4.2 Hadoop IPC的代码结构/ 100

  4.5 Hadoop IPC连接相关过程/ 104

  4.5.1 IPC连接成员变量/ 104

  4.5.2 建立IPC连接/ 106

  4.5.3 数据分帧和读写/ 111

  4.5.4 维护IPC连接/ 114

  4.5.5 关闭IPC连接/ 116

  4.6 Hadoop IPC方法调用相关过程/ 118

  4.6.1 Java接口与接口体/ 119

  4.6.2 IPC方法调用成员变量/ 121

  4.6.3 客户端方法调用过程/ 123

  4.6.4 服务器端方法调用过程/ 126

  4.7 Hadoop IPC上的其他辅助过程/ 135

  4.7.1 RPC.getProxy()和RPC.stopProxy() / 136

  4.7.2 RPC.getServer()和Server的启停/ 138

  4.8 小结/ 141

  第5章 Hadoop文件系统/ 142

  5.1 文件系统/ 142

  5.1.1 文件系统的用户界面/ 142

  5.1.2 文件系统的实现/ 145

  5.1.3 文件系统的保护控制/ 147

  5.2 Linux文件系统/ 150

  5.2.1 Linux本地文件系统/ 150

  5.2.2 虚拟文件系统/ 153

  5.2.3 Linux文件保护机制/ 154

  5.2.4 Linux文件系统API/ 155

  5.3 分布式文件系统/ 159

  5.3.1 分布式文件系统的特性/ 159

  5.3.2 基本NFS体系结构/ 160

  5.3.3 NFS支持的文件操作/ 160

  5.4 Java文件系统/ 162

  5.4.1 Java文件系统API / 162

  5.4.2 URI和URL / 164

  5.4.3 Java输入/输出流/ 166

  5.4.4 随机存取文件/ 169

  5.5 Hadoop抽象文件系统/ 170

  5.5.1 Hadoop文件系统API / 170

  5.5.2 Hadoop输入/输出流/ 175

  5.5.3 Hadoop文件系统中的权限/ 179

  5.5.4 抽象文件系统中的静态方法/ 180

  5.5.5 Hadoop文件系统中的协议处理器/ 184

  5.6 Hadoop具体文件系统/ 188

  5.6.1 FileSystem层次结构/ 189

  5.6.2 RawLocalFileSystem的实现/ 191

  5.6.3 ChecksumFileSystem的实现/ 196

  5.6.4 RawInMemoryFileSystem的实现/ 210

  5.7 小结/ 213

  第三部分 Hadoop分布式文件系统

  第6章 HDFS概述/ 216

  6.1 初识HDFS / 216

  6.1.1 HDFS主要特性/ 216

  6.1.2 HDFS体系结构/ 217

  6.1.3 HDFS源代码结构/ 221

  6.2 基于远程过程调用的接口/ 223

  6.2.1 与客户端相关的接口/ 224

  6.2.2 HDFS各服务器间的接口/ 236

  6.3 非远程过程调用接口/ 244

  6.3.1 数据节点上的非IPC接口/ 245

  6.3.2 名字节点和第二名字节点上的非IPC接口/ 252

  6.4 HDFS主要流程/ 254

  6.4.1 客户端到名字节点的文件与目录操作/ 254

  6.4.2 客户端读文件/ 256

  6.4.3 客户端写文件/ 257

  6.4.4 数据节点的启动和心跳/ 258

  6.4.5 第二名字节点合并元数据/ 259

  6.5 小结/ 261

  第7章 数据节点实现/ 263

  7.1 数据块存储/ 263

  7.1.1 数据节点的磁盘目录文件结构/ 263

  7.1.2 数据节点存储的实现/ 266

  7.1.3 数据节点升级/ 269

  7.1.4 文件系统数据集的工作机制/ 276

  7.2 流式接口的实现/ 285

  7.2.1 DataXceiverServer和DataXceiver / 286

  7.2.2 读数据/ 289

  7.2.3 写数据/ 298

  7.2.4 数据块替换、数据块拷贝和读数据块检验信息/ 313

  7.3 作为整体的数据节点/ 314

  7.3.1 数据节点和名字节点的交互/ 314

  7.3.2 数据块扫描器/ 319

  7.3.3 数据节点的启停/ 321

  7.4 小结/ 326

  第8章 名字节点实现/ 327

  8.1 文件系统的目录树/ 327

  8.1.1 从i-node到INode/ 327

  8.1.2 命名空间镜像和编辑日志/ 333

  8.1.3 第二名字节点/ 351

  8.1.4 FSDirectory的实现/ 361

  8.2 数据块和数据节点管理/ 365

  8.2.1 数据结构/ 366

  8.2.2 数据节点管理/ 378

  8.2.3 数据块管理/ 392

  8.3 远程接口ClientProtocol的实现/ 412

  8.3.1 文件和目录相关事务/ 412

  8.3.2 读数据使用的方法/ 415

  8.3.3 写数据使用的方法/ 419

  8.3.4 工具dfsadmin依赖的方法/ 443

  8.4 名字节点的启动和停止/ 444

  8.4.1 安全模式/ 444

  8.4.2 名字节点的启动/ 449

  8.4.3 名字节点的停止/ 454

  8.5 小结/ 454

  第9章 HDFS客户端/ 455

  9.1 认识DFSClient / 455

  9.1.1 DFSClient的构造和关闭/ 455

  9.1.2 文件和目录、系统管理相关事务/ 457

  9.1.3 删除HDFS文件/目录的流程/ 459

  9.2 输入流/ 461

  9.2.1 读数据前的准备:打开文件/ 463

  9.2.2 读数据/ 465

  9.2.3 关闭输入流/ 475

  9.2.4 读取HDFS文件数据的流程/ 475

  9.3 输出流/ 478

  9.3.1 写数据前的准备:创建文件/ 481

  9.3.2 写数据:数据流管道的建立/ 482

  9.3.3 写数据:数据包的发送/ 486

  9.3.4 写数据:数据流管道出错处理/ 493

  9.3.5 写数据:租约更新/ 496

  9.3.6 写数据:DFSOutputStream.sync()的作用/ 497

  9.3.7 关闭输出流/ 499

  9.3.8 向HDFS文件写入数据的流程/ 500

  9.4 DistributedFileSystem的实现/ 506

  9.5 HDFS常用工具/ 508

  9.5.1 FsShell / 508

  9.5.2 DFSAdmin / 510

  9.6 小结/ 511

作者简介

  蔡斌,资深Hadoop技术专家,基于Hadoop的开源项目X-RIME的作者之一。国内Hadoop应用和源代码研究领域的先驱之一,有10余年开发经验,先后任职于朗讯科技、IBM中国研究院等国内外知名企业,目前担任腾讯数据平台部的高级工程师,们极虽质往列对无始住从事Hadoop相关技术的研究、应用和实施,实战经来自验非常丰富。对分布式计算、电信增值业务、网络管理等领域有深刻的认识和理解,拥有近10项发明专利,其中两项为美国专利,大部分与海量数据处理相关。近期关注海量数据的360百科流式处理、Hadoop上的大数据应用与挖掘等

  陈湘萍,北京大学计算机系博士,目前就职于中山大学,专注于H长想道纪终城此复adoop、云计算、软件中间件、模型驱动的软件工程等技术的研究和实践。拥有发明专利5项,参与1项国家电子行业标准的制定,发表学术论文10余篇。

后台-插件-广告管理-内容页尾部广告(手机)

标签:

发表评论

评论列表

晴空网Copyright @ 2011-2023 All Rights Reserved. 版权所有 豫ICP备2022028056号 帝国CMS强力驱动 站长微信:88888888 统计代码