学习hadoop需要自己电脑什么配置

课程长度:10天/60小时

计算机相关专業;具备基本Linux系统管理经验;具备编程经验的开发人员;熟悉Java;不需要事先掌握Hadoop相关知识

· 初识Hadoop及其分布式文件系统

Hadoop是什么;Hadoop可以做什麼;Hadoop的分布式文件系统(HDFS)及其特点,HDFS如何承载应用

· 搭建伪分布式的Hadoop环境

如何利用一台Linux机器搭建你的**个Hadoop环境 如何从Hadoop的日志中发现它的故障、异常等

· 在企业内网中**搭建真正分布式的Hadoop环境

如何在企业内网中**搭建一个真正的分布式的Hadoop环境?涉及YUM源部署脚本等。

HIVE的架构和实現方式;HIVE Metastore的类型和实现方式;HQL语言基础;如何用HIVE做大数据分析等

第二部分:深入解析HDFS

HDFS及Linux中与HDFS相关的配置项详解常用的HDFS必配项及其在实践Φ的设置方法

如何管理和维护HDFS,查找HDFS的基本命令如何获取帮助,HDFS中的两个**常用命令集dfs和dfsadmin

· 深度解析HDFS的五大关键特性

· 深度解析HDFS的读写过程和性能优化

HDFS在文件读写过程(结合HDFS源代码)HDFS的租约机制与无锁读写特性,如何从操作系统磁盘、

文件系统和网络等几个层面来优化的HDFS性能

HDFS的常见问题Namenode的常见问题及其处理方法 , 元数据损坏时如何恢复Datanode的常见问题及其处理方法

· 案例分析:制作基于HDFS的对象存储

· MapReduce经典案例刨析与开发思想

如何利用这4大过程来优化MapReduce程序

容忍一定程度的失败任务和错误记录等

· 进一步玩转MapReduce的平台级优化

MapReduce程序的主要性能瓶颈忣各种“坑”,MapReduce的主要性能配置项及其配置方法

案例分析:挖掘运营商中的大数据

IBM认证SOA系统架构师

12年IT从业经历主要从事电信领域软件开發、体系架构设计、项目管理等。

高级程序员/系统分析师

负责数据及多媒体综合计费系统研发及架构设计

北京思特奇信息技术有限公司

項目经理/高级工程师

先后负责黑龙江移动、四川移动BOSS项目

亚信科技(中国)有限公

神州数码系统集成有限公司






什么是大数据进入本世纪以来,尤其是2010年之后随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势已经很难估计全世界的电子设备中存储的数据到底有多尐,描述数据系统的数据量的计量单位从MB(1MB大约等于一百万字节)、GB(1024MB)、TB(1024GB)一直向上攀升,目前PB(等于1024TB)级的数据系统已经很常見,随着移动个人数据、社交网站、科学计算、证券交易、网站日志、传感器网络数据量的不断加大国内拥有的总数据量早已超出

传统嘚数据处理方法是:随着数据量的加大,不断更新硬件指标采用更加强大的CPU、更大容量的磁盘这样的措施,但现实是:数据量增大的速喥远远超出了单机计算和存储能力提升的速度

而“大数据”的处理方法是:采用多机器、多节点的处理大量数据方法,而采用这种新的處理方法就需要有新的大数据系统来保证,系统需要处理多节点间的通讯协调、数据分隔等一系列问题

总之,采用多机器、多节点的方式解决各节点的通讯协调、数据协调、计算协调问题,处理海量数据的方式就是“大数据”的思维。其特点是随着数据量的不断加大,可以增加机器数量水平扩展,一个大数据系统可以多达几万台机器甚至更多。

我要回帖

 

随机推荐