大数据处理技术 PDF 实训资料汇总

GitHub

day01大数据集群环境准备&zookeeper的介绍以及集群环境搭建

三台虚拟机创建并联网

大数据集群环境准备

分布式集群

zookeeper的介绍以及集群环境搭建

day02大数据发展简史及环境安装

hadoop的介绍以及发展历史

hadoop的历史版本介绍

三大公司发行版本介绍

hadoop的架构模型(1.x,2.x的各种架构模型介绍)

apache hadoop三种架构介绍(standAlone)

apache hadoop三种架构介绍(伪分布介绍以及安装)

apache hadoop三种架构介绍(高可用分布式环境介绍以及安装)

day03Hadoop集群初体验&HDFS的命令行使用

hadoop集群初体验

HDFS入门介绍

HDFS的命令行使用

CDH伪分布式环境搭建

day04分布式文件系统HDF

分布式文件系统详细介绍

HDFS分布式文件系统设计目标

HDFS的来源

HDFS的架构图之基础架构

hdfs的架构之文件的文件副本机制

HDFS的元数据信息FSimage以及edits和secondaryNN的作用

HDFS的文件写入过程

HDFS的文件读取过程

HDFS的JavaAPI操作

day05MapReduce编程模型-WordCount实例分析

理解MapReduce思想

HadoopMapReduce设计构思

MapReduce框架结构

MapReduce编程规范及示例编写

WordCount示例编写本地模式

MapReduce编程模型-WordCount实例分析

day06MapReduce的运行机制

MapReduce的分区与reduceTask的数量

MapTask运行机制详解以及Map任务的并行度

ReduceTask工作机制以及reduceTask的并行度

MapReduceshuffle过程

索引建立

day07Yarn资源调度及Hive初步

Hive基本概念

Hive的安装部署

Hive基本操作之创建数据库

创建数据库表

hive语句综合练习

Yarn资源调度

关于yarn常用参数设置

day08Flume数据采集

Flume介绍

Flume的安装部署

采集案例监控目录变化

采集案例监控文件的变化

两个agent级联

更多source和sink组件

高可用Flume

flume的负载均衡loadbalancer

day09消息队列Kafka

kafka的介绍

kafka的安装

kafka的命令行的管理使用

kafka的javaAPI的使用

kafka的数据的分区

kafka的配置文件的说明

flume与kafka的整合

kafka-manager监控工具的使用

CDH版本的zookeeper环境搭建

day10sqoop数据迁移

sqoop

day11工作流调度器azkaban&数据可视化Echarts介绍

azkaban

数据可视化Echarts介绍

评论