一、HCIA-Big Data认证概述
HCIA-Big Data认证定位于大数据技术的普及,华为FusionInsight HD 解决方案的功能特性、常见且重要大数据组件基础技术原理及操作演练的考核和认证。HCIA-Big Data认证包括但不限于:大数据行业与技术趋势介绍;HDFS分布式文件系统、MapReduce分布式离线批处理计算引擎和Yarn资源协调、Spark2x基于内存的分布式计算引擎、HBase分布式NoSQL数据库、Hive分布式数据仓库、Streaming分布式流计算引擎、Loader数据转换、Flume海量日志聚合、Kafka分布式消息订阅系统、ZooKeeper集群分布式协调服务等11个常用且重要的大数据组件技术原理与架构,华为大数据解决方案产品FusionInsight HD及成功案例介绍;基于独立大数据组件的实战演练以及大数据综合应用实战。通过HCIA-Big Data认证,将证明您已经系统掌握常用且重要的大数据组件技术原理与架构,能够运用华为大数据解决方案FusionInsight HD进行海量数据的导入和导出、分布式文件系统HDFS的基础操作、分布式数据库HBase客户端及表操作、分布式数据仓库Hive的常用HQL语句查询,以及了解典型场景的综合应用等。使您具备大数据售前、大数据售后技术支持、大数据项目管理、大数据运维管理、大数据开发、大数据分析等岗位所必备的知识和技能。企业拥有通过HCIA-Big Data认证的工程师,意味着企业掌握了大数据技术基础原理与架构等相关知识,具备运用华为大数据解决方案FusionInsight HD和开源Hadoop生态系统进行数据初步处理的能力,并且为大数据应用开发业务奠定了坚实的基础。
二、HCIA-Big Data课程内容介绍
课程 |
模块 |
详情内容 |
HCIA-Big Data |
概述,FI基本架构 |
1、大数据时代的特征以及大数据的概念
2、大数据的应用领域
3、大数据时代的机遇和挑战
4、华为大数据解决方案 |
Kerberos&LDAP认证 |
1、Kerberos、ldap简介
2、用户分类
3、Kerberos、ldap工作原理
4、Kerberos、ldap特性
5、Kerberos、ldap |
Zookeeper |
1、zookeeper在系统中的位置
2、zookeeper的系统架构
3、zookeeper的关键特性
4、zookeeper与其他组件的关系 |
HDFS(读写、压缩) |
1、HDFS概述以及应用场景
2、HDFS在FusionInsight产品当中的位置 3、HDFS系统架构
4、HDFS的关键特性介绍
5、HDFS shell应用开发 |
MapReduce和Yarn |
1、MR的基本定义和特点
2、MR工作模式介绍
3、Yarn的基本定义
4、Yarn工作模式介绍
5、yarn的资源管理和任务调度
6、yarn的增强特性 |
Hbase |
1、Hbase的定义以及与传统数据库的对比 2、Hbase的功能与架构
3、Hbase的工作流程
4、Hbase的华为增强特性 |
Streaming |
1、streaming的定义与应用场景
2、streaming在fusioninsight产品的位置 3、streaming的关键特性介绍
4、streamSQL介绍 |
Kafka |
1、kafka的简要介绍
2、kafka的架构与功能
3、kafka的关键工作流程
4、kafka在zookeeper上的目录结构 |
Spark核心 |
1、spark的简要介绍
2、spark基本功能和技术架构
3、spark的工作原理
4、spark在fusioninsight中的集成情况
5、sparkSQL的工作原理
6、streaming的工作原理 |
FusionInsight集群安装部署 |
1、认识华为的FusionInsight安装部署流程
2、了解注意事项 |
三、HCIP-Big Data认证概述
HCIP-Big Data认证定位于对大数据平台和核心组件开发应用的场景理解,流程和开发方法等能力构建,考核和认证。HCIP-Big Data认证包括但不仅限于:FusionInsight应用开发流程,HDFS, HBase, Hive, Solr, Kafka, MR, YARN, Spark, Flume, Loader, Oozie, Redis, Storm等组件开发应用场景、流程、接口/方法和开发样例讲解,开发实践。通过HCIP-Big Data认证,将证明您深入理解大数据平台与技术及应用,掌握大数据平台和关键组件的开发流程、接口,掌握典型场景的开发方法,胜任大数据开发者工作岗位。拥有通过HCIP-Big Data认证的工程师,意味着企业掌握了运用大数据平台和组件实现大数据解决方案规划、实施、开发等综合能力。
四、HCIP-Big Data课程内容介绍
课程 |
模块 |
详情内容 |
HCIP-Big Data |
HDFS(读写和压缩)+eclipse使用 |
1、HDFS系统架构以及HDFS的关键特性回顾
2、HDFS java应用开发
3、HDFS shell应用开发 |
MapReduce和Yarn |
1、MR和yarn的工作模式回顾
2、MR的java开发 |
Hive |
1、hive的基本架构回顾
2、hive的jdbc客户端开发流程 |
Hbase |
1、Hbase的功能与架构和工作流程回顾
2、Hbase的java开发 |
Streaming |
1、streaming的关键特性回顾
2、streaming的java应用开发
3、CQL应用开发 |
Loader&Flume |
1、flume关键特性回顾
2、flume的应用开发 |
Kafka |
1、kafka的关键工作流程回顾 2、kafka的应用开发 3、flume和kafka综合 |
Solr |
1、solr的概述以及应用场景 2、solr的概念体系和系统构架 3、solr的关键特性以及华为增强特性 4、solr的应用开发 |
Oozie |
1、oozie简介2、oozie开发 |
Spark核心 |
1、spark的工作原理回顾 2、sparkcore的应用开发 |
Spark SQL&SparkStreaming |
1、sparkSQL的工作原理与应用开发2、streaming的工作原理与应用开发 |
Redis |
1、redis的基本概念和应用场景 2、redis的应用开发 |
Kerberos&LDAP认证 |
1、Kerberos、ldap安装与维护 |
五、HCIE-Big Data认证概述
HCIE-Big Data认证定位于大数据分析领域中大型分布式并行处理数据仓库平台的架构原理、优化设计、应用开发和大数据挖掘领域的基础理论、常用挖掘算法、应用设计以及开发,旨在推动业界大数据行业的专家型人才培养。HCIE-Big Data认证包括但不仅限于:(1)华为企业级的大型并行处理分布式数据仓库平台FusionInsight LibrA的架构、功能特性、数据库设计、数据库数据导入导出、数据库调优及数据库开发等;(2)数据挖掘的理论(包括数据预处理、数据仓库、分类、聚类、关联规则等)以及使用华为企业级大数据挖掘平台FusionInsight Miner和基于华为云的企业智能平台EI (Enterprise Intelligence)的基础服务 - MLS (Machine Learning Service,机器学习服务)进行数据深度分析和挖掘。通过HCIE-Big Data认证,将证明您系统理解并掌握大型并行处理数据仓库平台的架构原理、分布式关系型数据库的设计和优化及应用开发;掌握大数据挖掘的基本原理,常用算法、常用挖掘方法、对华为大数据挖掘解决方案FusionInsight Miner和华为云机器学习服务MLS的熟练使用,胜任数据仓库开发、大数据分析、大数据数据挖掘和人工智能的相关岗位。企业拥有HCIE-Big Data 认证的工程师,意味着企业掌握了运用大数据技术进行大数据分析应用、大数据挖掘应用的能力。
六、HCIE-Big Data课程内容介绍
课程 |
模块 |
详情内容 |
HCIE-Big Data |
FusionInsight解决方案 |
华为大数据解决方案整体介绍。包含华为FusionInsight大数据平台架构及功能模块具体功能介绍。 |
FusionInsight HD安装部署 |
FusionInsight HD大数据平台安装前规划,包括物理硬件、软件的准备,磁盘、网络、进程的规划。以及软件的安装步骤详解 |
HDFS分布式文件系统 |
1、HDFS简介
2、HDFS的系统架构
3、HDFS的实现原理及关键特性
4、华为对HDFS的增强特性
5、HDFS的命令行客户端使用介绍 |
MapReduce离线计算引擎 |
1、MR简介
2、MRv1与MRv2区别
3、Yarn架构及工作原理详解
4、MR on Yarn详解
5、MR 数据处理流程详解
6、MR使用演示 |
Hbase分布式数据库 |
1、Hbase简介
2、Hbase系统架构
3、Hbase关键关键概念详解
4、Hbase关键流程详解(数据读写流程、Region Split流程、小文件合并流程等)
5、Hbase过滤器介绍
6、Hbase表设计
7、Hbase shell客户端使用 |
Hive分布式数据仓库 |
1、Hive系统架构
2、Hive工作原理
3、Hive关键特性(如分区表、分桶、数据加密、数据存储格式等)
4、Hive权限管理
5、Hive shell客户端使用 |
Streaming实时计算引擎 |
1、Streaming简介
2、Streaming架构详解
3、Streaming各进程之间交互及工作原理详解
4、Streaming关键特性介绍
5、Straming CQL的使用介绍 |
Spark内存计算引擎 |
1、Spark 简介
2、Spark架构详解
3、Spark Core详解
4、Spark SQL详解
5、Spark Streaming详解
6、Spark SQL使用介绍 |
数据挖掘基础 |
1、什么是数据挖掘
2、数据挖掘所能够解决的问题
3、数据挖据的常用算法简介
4、数据挖掘常用工具简介 |
FusionInsight Miner操作指南 |
1、项目和工作流的基本概念和管理
2、数据输入算子(如读取Hive表、读取HDFS数据、读取文本数据等)的功能和使用
3、数据转换算子(如聚合、去重、过滤、连接等)的功能和使用
4、主成成分分析、异常检测、分类、聚类、回归、推荐等算子简介
5、数据输出算子功能介绍及使用 |
数据预处理 |
1、数据类型和数据质量介绍
2、数据聚集、抽样、维归约、特征子集选择、特征创建、离散化和二元化、变量转换
3、相似性和向异性的度量 |
分类 |
1、逻辑回归介绍
2、决策树介绍
3、K-最近邻分类器介绍
4、贝叶斯分类器介绍
5、支持向量机分类器介绍
6、随机森林介绍
7、梯度提升树算法介绍
8、使用华为Miner实现数据分类 |
聚类 |
1、K-均值聚类介绍
2、层次聚类介绍
3、DBSCAN介绍
4、使用华为Miner通过K-均值算法实现数据聚类 |
关联规则 |
1、频繁项集相关概念介绍
2、生成关联规则的算法介绍
3、关联模式的评估 |
异常检测 |
1、异常的成因
2、异常检测方法
3、基于临近度的异常检测
4、基于密度的离群点检测
5、基于聚类技术的离群点检测 |
推荐系统 |
1、协同过滤算法 2、基于内容的推荐 3、基于关联规则的推荐 4、基于效用的推荐 5、基于知识的推荐 |
图计算 |
1、图计算基本概念
2、PageRank算法介绍
3、使用Miner关系分析中的网页排名算子体验PageRank算法 |
分布式数据库架构 |
1、体系构架基本知识
2、MPP特性介绍 |
LibrA数据库集群规划和部署 |
1、组网方案
2、软硬件要求
3、LibrA安装前准备
4、LibrA软件安装流程
5、LibrA安装后检查 |
关键特性 |
1、LibrA产品特性
2、LibrA关键技术
3、企业级增强特性 |
安全管理 |
1、访问控制
2、用户管理
3、权限管理模型
4、对象权限
5、安全审计 |
数据库管理系统并发控制 |
1、配置负载均衡
2、事务与隔离级别
3、LibrA锁机制介绍 |
数据备份与恢复 |
1、备份与恢复方案
2、备份与恢复集群信息
3、备份与恢复数据库对象
4、数据安全操作策略
5、物理备份与恢复 |
数据迁移 |
1、数据迁移场景介绍
2、GDS工具介绍和使用
3、copy from/to介绍和使用
4、开源ELT工具介绍和使用
5、gs_dump/gs_restore介绍和使用
6、gsql工具介绍和使用
7、Roach工具介绍和使用
8、从其他数据库中迁移数据 |
资源负载管理 |
1、资源负载管理的对象
2、内存管理
3、基于资源池的资源负载管理机制
4、开启和管理资源负载管理功能
5、并发管理和优先级调度
7、异常管理
8、检查资源负载状态 |
配套工具集的使用 |
1、Database Manager工具介绍、安装部署和主要功能列表
2、Data Studio工具介绍、安装部署和主要功能列表 |
SQL介绍和使用 |
1、SQL相关机制和原理
2、SQL语法和相关操作
3、利用EXPLAIN进行SQL调优 |
数据库表设计 |
1、数据库逻辑设计
2、存储模式
3、数据分布
4、表分区
5、索引 |
存储过程 |
1、数据类型介绍
2、数组介绍
3、申明语法
4、基本语句
5、动态语句
6、控制语句
7、其他语句
8、游标
9、高级包 |
数据库性能监控和调优 |
1、系统资源监控方式
2、性能相关视图
3、使用命令行监控集群性能
4、使用DM工具监控集群性能
5、LibrA的性能调优 |
应用程序开发指导 |
1、FusionInsight LibrA驱动介绍
2、ODBC应用程序开发
3、JDBC应用程序开发
4、基础开发规范 |
|