一:HDFS
1.HDFS上传数据,会将文件切分成指定大小的数据块,并以多副本的数据块存储在机器上.
2.
part0是指 副本有2个而且1,2有两个副本
二.YARN
1.负责整个集群的管理和调度
YARN的特点
扩展性,容错性,多框架资源统一调度,支持多种不同的框架同时运行
三.mapReduce
特点:扩展性,容错性,海量数据的离线处理
wordcount单词统计操作
先输入-在分割-在map看在一个块中出现了几次-shuffing洗牌在将相同的数据放在一起-Reducing统计-最后统计
四:hadoop优势
1.可以横向扩展,进行计算
2.存储在廉价的机器上面降低成本
3.成熟的生态圈
五:
1.hadoop生态系统开源社区活跃
2.囊括了大数据体系的方方面面
3.成熟的生态圈
六:
hadoop选型
apache hadoop(不推荐,依赖和冲突太多)
CDH(推荐,安装方便,cdh如果版本相同的话基本没有冲突,cm(安装集群的框架不开源)):
HDP(国内的话不经常用但是比apache用的多缺点(安装和升级比较费劲))
七:
hadoop的使用案例
案例一:hadoop之消费大数据(电商用例)
根据历时用例来预测用户的消费情况
案例二:零售大数据'