分类 大数据 下的文章

Cloudera Manager — hadoop集群软件分发和管理平台

apache hadoop及其生态组件安装管理的缺点 部署过程及其复杂,超过20个节点的时候,手动操作就非常累了。 各组件部署完成后,各自为政,没有统一化的管理界面。 各组件之间的依赖关系很复杂,一环扣一环,部署过程心累。 各组件之间没有统一的可视化界面,比如hdfs占用磁盘空间、IO、运行状况等。 优化等需要用户自己根据业务场景进行跳转,效率极低,不能自动分发到所有节点上。 为了解决上...

继续阅读 »

Hive与数据仓库

数据仓库概念 数据仓库是一个用于储存、分析、报告的数据系统,目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持。 数据仓库本身不生产任何数据,其数据来源于外部系统,同时数据仓库也不消费任何数据,其分析的结果开放给各外部应用使用。 Hive是什么 Hive是⼀个基于Hadoop的数据仓库⼯具,可以将结构化的数据文件映射成⼀张数据表,并可以使用类似SQL的方式来对数据文件进行读写以及...

继续阅读 »

Hadoop大数据入门教程

Hadoop可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点 特别适合写一次,读多次的场景 适合 大规模数据 流式数据(写一次,读多次) 商用硬件(一般硬件) 不适合 低延时的数据访问 大量的小文件 频繁修改文件(基本就是写1次) Hadoop版本和架构变迁 Hadoop 1.0版本 HDFS(分布式文件存储) MapReduce(资源管理和分布式数据处理) Hadoop...

继续阅读 »

大数据学习线路图

大数据入门指南 : https://github.com/heibaiying/BigData-Notes 大数据成神之路 : https://github.com/wangzhiwubigdata/God-Of-BigData 大数据学习指南 : https://github.com/MoRan1607/BigDataGuide 大数据面试题 : https://github.com...

继续阅读 »

新服务器的基本配置

新服务器的配置问题 这里以ubuntu18.06来演示其配置 设置linux服务器源 设置服务器语言(中文)/时间(UTC+8) # 语言设置 echo $LANG # 查看语言环境变量 locale # 查看语言环境 sudo apt install language-pack-zh-hans sudo update-locale LANG=zh_CN.UTF-8 sudo reboot ...

继续阅读 »