标签 hive 下的文章

基于Hive的离线数据仓库项目

项目的架构 架构图 架构图说明 Zookeeper:集群管理工具,主要服务于hadoop高可用,以及其他基于zookeeper管理的大数据软件 HDFS:大数据最终数据的储存 YARN:负责资源的分配 HIVE:用于编写SQL进行数据分析 Oozie:主要负责自动化定时调度 Sqoop:用户关系数据库的导入导出 Flume:日志文件的导入导出 HUE:提升hadoop的用户体验,可以比较...

继续阅读 »

Hive与数据仓库

数据仓库概念 数据仓库是一个用于储存、分析、报告的数据系统,目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持。 数据仓库本身不生产任何数据,其数据来源于外部系统,同时数据仓库也不消费任何数据,其分析的结果开放给各外部应用使用。 Hive是什么 Hive是⼀个基于Hadoop的数据仓库⼯具,可以将结构化的数据文件映射成⼀张数据表,并可以使用类似SQL的方式来对数据文件进行读写以及...

继续阅读 »