分类 大数据 下的文章

《推荐系统》基础知识

在信息系统领域里, 有两个堪称双子星的应用, 那便是搜索引擎以及推荐系统。 推荐系统与搜索引擎,有许许多多技术是重合的。那么其中区别在哪里呢? 搜索引擎是pull模式, 推荐系统是push模式。 搜索引擎是系统掌握主动权,而推荐系统则是用户掌握主动权。 搜索引擎是提供短时间的,不稳定的信息检索;而推荐系统则是提供更长时间的信息供给。 推荐系统曾经还有一个名字,叫做filtering sy...

继续阅读 »

Pandas常用知识点

Pandas用户指南 查看能多[翻译]: https://www.osgeo.cn/pandas/user_guide/index.html 查看更多[官方]: https://pandas.pydata.org/docs/user_guide/index.html 创建对象 Series 一维数据 class pandas.Series(data=None, index=None, d...

继续阅读 »

Cloudera Manager — hadoop集群软件分发和管理平台

apache hadoop及其生态组件安装管理的缺点 部署过程及其复杂,超过20个节点的时候,手动操作就非常累了。 各组件部署完成后,各自为政,没有统一化的管理界面。 各组件之间的依赖关系很复杂,一环扣一环,部署过程心累。 各组件之间没有统一的可视化界面,比如hdfs占用磁盘空间、IO、运行状况等。 优化等需要用户自己根据业务场景进行跳转,效率极低,不能自动分发到所有节点上。 为了解决上...

继续阅读 »

Hive与数据仓库

数据仓库概念 数据仓库是一个用于储存、分析、报告的数据系统,目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持。 数据仓库本身不生产任何数据,其数据来源于外部系统,同时数据仓库也不消费任何数据,其分析的结果开放给各外部应用使用。 Hive是什么 Hive是⼀个基于Hadoop的数据仓库⼯具,可以将结构化的数据文件映射成⼀张数据表,并可以使用类似SQL的方式来对数据文件进行读写以及...

继续阅读 »

Hadoop大数据入门教程

Hadoop可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点 特别适合写一次,读多次的场景 适合 大规模数据 流式数据(写一次,读多次) 商用硬件(一般硬件) 不适合 低延时的数据访问 大量的小文件 频繁修改文件(基本就是写1次) Hadoop版本和架构变迁 Hadoop 1.0版本 HDFS(分布式文件存储) MapReduce(资源管理和分布式数据处理) Hadoop...

继续阅读 »

大数据学习线路图

大数据入门指南 : https://github.com/heibaiying/BigData-Notes 大数据成神之路 : https://github.com/wangzhiwubigdata/God-Of-BigData 大数据学习指南 : https://github.com/MoRan1607/BigDataGuide 大数据面试题 : https://github.com...

继续阅读 »

新服务器的基本配置

新服务器的配置问题 这里以ubuntu18.06来演示其配置 设置linux服务器源 设置服务器语言(中文)/时间(UTC+8) # 语言设置 echo $LANG # 查看语言环境变量 locale # 查看语言环境 sudo apt install language-pack-zh-hans sudo update-locale LANG=zh_CN.UTF-8 sudo reboot ...

继续阅读 »