2025-05-07

向量数据库与Faiss库

什么是FAISS FAISS（Facebook AI Similarity Search）是由Meta的基础人工智能研究团队开发的一个用于高效处理大规模密集向量相似度搜索和聚类任务的开源库。Faiss用C++编写，并支持Python接口。除此以外，对一些核心算法提供了GPU实现。 Faiss工作机制 Faiss的工作机制简单来说就是把我们自己的候选向量集封装成一个index数据库，并提供一个...

继续阅读 »

2023-12-04

还未有人评论

《推荐系统》基础知识

在信息系统领域里, 有两个堪称双子星的应用, 那便是搜索引擎以及推荐系统。推荐系统与搜索引擎，有许许多多技术是重合的。那么其中区别在哪里呢？搜索引擎是pull模式, 推荐系统是push模式。搜索引擎是系统掌握主动权，而推荐系统则是用户掌握主动权。搜索引擎是提供短时间的，不稳定的信息检索；而推荐系统则是提供更长时间的信息供给。推荐系统曾经还有一个名字，叫做filtering sy...

继续阅读 »

2023-02-16

还未有人评论

Pandas常用知识点

Pandas用户指南查看能多[翻译]: https://www.osgeo.cn/pandas/user_guide/index.html 查看更多[官方]: https://pandas.pydata.org/docs/user_guide/index.html 创建对象 Series 一维数据 class pandas.Series(data=None, index=None, d...

继续阅读 »

2022-05-18

还未有人评论

Flume1.9用户手册中文版

Flume1.9用户手册中文版在线文档： https://hlog.cc/docs/flume1.9/

继续阅读 »

2022-05-11

还未有人评论

Cloudera Manager — hadoop集群软件分发和管理平台

apache hadoop及其生态组件安装管理的缺点部署过程及其复杂，超过20个节点的时候，手动操作就非常累了。各组件部署完成后，各自为政，没有统一化的管理界面。各组件之间的依赖关系很复杂，一环扣一环，部署过程心累。各组件之间没有统一的可视化界面，比如hdfs占用磁盘空间、IO、运行状况等。优化等需要用户自己根据业务场景进行跳转，效率极低，不能自动分发到所有节点上。为了解决上...

继续阅读 »

2022-04-29

还未有人评论

Hive与数据仓库

数据仓库概念数据仓库是一个用于储存、分析、报告的数据系统，目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持。数据仓库本身不生产任何数据，其数据来源于外部系统，同时数据仓库也不消费任何数据，其分析的结果开放给各外部应用使用。 Hive是什么 Hive是⼀个基于Hadoop的数据仓库⼯具，可以将结构化的数据文件映射成⼀张数据表，并可以使用类似SQL的方式来对数据文件进行读写以及...

继续阅读 »

2022-04-27

还未有人评论

Hadoop大数据入门教程

Hadoop可运行于一般的商用服务器上，具有高容错、高可靠性、高扩展性等特点特别适合写一次，读多次的场景适合大规模数据流式数据（写一次，读多次）商用硬件（一般硬件）不适合低延时的数据访问大量的小文件频繁修改文件（基本就是写1次） Hadoop版本和架构变迁 Hadoop 1.0版本 HDFS(分布式文件存储) MapReduce(资源管理和分布式数据处理) Hadoop...

继续阅读 »

2022-04-24

还未有人评论

大数据学习线路图

大数据入门指南： https://github.com/heibaiying/BigData-Notes 大数据成神之路： https://github.com/wangzhiwubigdata/God-Of-BigData 大数据学习指南： https://github.com/MoRan1607/BigDataGuide 大数据面试题： https://github.com...

继续阅读 »

2021-10-19

还未有人评论

新服务器的基本配置

新服务器的配置问题这里以ubuntu18.06来演示其配置设置linux服务器源设置服务器语言(中文)/时间(UTC+8) # 语言设置 echo $LANG # 查看语言环境变量 locale # 查看语言环境 sudo apt install language-pack-zh-hans sudo update-locale LANG=zh_CN.UTF-8 sudo reboot ...

继续阅读 »

沉迷于学习，无法自拔^_^

分类大数据下的文章

向量数据库与Faiss库

《推荐系统》基础知识

Pandas常用知识点

Flume1.9用户手册中文版

Cloudera Manager — hadoop集群软件分发和管理平台

Hive与数据仓库

Hadoop大数据入门教程

大数据学习线路图

新服务器的基本配置

分类 大数据 下的文章

分类大数据下的文章