大数据
海量数据处理之Top K问题
在海量数据处理中,经常会遇到的一类问题就是在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常被成为top K问题,例如在搜索引擎中,统计最热门的10的查询词,在歌 【阅读更多...】
海量数据处理之重复问题
在海量数据中查找重复出现的元素或者去除重复元素是经常遇到的大数据领域问题,针对此类问题,可以采用位图法来实现。例如,已知某文件中包含一些电话号码,每个号码为8位数字,统计不同号码的个数。 本题最好的解 【阅读更多...】
海量数据处理之排序问题
海量数据处理中一类常见的问题就是排序问题,即对海量数据进行排序。例如,一个文件中有9亿条不重复的9位整数,对这个文件中的数字进行排序。 针对这个问题,最容易想到的方法是将所有数据导入内存中,然后使用常 【阅读更多...】
Hive简介及安装
一、Hive是什么 hive是基于hadoop的数据仓库。 二、Hive安装 安装Hive的前提是安装了hadoop和Mysql,这里不再赘述 。很简单的,网上教程很多。本文仅演示单机安装。 1、下载 【阅读更多...】
Hdfs详解
一、Hdfs简介 hdfs是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件,并且是分布式的,由很多服务器联合起来实现其功能,集群中的服务器各自负责角色;   重要特征:   1、H 【阅读更多...】
Hadoop集群搭建
一、准备Linux环境(虚拟机) 1、先将虚拟机的网络模式选为NAT 2、修改主机名 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=hdp-nod 【阅读更多...】
Hadoop简介
一、hadoop介绍 HADOOP是apache旗下的一套开源软件平台 HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 HADOOP的核心组件有 HDFS( 【阅读更多...】