索鸟网

  1. 首页
  2. HBase入门

HBase入门

简介:从基础概念到实战操作,目标是让零基础的学习者或者是菜鸟级的初学者都能够快速的入门。

简介:从基础概念到实战操作,目标是让零基础的学习者或者是菜鸟级的初学者都能够快速的入门。

  • HBase 深入浅出

    HBase 深入浅出 HBase 在大数据生态圈中的位置 提到大数据的存储,大多数人首先联想到的是 Hadoop 和 Hadoop 中的 HDFS 模块。大家熟知的 Spark、以及 Hadoop 的 MapReduce,可以理解为一种计算框架。而 HDFS,我们可以认为是为计算框架服务的存储层。因此不管是 Spark 还是 MapReduce,都需要使
  • Hbase 集群搭建

    教程基于:参考:Hadoop 2.7.3 集群搭建及配置 hbase 集群依赖 hdfs ,所以需要先搭建 hadoop 环境。 搭建 hdfs 环境(hadoop) 参考:Hadoop 2.7.3 集群搭建及配置 搭建 ZooKeeper hbase 还需要使用到 ZooKeeper, 虽然 hbase 自身会起 zk, 但生产一般没人这么用, 由于是
  • Spark通过bulkLoad对HBase快速导入

    项目中有需求将Hive的表存储在HBase中。通过Spark访问Hive表,通过一定ETL过程生成HFile,并通知HBase进行bulk load。实测这是导数最快的手段。 环境: CDH : 5.7.0 Hadoop : 2.6.0-cdh5.7.0 Spark : 1.6.0-cdh5.7.0 Hive : 1.1.0-cdh5.7.0 HBase
  • hbase高可用集群部署(cdh)

    一、概要    本文记录hbase高可用集群部署过程,在部署hbase之前需要事先部署好hadoop集群,因为hbase的数据需要存放在hdfs上,hadoop集群的部署后续会有一篇文章记录,本文假设hadoop集群已经部署好,分布式hbase集群需要依赖zk,并且zk可以是hbase自己托管的也可以是我们自己单独搭建的,这里我们使用自己单
  • 大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍

       Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YAR
  • HBase在阿里搜索中的应用实践

    李钰,花名绝顶,WOTA全球架构与运维技术峰会分享嘉宾,现任阿里巴巴搜索事业部高级技术专家,HBase开源社区PMC &   committer。开源技术爱好者,主要关注分布式系统设计、大数据基础平台建设等领域。连续3年基于HBase/HDFS设计和开发存储系统应对双十一访问压力,具备丰富的大规模集群生产实战经验。HBase作为淘宝全网索引构建以及在线机器学习平
  • hbase中的位图索引--布隆过滤器

       在hbase中,读业务是非常频繁的。很多操作都是客户端根据meta表定位到具体的regionserver然后再查询region中的具体的数据。   但是现在问题来了,一个region由一个memstore以及多个filestore组成,memstore类似缓存在服务器内存中,可以提高插入的效率,当memstore达到一定大小(由hba
  • (第6.1篇)大数据发展背后的强力推手——HBase分布式存储系统

    前面的文章我们介绍了HDFS文件系统、Mapreduce计算框架、Zookeeper协作服务今天我们介绍可在廉价PC Server上搭建起大规模结构化存储集群的分布式存储系统――HBase。 HBaseHBase C Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存