HBase 关系数据库操作数据文件

hbase基本操作过程总结 HBase合并storefile的原因是什么？在合并的过程中会做什么操作？

[更新]

日期：2023-07-27 15:19:22

分类：互联网

3200 阅读

hbase基本操作过程总结

HBase合并storefile的原因是什么？在合并的过程中会做什么操作？

HBase合并storefile的原因是什么？在合并的过程中会做什么操作？

合并storefile的过程称为Compaction过程，主要过程是合并由memStore的flush操作产生的部分或者所有StoreFile，主要有以下几个作用：
1）合并文件。由于flush的触发是针对所有memStore，所以缓存有些记录不多的memStore flush之后的结果是很多小文件。Compaction操作可以合并这些小文件，减小对StoreFile的维护成本。
2）清除删除、过期、多余版本的数据。由于HBase所有写入的数据都是不可修改的，所以对数据的修改操作就是添加一条新的记录，原数据仍保存在StoreFile中；而删除操作是添加一个删除的标识。Compaction操作可以整合这些信息，减少磁盘空间的占用。
3）提高读写数据的效率。

hbase怎样保证数据一致性，原子性？

即：对同一行的变更操作（包括针对一列/多列/多column family的操作），要么完全成功，要么完全失败，不会有其他状态
示例：
A客户端针对rowkey10的行发起操作：dim1:a 1 dim2:b1
B客户端针对rowkey10的行发起操作：dim1:a 2 dim2:b2
dim1、dim2为column family， a、b为column

Hbase和传统数据库的区别？

HBase与传统关系数据库的区别？
答：主要体现在以下几个方面：1.数据类型。关系数据库采用关系模型，具有丰富的数据类型和储存方式。HBase则采用了更加简单的数据模型，它把数据储存为未经解释的字符串，用户可以把不同格式的结构化数据和非结构化数据都序列化成字符串保存到HBase中，用户需要自己编写程序把字符串解析成不同的数据类型。
2.数据操作。关系数据库中包含了丰富的操作，如插入、删除、更新、查询等，其中会涉及复杂的多表连接，通常是借助多个表之间的主外键关联来实现的。HBase操作则不存在复杂的表与表之间的关系，只有简单的插入、查询、删除、清空等，因为HBase在设计上就避免了复杂的表与表之间的关系，通常只采用单表的主键查询，所以它无法实现像关系数据库中那样的表与表之间的连接操作。
3.存储模式。关系数据库是基于行模式存储的，元祖或行会被连续地存储在磁盘页中。在读取数据时，需要顺序扫描每个元组，然后从中筛选出查询所需要的属性。如果每个元组只有少量属性的值对于查询是有用的，那么基于行模式存储就会浪费许多磁盘空间和内存带宽。HBase是基于列存储的，每个列族都由几个文件保存，不同列族的文件是分离的，它的优点是：可以降低I/O开销，支持大量并发用户查询，因为仅需要处理可以回答这些查询的列，而不是处理与查询无关的大量数据行；同一个列族中的数据会被一起进行压缩，由于同一列族内的数据相似度较高，因此可以获得较高的数据压缩比。
4.数据索引。关系数据库通常可以针对不同列构建复杂的多个索引，以提高数据访问性能。与关系数据库不同的是，HBase只有一个索引——行键，通过巧妙的设计，HBase中所有访问方法，或者通过行键访问，或者通过行键扫描，从而使整个系统不会慢下来。由于HBase位于Hadoop框架之上，因此可以使用Hadoop MapReduce来快速、高效地生成索引表。
6.数据维护。在关系数据库中，更新操作会用最新的当前值去替换记录中原来的旧值，旧值被覆盖后就不会存在。而在HBase中执行更新操作时，并不会删除数据旧的版本，而是生成一个新的版本，旧有的版本仍旧保留。
7.可伸缩性。关系数据库很难实现横向扩展，纵向扩展的空间也比较有限。相反，HBase和BigTable这些分布式数据库就是为了实现灵活的水平扩展而开发的，因此能够轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩。
但是，相对于关系数据库来说，HBase也有自身的局限性，如HBase不支持事务，因此无法实现跨行的原子性。
注：本来也想来问这个问题，然后复制一下的。结果找不到，只好自己手打了，麻烦复制拿去用的同学点下赞呗。