NoSQL数据库卡珊德拉(一)

  

,,随着互联网技术的发展,对数据存储的要求越来越高,在容量、安全性,备份,高可用性等方面都有很高的需求,很受欢迎的关系型数据库有,状态"置疑" MySQL, Orcale等,非关系型数据库有键,值型的复述,Memcached,文档型数据库有MongoDB, CouchDB,还有列簇类型的Hbase,卡桑德拉。种类繁多,要学习的知识点越来越多,我们在技术选型时,必须遵循“没有最好的技术,只有最适合的技术”。因为业务的需要有的折腾新的技术,接下来将初步研究卡桑德拉的过程做一下笔记,以便后期查阅。

,

,卡桑德拉具有能够处理大量数据的分布式架构。数据放置在具有多个复制因子的不同机器上,以获得高可用性,而无需担心单点故障。

官网:http://cassandra.apache.org/ ,,帮助文档:http://cassandra.apache.org/doc/latest/contactus.html 

目前主流的版本:<强>

<强> <强>

<强>,目前没发现

卡桑德拉关系数据库卡珊德拉用于处理非结构化数据.RDBMS用于处理结构化数据.Cassandra具有灵活的模式.RDBMS具有固定的模式。在卡桑德拉中,表是“嵌套键值对”列表(行x <代码> 列键<代码> x> x 列)在卡桑德拉中,<代码>用于是包含与应用对应的数据的最外层的容器。在RDBMS中,数据库是包含与应用程序对应的数据的最外层的容器。在卡桑德拉中,表或列族是键空间的实体。在RDBMS中,表是数据库的实体。在卡桑德拉中,行是一个复制单元。在RDBMS中,行是单条记录。在卡桑德拉中,列是一个存储单元。在RDBMS中,列是表示关系的属性,在卡桑德拉中使用集合来表示关系。在RDBMS中,有外键,连接等的概念。

,在MySQL等关系型数据库中,都有表和库的概念,不同类型的数据库中库的创建等方式都是不一样的,MySQL等关系型数据库必须先用创造语句创建数据库和表结构才能插入数据,而复述,中根据配置文件中数据库的个数,已经生成若干个数据库,只需要用选择切换即可.MongoDB又是特殊的一种特殊的数据库,里面没有表的概念是库和集合,在一定的情形下,不用自己创建,可以直接插入数据非常的便捷.Cassandra里面没有库的概念,里面是<代码>用于>

HBaseCassandraHBase是基于Bigtable(谷歌)卡桑德拉基于DynamoDB(亚马逊)。它最初是由前亚马逊工程师在Facebook开发的。这是卡桑德拉支持多数据中心的原因之一.HBase使用Hadoop基础架构(管理员,NameNode, HDFS)。部署Hadoop的组织必须具备Hadoop和HBase的知识.Cassandra与Hadoop分开开发,其基础工具和操作知识的要求与Hadoop不同,然而,对于分析,许多卡桑德拉部署使用卡桑德拉+风暴(使用管理员)和/或卡桑德拉+ Hadoop.HBase-Hadoop基础工具有几个由饲养员,名字节点,HBase大师和数据节点组成的“移动部件”,动物园管理员是集群的,自然是容错的。名称节点需要集群为容错.Cassandra使用单个节点类型。所有节点相等并执行所有功能。任何节点都可以作为协调器,确保没有Spof。添加风暴或Hadoop当然会增加基础设施的复杂性.HBase非常适合进行基于范围的扫描.Cassandra不支持基于范围的行扫描,这可能在某些用例中是有限制的.HBase提供跨越一个HBase集群的异步复制.Cassandra随机分区提供了跨越单行的行复制.HBase仅支持有序分区.Cassandra正式支持有序分区,但卡桑德拉没有生产用户使用有序分配,由于“热”点创建并操作困难等热点引起。由于有序分区,HBase可以轻松地水平放置,同时还支持Rowkey范围扫描。如果数据存储在卡桑德拉的列中以支持范围扫描,卡桑德拉中行大小的实际限制是10 <代码> 兆字节.HBase支持原子比较和设置,HBase支持一行内的事务.Cassandra不支持原子比较和设置.HBase不支持单行读取负载平衡,一行只有一个区域服务器一次提供.Cassandra将支持单行读取负载平衡.Bloom过滤器可用于HBase作为另一种形式的索引.Cassandra使用绽放过滤器进行键查找。触发器由HBase中的协处理器功能支持.Cassandra不支持协处理器功能

,,

<李>

eBay: 200 +结核病,400 + M写,100 + M读,应用场景:商品详情页上的社会信号,如像,想要的,自己的,收藏等;用户和商品的预感味道图;时间序列如移动通知,反作弊,soa,监控,日志服务等;

<李>

Netflix:包含288 + 96 + 60个实例的大规模集群,每110秒万的写操作,3个AWS EC2美国东部地区的区域自动复制副本,总计330年万写操作/秒;

NoSQL数据库卡珊德拉(一)