Presto一个分布式SQL查询引擎

Presto一个分布式SQL查询引擎

1、官网。https://prestodb.io/

2、文档。https://prestodb.io/docs/current/

3、介绍。

Presto查询引擎是一个Master-Slave的架构,由一个Coordinator节点,一个Discovery Server节点,多个Worker节点组成,Discovery Server通常内嵌于Coordinator节点中。Coordinator负责解析SQL语句,生成执行计划,分发执行任务给Worker节点执行。Worke [阅读全文]

MapReduced一种分布式计算模型

MapReduced一种分布式计算模型

MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义:

1)MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。

2)MapReduce是一个并行计算与运行软件框架(Software Framework)。它提供了一个庞大但设计精良的并行计算软件框架,能自动完成计算任务的并行化处理,自动划分计算数据和计算任务,在集群节 [阅读全文]

Kylin一个分布式的分析型数据仓库

Kylin一个分布式的分析型数据仓库

1、官网。http://kylin.apache.org/

2、文档。http://kylin.apache.org/cn/docs/

3、介绍。

Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。

Apache Kylin™ 令使用者仅需三步,即可实现超大数据集上的亚秒级查询。

1 、定义数 [阅读全文]

Impala一个新型查询系统

Impala一个新型查询系统

1、官网。http://impala.apache.org/

2、文档。http://impala.apache.org/overview.html

3、介绍。

优点:

1、Impala不需要把中间结果写入磁盘,省掉了大量的I/O开销。

2、省掉了MapReduce作业启动的开销。MapReduce启动task的速度很慢(默认每个心跳间隔是3秒钟),Impala直接通过相应的服务进程来进行作业调度,速度快了很多。

3、Impala完全抛弃了MapReduce这 [阅读全文]

Hive一个数据仓库工具

1、官网。https://hive.apache.org/

2、文档。https://cwiki.apache.org/confluence/display/Hive/Home

3、介绍。

hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是 [阅读全文]

HBase一个分布式的、面向列的开源数据库

1、官网。http://hbase.apache.org/

2、文档。http://hbase.apache.org/book.html

3、介绍。

HBase是一种“NoSQL”数据库。“NoSQL”是一个通用术语,意思是数据库不是支持SQL作为其主要访问语言的RDBMS,但是有许多类型的NoSQL数据库:BerkeleyDB是本地NoSQL数据库的一个例子,而HBase是一个分布式数据库。从技术上讲,HBase实际上更像是一个“数据存储”而不是“数据库”,因为它缺少在RDB [阅读全文]

Hadoop一个分布式文件系统HDFS

Hadoop一个分布式文件系统HDFS

1、官网。http://hadoop.apache.org/

2、文档。https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html

3、介绍。

流式数据访问

运行在HDFS上的应用和普通的应用不同,需要流式访问它们的数据集。HDFS的设计中更多的考虑到了数据批处理,而不是用户交互处理。比之数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。POS [阅读全文]

Flink一个框架和分布式处理引擎

Flink一个框架和分布式处理引擎

1、官网。https://flink.apache.org/

2、文档。https://flink.apache.org/zh/flink-architecture.html

3、介绍。

Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。

接下来,我们来介绍一下 Flink 架构中的重要方面。

处理无界和有界数据

任何类型的数据都可以形成一种事 [阅读全文]

Druid一个实时分析型数据库

1、官网。https://druid.apache.org/

2、文档。https://druid.apache.org/docs/latest/design/

3、介绍。

Druid是什么

Apache Druid是一个实时分析型数据库,旨在对大型数据集进行快速的查询分析("OLAP"查询)。Druid最常被当做数据库来用以支持实时摄取、高性能查询和高稳定运行的应用场景,同时,Druid也通常被用来助力分析型应用的图形化界面,或者当做需要快速聚合的高并发后端API,Dru [阅读全文]

ClickHouse一个用于联机分析(OLAP)的列式数据库管理系统

ClickHouse一个用于联机分析(OLAP)的列式数据库管理系统

1、官网。https://clickhouse.tech/

2、文档。https://clickhouse.tech/docs/zh/

3、体验平台。https://play.clickhouse.tech/?file=welcome

4、介绍。

ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。

在传统的行式数据库系统中,数据按如下顺序存储:

Row

WatchID

JavaEnable

Title [阅读全文]