Kettle(PDI )连接MySQL8数据库

Kettle(PDI )连接MySQL8数据库

1、将Kettle连接MySQL的驱动包mysql-connector-java-8.0.27.jar放入lib文件目录。例如C:\java\data-integration\lib。

2、修改C:\java\data-integration\simple-jndi目录下的jdbc.properties配置文件。加上如下内容(world为数据库名称,MYSQL8_DB为JNDI名称):

MYSQL8_DB/type=javax.sql.DataSource

MYSQL8_DB/dri [阅读全文]

Hadoop集群之HDFS和YARN启动和停止命令

Hadoop集群之HDFS和YARN启动和停止命令

3台linux虚拟机,主机名分别为hadoop01、hadoop02和hadoop03。

1、启动hdfs集群(使用hadoop的批量启动脚本)。

/home/hadoop/app/hadoop/sbin/start-dfs.sh

2、停止hdfs集群(使用hadoop的批量启动脚本)。

/home/hadoop/app/hadoop/sbin/stop-dfs.sh

3、启动单个进程。

/home/hadoop/app/hadoop/sbin/hadoop-dae [阅读全文]

Presto一个分布式SQL查询引擎

Presto一个分布式SQL查询引擎

1、官网。https://prestodb.io/

2、文档。https://prestodb.io/docs/current/

3、介绍。

Presto查询引擎是一个Master-Slave的架构,由一个Coordinator节点,一个Discovery Server节点,多个Worker节点组成,Discovery Server通常内嵌于Coordinator节点中。Coordinator负责解析SQL语句,生成执行计划,分发执行任务给Worker节点执行。Worke [阅读全文]

MapReduced一种分布式计算模型

MapReduced一种分布式计算模型

MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义:

1)MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。

2)MapReduce是一个并行计算与运行软件框架(Software Framework)。它提供了一个庞大但设计精良的并行计算软件框架,能自动完成计算任务的并行化处理,自动划分计算数据和计算任务,在集群节 [阅读全文]

Kylin一个分布式的分析型数据仓库

Kylin一个分布式的分析型数据仓库

1、官网。http://kylin.apache.org/

2、文档。http://kylin.apache.org/cn/docs/

3、介绍。

Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。

Apache Kylin™ 令使用者仅需三步,即可实现超大数据集上的亚秒级查询。

1 、定义数 [阅读全文]

Impala一个新型查询系统

Impala一个新型查询系统

1、官网。http://impala.apache.org/

2、文档。http://impala.apache.org/overview.html

3、介绍。

优点:

1、Impala不需要把中间结果写入磁盘,省掉了大量的I/O开销。

2、省掉了MapReduce作业启动的开销。MapReduce启动task的速度很慢(默认每个心跳间隔是3秒钟),Impala直接通过相应的服务进程来进行作业调度,速度快了很多。

3、Impala完全抛弃了MapReduce这 [阅读全文]

Hive一个数据仓库工具

1、官网。https://hive.apache.org/

2、文档。https://cwiki.apache.org/confluence/display/Hive/Home

3、介绍。

hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是 [阅读全文]