大数据 – 蒋智昊的博客

Kettle（PDI ）连接MySQL8数据库

蒋智昊 ETL工具 / 大数据 2022年2月21日 2022年2月21日留下评论

1、将Kettle连接MySQL的驱动包mysql-connector-java-8.0.27.jar放入lib文件目录。例如C:\java\data-integration\lib。

2、修改C:\java\data-integration\simple-jndi目录下的jdbc.properties配置文件。加上如下内容（world为数据库名称，MYSQL8_DB为JNDI名称）：

MYSQL8_DB/type=javax.sql.DataSource

MYSQL8_DB/dri

Hadoop集群之HDFS和YARN启动和停止命令

蒋智昊 Hadoop / 大数据 2022年2月21日 2022年2月26日留下评论

3台linux虚拟机，主机名分别为hadoop01、hadoop02和hadoop03。

1、启动hdfs集群（使用hadoop的批量启动脚本）。

/home/hadoop/app/hadoop/sbin/start-dfs.sh

2、停止hdfs集群（使用hadoop的批量启动脚本）。

/home/hadoop/app/hadoop/sbin/stop-dfs.sh

3、启动单个进程。

/home/hadoop/app/hadoop/sbin/hadoop-dae

Hadoop在Linux下的集群搭建

蒋智昊 Hadoop / 大数据 2022年2月20日 2022年2月20日留下评论

1、Hadoop。

tar -zxvf hadoop-2.9.1.tar.gz

ln -s hadoop-2.9.1 hadoop

cd home/hadoop/app/hadoop/etc/hadoop

2、修改配置文件。

（1）hadoop-env.sh。主要设置 export JAVA_HOME=/home/hadoop/app/jdk

#

# Licensed to the Apache Software Foundation (ASF) under one

Kettle（PDI）一款开源etl数据抽取工具

蒋智昊 ETL工具 / 大数据 2022年2月19日 2022年2月21日留下评论

官网地址：https://sourceforge.net/projects/pentaho/files/

Spoon：允许使用图形化界面实现ETL数据转换过程。

Hue一款大数据 Web工具

蒋智昊 Hue / 大数据 2022年2月13日 2022年2月13日留下评论

Hue 是 Cloudera 的大数据 Web 工具。

官方访问网站: http://gethue.com/

GitHub: https://github.com/cloudera/hue

下载地址: http://archive.cloudera.com/cdh5/cdh/5/

演示环境：https://demo.gethue.com/hue/accounts/login?next=/

阿里云数据湖构建 Data Lake Formation

蒋智昊 大数据 / 数据湖 2022年2月1日 2022年6月10日留下评论

数据湖是一个集中式存储库，可存储任意规模结构化和非结构化数据，支持大数据和AI计算。数据湖构建（Data Lake Formation，DLF）作为云原生数据湖架构核心组成部分，帮助用户快速地构建云原生数据湖解决方案。数据湖构建提供湖上元数据统一管理、企业级权限控制，并无缝对接多种计算引擎，打破数据孤岛，洞察业务价值。

1、开源生态构建数据湖

用户已经基于阿里云开源大数据生态系统（E-MapReduce，实时计算Flink，DLA等产品）来构建自己的数据处理分析平台，而在数据量飞速膨胀的

腾讯云数据湖构建 Data Lake

蒋智昊 大数据 / 数据湖 2022年2月1日 2022年6月10日留下评论

数据湖解决方案以 COS 为数据湖底座，支持多种格式数据海量存储；通过数据湖加速器 GooseFS 无缝对接各类计算和机器学习平台，打破数据孤岛。

多数据源支持：可对接多种数据源，允许存储任意规模的结构化、半结构化、非结构化数据，同时可以按原样存储数据。

计算弹性：通过计算与存储分离，实现计算资源的弹性伸缩，满足客户对计算资源的灵活调度。

成本最优：为集中式存储池，可快速扩展或缩减存储资源，实现存储数据冷热分层，降低大数据分析与机器学习存储成本。

服务集成：无缝支持腾讯云各类计算

华为云数据湖构建 Data Lake

蒋智昊 大数据 / 数据湖 2022年2月1日 2022年6月10日留下评论

数据湖探索（Data Lake Insight，简称DLI）是完全兼容Apache Spark、Apache Flink、openLooKeng（基于Presto）生态，提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。企业使用标准SQL、Spark、Flink程序就可轻松完成多数据源的联合计算分析，挖掘和探索数据价值。

Presto一个分布式SQL查询引擎

蒋智昊 Presto / 大数据 2020年11月1日 2020年12月29日留下评论

1、官网。https://prestodb.io/

2、文档。https://prestodb.io/docs/current/

3、介绍。

Presto查询引擎是一个Master-Slave的架构，由一个Coordinator节点，一个Discovery Server节点，多个Worker节点组成，Discovery Server通常内嵌于Coordinator节点中。Coordinator负责解析SQL语句，生成执行计划，分发执行任务给Worker节点执行。Worke

MapReduced一种分布式计算模型

蒋智昊 MapReduced / 大数据 2020年11月1日 2020年12月29日留下评论

MapReduce是面向大数据并行处理的计算模型、框架和平台，它隐含了以下三层含义：

1）MapReduce是一个基于集群的高性能并行计算平台（Cluster Infrastructure）。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。

2）MapReduce是一个并行计算与运行软件框架（Software Framework）。它提供了一个庞大但设计精良的并行计算软件框架，能自动完成计算任务的并行化处理，自动划分计算数据和计算任务，在集群节

Kylin一个分布式的分析型数据仓库

蒋智昊 Kylin / 大数据 2020年11月1日 2020年12月29日留下评论

1、官网。http://kylin.apache.org/

2、文档。http://kylin.apache.org/cn/docs/

3、介绍。

Apache Kylin™是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。

Apache Kylin™ 令使用者仅需三步，即可实现超大数据集上的亚秒级查询。

1 、定义数

Impala一个新型查询系统

蒋智昊 Impala / 大数据 2020年11月1日 2020年12月29日留下评论

1、官网。http://impala.apache.org/

2、文档。http://impala.apache.org/overview.html

3、介绍。

优点：

1、Impala不需要把中间结果写入磁盘，省掉了大量的I/O开销。

2、省掉了MapReduce作业启动的开销。MapReduce启动task的速度很慢（默认每个心跳间隔是3秒钟），Impala直接通过相应的服务进程来进行作业调度，速度快了很多。

3、Impala完全抛弃了MapReduce这

Hive一个数据仓库工具

蒋智昊 Hive / 大数据 2020年11月1日 2020年12月29日留下评论

1、官网。https://hive.apache.org/

2、文档。https://cwiki.apache.org/confluence/display/Hive/Home

3、介绍。

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是

HBase一个分布式的、面向列的开源数据库

蒋智昊 HBase / 大数据 2020年11月1日 2020年12月29日留下评论

1、官网。http://hbase.apache.org/

2、文档。http://hbase.apache.org/book.html

3、介绍。

HBase是一种“NoSQL”数据库。“NoSQL”是一个通用术语，意思是数据库不是支持SQL作为其主要访问语言的RDBMS，但是有许多类型的NoSQL数据库：BerkeleyDB是本地NoSQL数据库的一个例子，而HBase是一个分布式数据库。从技术上讲，HBase实际上更像是一个“数据存储”而不是“数据库”，因为它缺少在RDB