1、maven依赖。
2、测试代码。
package spark;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
import java.util.Properties;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.ap [阅读全文]
企业信息化建设
1、maven依赖。
2、测试代码。
package spark;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
import java.util.Properties;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.ap [阅读全文]
1、参数详解。
参数名
参数说明
--master
master 的地址,提交任务到哪里执行,例如 spark://host:port, yarn, local
--deploy-mode
在本地 (client) 启动 driver 或在 cluster 上启动,默认是 client
--class
应用程序的主类,仅针对 java 或 scala 应用
--name
应用程序的名称
1、准备文件 C:\java\test.txt
10001,jiang1,11,suzhou1
10002,jiang2,12,suzhou2
10003,jiang3,13,suzhou3
10004,jiang4,14,suzhou4
10005,jiang5,15,suzhou5
2、启动spark。
spark-shell
3、在spark中测试。
spark.read.textFile("file:///c:/java/test.txt").show [阅读全文]
1、如果遇到“No module named pyspark”,则需要将py4j、pyspark拷贝至Python37\Lib\site-packages。
将D:\bigdata\spark-2.3.2-bin-hadoop2.7\python\lib目录下的
py4j-0.10.7-src.zip和pyspark.zip
解压缩、拷贝至C:\Program Files\Python37\Lib\site-packages目录下。
2、启动spark-shell
D: [阅读全文]
spark环境搭建
一、jdk8安装与配置
1、下载。jdk-8u181-linux-x64.tar.gz。
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
2、配置环境变量。
系统变量->新建->变量名:JAVA_HOME 变量值:D:\j2ee\jdk
系统变量->新建->变量名:CLASSPATH 变量值:.;%JAVA_H [阅读全文]