一、前言近几年大数据是异常的火爆,今天小编以java开发的身份来会会大数据,提高一下自己的层面!大数据技术也是有很多:
- Hadoop
- Spark
- Flink
Hadoop
, 存在一定的缺陷(循环迭代式数据流处理:多并行运行的数据可复用场景效率不行
) 。所以Spark
出来了,一匹黑马,8个月的时间从加入 Apache
,直接成为顶级项目?。?选择
Spark
的主要原因是:Spark和Hadoop的根本差异是多个作业之间的数据通信问题 : Spark多个作业之间数据通信是基于内存,而 Hadoop 是基于磁盘 。二、Spark介绍官网地址
Spark 是用于大规模数据处理的统一分析引擎
。它提供了 Scala、Java、Python 和 R 中的高级 API,以及支持用于数据分析的通用计算图的优化引擎 。它还支持一组丰富的高级工具,包括用于 SQL 和 DataFrames 的 Spark SQL、用于 Pandas 工作负载的 Spark 上的 Pandas API、用于机器学习的 MLlib、用于图形处理的 GraphX 和用于流处理的结构化流 。spark
是使用Scala
语言开发的,所以使用Scala
更好?。?三、下载安装1. Scala下载Scala官网
点击安装
文章插图
下载自己需要的版本
文章插图
点击自己需要的版本:小编这里下载的是
2.12.11
点击下载Windows二进制:
文章插图
慢的话可以使用迅雷下载!
2. 安装【Spark简单介绍,Windows下安装Scala+Hadoop+Spark运行环境,集成到IDEA中】安装就是下一步下一步 , 记住安装目录不要有空格,不然会报错的?。。?
3. 测试安装
win+R
输入cmd
:输入:scala
必须要有JDK环境哈,这个学大数据基本都有哈?。?文章插图
4. Hadoop下载一个小技巧:
Hadoop和Spark
版本需要一致,我们先去看看spark,他上面名字就带着和他配套的Hadoop版本?。?spark3.0对照
文章插图
得出我们下载Hadoop的版本为:
3.2
Hadoop下载地址
文章插图
5. 解压配置环境解压到即可使用,为了使用方便,要想jdk一样配置一下环境变量!
新建
HADOOP_HOME
值为安装目录:D:\software\hadoop-3.2.1
在Path
里添加:%HADOOP_HOME%\bin
cmd输入:
hadoop
:提示系统找不到指定的路径 。Error: JAVA_HOME is incorrectly set.
这里先不用管,咱们只需要Hadoop的环境即可!6. 下载SparkSpark官网
点击找到历史版本:
文章插图
点击下载:
文章插图
7. 解压环境配置新建:
SPARK_HOME
:D:\spark\spark-3.3.1-bin-hadoop3
Path
添加:%SPARK_HOME%\bin
8. 测试安装
win+R
输入cmd
:输入:spark-shell
文章插图
四、集成Idea1. 下载插件
scala
文章插图
2. 给项目添加Global Libraries打开配置:
文章插图
新增SDK
文章插图
下载你需要的版本:小编这里是:
2.12.11
文章插图
右击项目,添加上
scala
:文章插图
3. 导入依赖
<dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.12</artifactId><version>3.0.0</version></dependency>
4. 第一个程序推荐阅读
- OPPOReno6Z搭载什么处理器_OPPOReno6Z处理器介绍
- OPPOA93有哪些优缺点_OPPOA93优缺点介绍
- 怎么画羊简笔画四年级(画一个最简单的羊)
- Rock18框架之整体框架介绍
- 简笔画如何画漫画羊(简笔画羊的画法大全简单)
- 简单的绵羊怎么画(如何画简单的绵羊)
- 羊怎么画简单又漂亮(一步一步画小羊)
- 简笔画最简单的羊是怎么画的(羊全身怎么画简单漂亮)
- 怎么画简单好看的羊(100种画羊的方法)
- 桥牌的玩法及规则介绍(三分钟看懂桥牌)