在 Ubuntu 20.04 上安装 Apache Spark 教程

Clash 小火箭 v2ray节点购买

好用的梯子,海外网络,快速稳定

Google

本文介绍一下如何在 Ubuntu 20.04 Linux 操作系统上安装 Apache Spark 教程,包括安装 Java、安装 Apache Spark、以及通过 Apache Spark Web 界面访问的教程。Apache Spark 是一个用于大规模数据处理的开源、通用、多语言分析引擎。通过利用集群中的 RAM 对大量数据执行快速数据查询,它可以在单个和多个节点上工作。它提供批处理数据处理和实时流式传输,并支持 Python、SQL、Scala、Java 或 R 等语言的高级 API。该框架提供内存技术,使其能够将查询和数据直接存储在集群节点的主存储器。

Apache Spark 前几年在学术界是非常火的,最近几年可能不是那么火了,因为能研究的问题似乎都已经被研究的差不多了,最近都开始研究新的分布式框架了。

一、安装 Java

更新系统包:

$ sudo apt update

安装 Java:

$ sudo apt install default-jdk -y

确认 Java 安装:

$ java -version

二、安装 Apache Spark

安装必要的包:

$ sudo apt install curl mlocate git scala -y

下载 Apache Spark,最新版可以在这里下载:https://spark.apache.org/downloads.html

$ curl -O https://archive.apache.org/dist/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz

解压 Spark 安装包:

$ sudo tar xvf spark-3.2.0-bin-hadoop3.2.tgz

创建安装目录:

$ sudo mkdir /opt/spark

移动文件到安装目录:

$ sudo mv spark-3.2.0-bin-hadoop3.2/* /opt/spark

修改目录权限:

$ sudo chmod -R 777 /opt/spark

编辑 bashrc 配置文件,将 Apache Spark 安装目录添加到系统路径:

$ sudo nano ~/.bashrc

将下面两行代码添加到文件最后:

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

保存文件并使之生效:

$ source ~/.bashrc

启动独立主服务器:

$ start-master.sh

通过访问 http://ServerIPaddress:8080 从仪表板中查找您的服务器主机名。它可能看起来像这样:

URL: spark://my-server-development:7077

启动 Apache Spark 工作进程。使用您的服务器主机名更改 spark://ubuntu:7077

$ start-slave.sh spark://ubuntu:7077

三、访问 Apache Spark Web 界面

转到浏览器地址栏以访问 Web 界面并输入 http://ServerIPaddress:8080 以访问 Web 安装向导。例如:

http://192.0.2.10:8080

至此,您已在服务器上安装了 Apache Spark。您现在可以访问主仪表板,开始管理您的集群。

四、搬瓦工新手教程和优惠套餐

搬瓦工推荐方案

搬瓦工实时库存:https://stock.bwg.net

温馨提醒 如果您有选择困难症,直接选中间的 CN2 GIA-E方案,季付 $49.99,多达 12 个机房任意切换
方案内存CPU硬盘流量/月带宽推荐机房价格购买
KVM
(最便宜)
1GB2核20GB1TB1GbpsDC2 AO
DC8 ZNET
$49.99/年购买
KVM2GB3核40GB2TB1Gbps$52.99/半年
$99.99/年
购买
CN2 GIA-E
(最推荐)
1GB2核20GB1TB2.5Gbps美国 DC6 CN2 GIA-E
美国 DC9 CN2 GIA
日本软银 JPOS_1
荷兰 EUNL_9
美国圣何塞 CN2 GIA
加拿大 CN2 GIA
$49.99/季度
$169.99/年
购买
CN2 GIA-E2GB3核40GB2TB2.5Gbps$89.99/季度
$299.99/年
购买
HK
(高端首选)
2GB2核40GB0.5TB1Gbps中国香港 CN2 GIA
日本东京 CN2 GIA
日本大阪 CN2 GIA
新加坡 CN2 GIA
$89.99/月
$899.99/年
购买
HK4GB4核80GB1TB1Gbps$155.99/月
$1559.99/年
购买
OSAKA2GB2核40GB0.5TB1.5Gbps日本大阪 CN2 GIA$49.99/月
$499.99/年
购买
OSAKA4GB4核80GB1TB1.5Gbps$86.99/月
$869.99/年
购买
搬瓦工优惠码:BWHCGLUKKB搬瓦工购买教程:《2025 年最新搬瓦工购买教程和支付宝支付教程

选择建议:

  • 入门:洛杉矶 CN2 套餐,目前最便宜,可选 CN2 GT 机房,入门之选。
  • 推荐:洛杉矶 CN2 GIA-E 套餐,速度超快,可选机房多(DC6、DC9、日本软银、荷兰联通等),性价比最高。
  • 高端:香港 CN2 GIA 套餐,价格较高,但是无可挑剔。东京 CN2 GIA 套餐也是非常不错的高端选择。

搬瓦工新手教程

  1. 搬瓦工新手入门:《搬瓦工新手入门完全指南:方案推荐、机房选择、优惠码和购买教程(推荐阅读)
  2. 搬瓦工购买教程:《2022 年最新搬瓦工购买教程和支付宝支付教程
  3. 搬瓦工优惠码:BWHCGLUKKB
  4. 搬瓦工补货通知:《欢迎订阅搬瓦工补货通知(补货提醒)/ 加入搬瓦工交流群
  5. 搬瓦工方案推荐:《搬瓦工高性价比 VPS 推荐:目前哪款方案最值得买?

搬瓦工优惠通知

目前搬瓦工一共有两个限量版套餐,分别是 DC9 CN2 GIA 限量版和 DC6 CN2 GIA-E 限量版,这两个套餐价格分别为 79.99 和 89.99 美元/年,目前都是处于缺货状态,所以如果需要购买的话可以关注下面的补货通知,有货了会第一时间通知的。

未经允许不得转载:Bandwagonhost中文网 » 在 Ubuntu 20.04 上安装 Apache Spark 教程