Как да

Инсталирайте Apache Spark на Ubuntu 20.18.04.04 & Debian 10/9

Инсталирайте Apache Spark на Ubuntu 20.18.04.04 & Debian 10/9

Добре дошли в нашето ръководство за това как да инсталирате Apache Spark на Ubuntu 20.18.04.04 & Debian 9/8/10. Apache Spark е разпределена рамка за клъстерни изчисления с общо предназначение с отворен код. Това е бърза унифицирана аналитична машина, използвана за обработка на големи данни и машинно обучение.

Spark предоставя API на високо ниво в Java, Scala, Python и R и оптимизиран двигател, който поддържа общи графики за изпълнение. Той също така поддържа богат набор от инструменти на по-високо ниво, включително Spark SQL за SQL и структурирана обработка на данни, MLlib за машинно обучение, GraphX ​​за обработка на графики и Spark Streaming.

Инсталирайте Apache Spark на Ubuntu 20.18.04.04 / Debian 9/8/10

Преди да инсталираме Apache Spark на Ubuntu / Debian, нека актуализираме нашите системни пакети.

sudo apt актуализация
sudo apt -y ъпгрейд

Помислете за рестартиране на системата, след като се изисква надстройка.

[-f / var / run / reboot-required] && sudo рестартиране -f

Сега използвайте стъпките, показани по-долу, за да инсталирате Spark на Ubuntu 18.04 / Debian 9.

Стъпка 1: Инсталирайте Java

Apache Spark изисква Java да се стартира, нека се уверим, че Java е инсталирана на нашата система Ubuntu / Debian.

За системна Java по подразбиране:

sudo apt инсталиране curl mlocate по подразбиране-jdk -y

Проверете версията на Java с помощта на командата:

$ java -version openjdk версия "11.0.10 "2021-01-19 OpenJDK Runtime Environment (компилация 11.0.10 + 9-Ubuntu-0ubuntu1.20.04) OpenJDK 64-битов сървър VM (компилация 11.0.10 + 9-Ubuntu-0ubuntu1.20.04, смесен режим, споделяне)

За изчезнали add-apt-repository команда, проверете как да инсталирате add-apt-repository на Debian / Ubuntu

Стъпка 2: Изтеглете Apache Spark

Изтеглете последната версия на Apache Spark от страницата за изтегляне. От тази актуализация това е 2.4.5.

curl -O https: // archive.апаш.org / dist / искра / искра-3.1.1 / искра-3.1.1-бин-хадооп3.2.tgz

Извадете таблото Spark.

tar xvf spark-3.1.1-бин-хадооп3.2.tgz

Преместете папката Spark, създадена след извличане, в директорията / opt /.

sudo mv spark-3.1.1-бин-хадооп3.2 / / opt / искра 

Задайте среда Spark

Отворете вашия конфигурационен файл на bashrc.

vim ~ /.bashrc

Добавяне:

износ SPARK_HOME = / opt / искра PATH = $ PATH: $ SPARK_HOME / bin: $ SPARK_HOME / sbin

Активирайте промените.

източник ~ /.bashrc

Стъпка 3: Стартирайте самостоятелен главен сървър

Вече можете да стартирате самостоятелен главен сървър с помощта на старт-майстор.ш команда.

$ start-master.ш стартиращ орг.апаш.искра.разполагане.майстор.Master, влизане в / opt / spark / logs / spark-root-org.апаш.искра.разполагане.майстор.Master-1-ubuntu.навън

Процесът ще бъде прослушван на TCP порт 8080.

$ sudo ss -tunelp | grep 8080 tcp СЛУШАЙТЕ 0 1 *: 8080 *: * потребители: (("" java ", pid = 8033, fd = 238)) ino: 41613 sk: 5 v6 само: 0 <-> 

Уеб потребителският интерфейс изглежда по-долу.

Моят Spark URL е искра: // ubuntu: 7077.

Стъпка 4: Стартиране на процеса на Spark Worker

Старт-робът.Командата sh се използва за стартиране на Spark Worker Process.

$ старт-роб.sh искра: // ubuntu: 7077 начална орг.апаш.искра.разполагане.работник.Работник, влизане в / opt / spark / logs / spark-root-org.апаш.искра.разполагане.работник.Worker-1-ubuntu.навън

Ако нямате скрипта във вашия $ PATH, можете първо да го намерите.

$ sudo updatedb $ намерете start-slave.ш / opt / spark / sbin / start-slave.ш

Можете също да използвате абсолютния път за стартиране на скрипта.

Стъпка 5: Използване на черупка Spark

Използвай искра-черупка команда за достъп до Spark Shell.

$ / opt / spark / bin / spark-shell 21/04/27 08:49:09 ПРЕДУПРЕЖДЕНИЕ Помощни програми: Вашето име на хост, ubuntu се решава на адрес с обратна връзка: 127.0.1.1; използвайки 10.10.10.2 вместо това (на интерфейс eth0) 21/04/27 08:49:09 Потребителски предупреждения: Задайте SPARK_LOCAL_IP, ако трябва да се свържете с друг адрес ПРЕДУПРЕЖДЕНИЕ: Настъпи незаконна операция за отразяващ достъп ПРЕДУПРЕЖДЕНИЕ: Незаконен отразяващ достъп от организацията.апаш.искра.опасно.Платформа (файл: / opt / spark / jars / spark-unsafe_2.12-3.1.1.jar) към конструктор java.нио.DirectByteBuffer (long, int) ПРЕДУПРЕЖДЕНИЕ: Моля, помислете за докладване на това на поддръжниците на org.апаш.искра.опасно.Платформа ПРЕДУПРЕЖДЕНИЕ: Използвайте --illegal-access = warn, за да активирате предупреждения за по-нататъшни незаконни отразяващи операции за достъп ПРЕДУПРЕЖДЕНИЕ: Всички незаконни операции за достъп ще бъдат отказани в бъдещо издание 21/04/27 08:49:10 WARN NativeCodeLoader: Не може да се зареди роден -hadoop библиотека за вашата платформа ... използвайки вградени Java-класове, където е приложимо Използване на профила по подразбиране log4j на Spark: org / apache / spark / log4j-по подразбиране.свойства Задаване на ниво на регистрационния файл по подразбиране на „ПРЕДУПРЕЖДЕНИЕ. За да настроите нивото на регистриране, използвайте sc.setLogLevel (newLevel). За SparkR използвайте setLogLevel (newLevel). Spark context Web UI на разположение на http: // 10.10.10.2: 4040 Искрен контекст, наличен като 'sc' (master = local [*], app id = local-1619513355938). Искрената сесия се предлага като „искра“. Добре дошли в ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ '/ __/ '_/ /___/ .__ / \ _, _ / _ / / _ / \ _ \ версия 3.1.1 / _ / Използване на Scala версия 2.12.10 (OpenJDK 64-битов сървър VM, Java 11.0.10) Въведете изрази, за да ги оцените. Тип: помощ за повече информация. скала>

Ако сте по-скоро човек на Python, използвайте pyspark.

$ / opt / spark / bin / pyspark Python 3.8.5 (по подразбиране, 27 януари 2021 г., 15:41:15) [GCC 9.3.0] на linux Въведете „помощ“, „авторски права“, „кредити“ или „лиценз“ за повече информация. 21/04/27 08:50:09 ПРЕДУПРЕЖДЕНИЕ Помощни програми: Вашето име на хост, ubuntu се решава на адрес за обратна връзка: 127.0.1.1; използвайки 10.10.10.2 вместо това (на интерфейс eth0) 21/04/27 08:50:09 Потребителски предупреждения: Задайте SPARK_LOCAL_IP, ако трябва да се свържете с друг адрес ПРЕДУПРЕЖДЕНИЕ: Настъпи незаконна операция за отразяващ достъп ПРЕДУПРЕЖДЕНИЕ: Незаконен отразяващ достъп от организацията.апаш.искра.опасно.Платформа (файл: / opt / spark / jars / spark-unsafe_2.12-3.1.1.jar) към конструктор java.нио.DirectByteBuffer (long, int) ПРЕДУПРЕЖДЕНИЕ: Моля, помислете за докладване на това на поддръжниците на org.апаш.искра.опасно.Платформа ПРЕДУПРЕЖДЕНИЕ: Използвайте --illegal-access = warn, за да активирате предупреждения за по-нататъшни незаконни операции за отразяващ достъп ПРЕДУПРЕЖДЕНИЕ: Всички нелегални операции за достъп ще бъдат отказани в бъдещо издание 21/04/27 08:50:09 WARN NativeCodeLoader: Не може да се зареди роден -hadoop библиотека за вашата платформа ... използвайки вградени java класове, където е приложимо Използване на профила по подразбиране log4j на Spark: org / apache / spark / log4j-по подразбиране.свойства Задаване на ниво на регистрационния файл по подразбиране на "ПРЕДУПРЕЖДЕНИЕ". За да настроите нивото на регистриране, използвайте sc.setLogLevel (newLevel). За SparkR използвайте setLogLevel (newLevel). Добре дошли в ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ '/ __/ '_/ /__ / .__ / \ _, _ / _ / / _ / \ _ \ версия 3.1.1 / _ / Използване на Python версия 3.8.5 (по подразбиране, 27 януари 2021 15:41:15) Spark context Web UI на разположение на http: // 10.10.10.2: 4040 Spark context наличен като 'sc' (master = local [*], app id = local-1619513411109). SparkSession се предлага като „искра“. >>>

Лесно изключете главния и подчинения процес Spark, като използвате командите по-долу.

$ SPARK_HOME / sbin / stop-slave.ш
$ SPARK_HOME / sbin / stop-master.ш

Ето го. Прочетете повече за Spark Documentation.

Инсталирайте OpenNebula KVM Node на Debian 10 (Buster)
В скорошната ни статия обсъдихме как можете да инсталирате и конфигурирате OpenNebula Front-end на система Debian 10. В това ръководство ще се потопим...
Създайте CentOS | Ubuntu | Debian VM шаблони на OpenNebula
Как мога да създам Ubuntu / CentOS / Debian и всеки друг VM шаблон за разпространение на Linux в OpenNebula?. В OpenNebula виртуални машини не могат д...
Поемане на риска от облачната миграция
Източник на изображението: Wikimedia CommonsВсе повече и повече фирми избират да прегърнат облака, който се оказва, че отговаря на шумотевицата, която...