Impala. Нужен совет

Andreika · Post by **Andreika** » 26 Oct 2020 22:11

Вопрос по инсталляции Импала.

Надоело переустанавливать Cloudera через 2 месяца, решил собрать кластер самостоятельно без нее. Установил Apache Hadoop. 3 датанода, один мастер - собрано на Ubuntu 20.4. Все собрано на одной физической машине, но сервера раскиданы по 4 дискам - вполне неплохо работает, для учебы достаточно.

Еще один сервер для загрузки данных - CentOS 7, включен в кластер. Пока проинсталлированы Pig и Hive, проблем с инсталляцией и конфигурацией не наблюдалось.
Не могу установить Импалу - не знаю почему. Импала с Апачи, версия 3.3.0, требует библиотеки от Питона 2.6 и не собирается. С Убунтой 20.4 - тоже самое, ругается на версию - хотя установил все зависимости - все равно не получилось собрать .

Пытался ставить Импалу от Cloudera, impala-shell не устанавливается, ругается на отсутствие клоудеры и питона 2.6.

В тоже время, при инсталляции Cloudera на CentOS 7, Ubuntu 18 or 20.4 Impala устанавливается и работает без танцев с бубном....

Виртуальное env ставить не хочу, подозреваю, что вероятнее всего где-то что-то делаю не так или немного неправильно.

iDesperado · Post by **iDesperado** » 27 Oct 2020 09:17

ты смелый. чуваки из клоудеры закрыли свои сборки, явно не для того что бы кто-то начал сам собирать.
а почему версия 3.3.0, вроде поледняя версия 3.4.0
и на котором хадупе билдишь ? 3.2 ?

Likenew · Post by **Likenew** » 27 Oct 2020 16:57

Andreika wrote: ↑26 Oct 2020 22:11 Вопрос по инсталляции Импала.

Надоело переустанавливать Цлоудера через 2 месяца, решил собрать кластер самостоятельно без нее. Установил Апаче Хадооп. 3 датанода, один мастер - собрано на Убунту 20.4. Все собрано на одной физической машине, но сервера раскиданы по 4 дискам - вполне неплохо работает, для учебы достаточно.

Еще один сервер для загрузки данных - ЦентОС 7, включен в кластер. Пока проинсталлированы Пиг и Хиве, проблем с инсталляцией и конфигурацией не наблюдалось.
Не могу установить Импалу - не знаю почему. Импала с Апачи, версия 3.3.0, требует библиотеки от Питона 2.6 и не собирается. С Убунтой 20.4 - тоже самое, ругается на версию - хотя установил все зависимости - все равно не получилось собрать .

Пытался ставить Импалу от Цлоудера, импала-шелл не устанавливается, ругается на отсутствие клоудеры и питона 2.6.

В тоже время, при инсталляции Цлоудера на ЦентОС 7, Убунту 18 ор 20.4 Импала устанавливается и работает без танцев с бубном....

Виртуальное енв ставить не хочу, подозреваю, что вероятнее всего где-то что-то делаю не так или немного неправильно.

В документации написано, что Импала есть <open source>, но дальше написано <integrated> в Клаудеру. Ето наводит на мысль о тяжком пути использовать импалу без клаудеры.
А вы пробовали клаудерную виртуальную машину < https://docs.cloudera.com/documentation ... start.html >? Там есть импала для учебы так сказать, для дома для семьи.

Andreika · Post by **Andreika** » 28 Oct 2020 21:03

Да, с Импалой ситуация прояснилась - она как бы фри соурсе, но без клаудеры поставить не получится, или нужно подгонять конфигурацию машины под импалу, устанавливая старую версию Линуксов.

Импала прекрасно работает и на виртуальной машине от Клаудеры, и на кластере с установленной клаудерой. А вот как отдельный фрии продукт - все совсем не просто. Ну да ладно, пока ее оставил - вернусь немного позже.

Хадуп установил 3.1.3 - стабильная версия.

Вчера настроил Hbase : мастер и 3 нода, Пока работает

Сейчас мучаю zookeeper - никак не могу разобраться с кофигурацией. Как я понимаю - стандартная схема: мастер-слэйв, интегрированная в HBase. Мастер и нечетное количество нодов. Мастер ZOO установил на той же машине, где проинсталлирован HBase, 3 нода на отдельных серверах, CentOs 7/. И вот тут для меня пока туман:

1. по правилам должно быть мастер и 2 нода или мастер и три нода?
2. Мастер выбирается выборами или конфигурацией?
3. Первоначально установил мастер и 2 нода - подключение происходит в двух напрвлениях
4. Добавил еще один нод - к нему не могу подключиться, от него на все машины, гда стоит Zookeeper/

В hbase-site.xml конфигурации имеются свойства Кворум - насколько я понимаю, мне нужно прописать здесь все Zoo сервера и выборы мастера будут автоматические?

Andreika · Post by **Andreika** » 29 Oct 2020 19:34

С ZooKeeperom разобрался, заработало. Почему-то при указании в кворуме имя носта - ничего не подключалось. Указал IP addresses - и все встало на свои места, странно. Машины видят и крннектятся друг к другу и по ИП и по имени, в hosts все прописано... Ну да ладно, оставим на лучшие времена выяснение почему не работают имена.

Пока собрал вот такую схему. Насколько она правильно построена с технической точки зрения? Может кто-нибудь высказать свои замечания и пожелания?

VM - 'это виртуальная машина

iDesperado · Post by **iDesperado** » 01 Nov 2020 09:11

Andreika wrote: ↑29 Oct 2020 19:34 Пока собрал вот такую схему. Насколько она правильно построена с технической точки зрения? Может кто-нибудь высказать свои замечания и пожелания?

так а какая цель ? я так понял поднять hadoop 3.1 для игр, который клоудера не дает сборок. если для игр то не понятно зачем zookeper на отдельных виртуалках, если не для игр, то как минимум namenode нужно дублировать.
кстати, а что взамен cloudera manager ? ambari легко поставился ? и с каким енжином hive получился, у ванилы что то серьезней map-reduce можно поставить ? spark on hive например ?

Andreika · Post by **Andreika** » 01 Nov 2020 20:25

В общем-то вся сборка собирается для того, что бы разобраться и понять взаимодействие различных компонентов в биг дате. В клаудере, там наверное проще - сборка ролей происходит выборкой и распределением по серверам.
hive установлен - v 3.1.2
По поводу zookeepera - команда zkServer.sh status показывает на 3 серверах leader, follower, follower. Кворум как бы работает правильно.
Но на web ui hbase я виже следущее:

Region servers:
srv-cluster-02,16020,1604258237537
srv-cluster-04,16020,1604258237452
srv-cluster-04,16020,1604254318929
srv-cluster-03,16020,1604254319021
srv-cluster-02,16020,1604254321240
srv-cluster-03,16020,1604258237709
Quorum Server Statistics:
srv-cluster-08:2181
Zookeeper version: 3.6.2--803c7f1a12f85978cb049af5e4ef23bd8b688715, built on 09/04/2020 12:44 GMT
Clients:
/170.168.1.83:34614[1](queued=0,recved=2,sent=2)
/170.168.1.88:55926[0](queued=0,recved=1,sent=0)
/170.168.1.82:33100[1](queued=0,recved=51,sent=56)
/170.168.1.84:38378[1](queued=0,recved=54,sent=63)
/170.168.1.82:33102[1](queued=0,recved=2,sent=2)
/170.168.1.88:55908[1](queued=0,recved=154,sent=170)
/170.168.1.83:34612[1](queued=0,recved=43,sent=46)
/170.168.1.84:38380[1](queued=0,recved=2,sent=2)

Сервера 82,83,84 - HBase regional servers
Сервера 88,87,86 - добавлены в кворум зукипера

Mode: follower Node count: 38
srv-cluster-06:2181

Mode: follower Node count: 38
srv-cluster-07:2181

Mode: leader Node count: 38
srv-cluster-08:2181

Вопрос - здесь отражено все корректно и настройки верны? Как я понимаю Клиенты - это клиенты зукипера для данныХ?

Sergunka · Post by **Sergunka** » 01 Nov 2020 22:07

Я обычно не рискую ставить последнию Юбунту почему не взять проверенную версию 18.х?

Но вцелом могучий труд получился. Сколько RAM на машине?

Andreika · Post by **Andreika** » 01 Nov 2020 22:45

С линуксом какая то солянка получилось, ранее всегда была СентОС 7, а тут чего то решил попробовать установить на юбунте - ну и скачал последнюю, на ней установлен НэймНод и ДатаНоды, все остальное на СентОс уже собиралось.

Машина обычный десктоп Fujitsu Celsius M470-2 с Xeon X5680, 32 рама - поставил 4 диска и датаноды разнес по разным дискам. Работает, все крутится - вполне достаточно, что бы понять принцип работы. Далее придется HA настраивать, еще один нэйменод и один-два датанода, что бы разобраться с правильной commission/decommission датанодов.
Схему немного изменил

Andreika · Post by **Andreika** » 04 Dec 2020 18:53

Вопрос снова по бигдатам.

С момента прошедшего поста , кажется немного разобраля с архитектуре. Установил Ambari - все старался делать правильно. Мастер, 4 датанода, MariaDB - все разнесено по разным серверам, плюс дополнительные сервисы. Установил HA - работает прекрасно. Всего получилось 10 серверов - архитектура работает. Hive, Pig в кластере работают, для меня сейчас все понятно.

Пару недель назад, инсталлировал еще один кластер - на Cloudera. Сделал практически тоже самое - MariaDB, Cloudera Mаnager вынесены на отдельные сервера, сделал 4 дата нода, Master - в НА работает. Spark, Hue, Oozie - установлены и не вызавают нареканий, пока

всего установлено 11 серверов.

Собственно сам вопрос - сейчас, для работы со Спарк я подключаюсь в к серверу в кластере, но как я понимаю это неправильно. Пользователь должен работать со Спарк или прочими приложениями со своей станции , а уже приложение подключается к кластеру для получения или загрузки данных. Вот этот момент для меня не ясен. Если пользователь подключается со своей станции - на этой машине тоже нужно устанавливать Hadoop или все-же я чего-то не понимаю?

Как должна быть правильно организована работа с данными для пользователей? Веб интерфес - терминальное окно?

iDesperado · Post by **iDesperado** » 04 Dec 2020 20:50

Spark это фреймворк, в чистом виде его пользователи можно сказать не используют. в чистом виде обычно это какие-то джобы запущенные через идущий в инсталяции и папке bin скрипт spark-submit.sh (или .bat). конечные пользователи используют спарк обычно в комбинации с чем-то, где спарк подницом. например в клоудере есть hive-on-spark с spark2 энжином под низом. альтернативный вариант - можно поднять thrift server и к нему коннкится по jdbc, он сможет spark sql выполнять. сейчас популярны всякие ноутбуки типа apache zepiline или jupyter, есть ваиант с ними спарк использовать. еще всякие etl типа airflow, nifi со спарком сопрягаются. пока не понятно о какой комбинации речь идет.
что касается спарк джобов через spark-submit, то если джоб хочется на кластере исполнять, то в целом да, на клиенте вроде как хадуп должен стоять. но реально сейчас мне кажется вот тут https://spark.apache.org/downloads.html pre-build for hadoop и без хаупа запустятся.
лично у меня есть папка bin на 4.5 мб с виндовыми бинарниками, не помню откуда взял. я так понимаю там совсем минимум, который мне позвляет не только спарк но и map-reduce джобы на лаптопе выполнять. но в принципе spark-submit что-то от хадуп библиотек, через них он выясняет где у кластера name node, связывается с yarn и стартует driver программу. там два режима - spark client кажется врямо на лаптопе driver запустит (executors будут на клатере) и второй вариант на самом кластере, там где yarn укажет. вот для всего этого либы и конфиги хадупа нужны на клиенте, откуда spark-submit стартует.

Andreika · Post by **Andreika** » 05 Dec 2020 09:39

Спасибо. Сейчас пытаюсь разобраться с подключением spark-submit. Генерируется ошибка в момент подключения к нэйменоду - но направление выбрано правильное

Pig, Hive - работают по такому же принципу при подключении со стороннего узла к кластеру? На кластере, для работы с Пиг, я запускаю его с ключом mapreduce. А как работают пользователи: через Hue или все же в реальной жизни с данными приложениямии клиенты не сталкиваются?

iDesperado · Post by **iDesperado** » 05 Dec 2020 10:21

Andreika wrote: ↑05 Dec 2020 09:39 Спасибо. Сейчас пытаюсь разобраться с подключением spark-submit. Генерируется ошибка в момент подключения к нэйменоду - но направление выбрано правильное

тебе нужна папка с конфигами хадупа, всякие hdfs-site.xml, core-site.xml, yarn-site.xml и переменную среды HADOOP_CONF_DIR указывающую на эту папку

Andreika wrote: ↑05 Dec 2020 09:39 Pig, Hive - работают по такому же принципу при подключении со стороннего узла к кластеру? На кластере, для работы с Пиг, я запускаю его с ключом mapreduce. А как работают пользователи: через Hue или все же в реальной жизни с данными приложениямии клиенты не сталкиваются?

это все сервисы хадупа, запускается внутри кластера. соответсвенно от клиента ничего не нужно. к hive клиент через jdbc ходит, к hue через http. у нас hue активно пользуют, через него пользователи по hdfs лазают, пускаю кверики в impala. тут им кроме бровсера ничего не надо.

Andreika · Post by **Andreika** » 05 Dec 2020 19:28

Ну, кажется у меня получилось подключить Spark к кластеру с пользовательского компьютера.

Установил Spark with Hadoop 3.0, версия 2.7 генерировала ошибку подключения на самом первом этапе. Кроме этого, пришлось дописать пару серверов в hosts файл, изменить конфигурацию Cloudera Manager с Java 1.7, ставится по умолчанию - на java 1.8, как на клиентсом компьютере, в противном случае возникала ошибка несоответствия версий. В строку подключения дописал --deploy-mode cluster - иначе возникала ошибка на самом последнем этапе. С Слоудеры выгрузил конфинурационные файлы и загрузил в Spark conf директорию. На HDFS создал директорию для данного пользователя . В итоге - подключение произошло, Слоудера сообщила - succeed.

Не проясните один момент по строке подключения:
./spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --executor-memory 5Gb --total-executor-cores 4 /usr/local/spark/examples/jars/spark-examples_2.12-3.0.1.jar 4

Последняя 4 - что может означать? Job отрабатывается и с данным значением и без него. В разных источниках цифра может стоять, может не быть. Описание комманды на Спарке про последнее значение не упоминается... Обычно ставят 10, но на всякий случай, я уменьшил до 4

iDesperado · Post by **iDesperado** » 06 Dec 2020 10:12

Andreika wrote: ↑05 Dec 2020 19:28 Описание комманды на Спарке про последнее значение не упоминается... Обычно ставят 10, но на всякий случай, я уменьшил до 4

./bin/spark-submit \
--class <main-class> \
--master <master-url> \
--deploy-mode <deploy-mode> \
--conf <key>=<value> \
... # other options
<application-jar> \
[application-arguments]

https://spark.apache.org/docs/latest/su ... tions.html

application-arguments, наверно сколько кол-во знаков после запятой посчитать

Andreika · Post by **Andreika** » 06 Dec 2020 20:00

Ага, так и есть. Параметр для приложения.
Начал изучение програмной части Spark and Scala. На Слоудере подписался на специализацию от EPFL универа плюс параллельно Spark. Посмотрим, что получится.

Привет

Impala. Нужен совет

Impala. Нужен совет

Re: Impala. Нужен совет

Re: Impala. Нужен совет

Re: Impala. Нужен совет

Re: Impala. Нужен совет

Re: Impala. Нужен совет

Re: Impala. Нужен совет

Re: Impala. Нужен совет

Re: Impala. Нужен совет

Re: Impala. Нужен совет

Re: Impala. Нужен совет

Re: Impala. Нужен совет

Re: Impala. Нужен совет

Re: Impala. Нужен совет

Re: Impala. Нужен совет

Re: Impala. Нужен совет