Impala. Нужен совет

User avatar
Andreika
Уже с Приветом
Posts: 1084
Joined: 29 Apr 1999 09:01
Location: Страна Травокуров...

Impala. Нужен совет

Post by Andreika »

Вопрос по инсталляции Импала.

Надоело переустанавливать Cloudera через 2 месяца, решил собрать кластер самостоятельно без нее. Установил Apache Hadoop. 3 датанода, один мастер - собрано на Ubuntu 20.4. Все собрано на одной физической машине, но сервера раскиданы по 4 дискам - вполне неплохо работает, для учебы достаточно.

Еще один сервер для загрузки данных - CentOS 7, включен в кластер. Пока проинсталлированы Pig и Hive, проблем с инсталляцией и конфигурацией не наблюдалось.
Не могу установить Импалу - не знаю почему. Импала с Апачи, версия 3.3.0, требует библиотеки от Питона 2.6 и не собирается. С Убунтой 20.4 - тоже самое, ругается на версию - хотя установил все зависимости - все равно не получилось собрать .

Пытался ставить Импалу от Cloudera, impala-shell не устанавливается, ругается на отсутствие клоудеры и питона 2.6.

В тоже время, при инсталляции Cloudera на CentOS 7, Ubuntu 18 or 20.4 Impala устанавливается и работает без танцев с бубном....

Виртуальное env ставить не хочу, подозреваю, что вероятнее всего где-то что-то делаю не так или немного неправильно.
Купил скальпель. Теперь я хирург.
iDesperado
Уже с Приветом
Posts: 1349
Joined: 28 Nov 2008 17:50

Re: Impala. Нужен совет

Post by iDesperado »

ты смелый. чуваки из клоудеры закрыли свои сборки, явно не для того что бы кто-то начал сам собирать.
а почему версия 3.3.0, вроде поледняя версия 3.4.0
и на котором хадупе билдишь ? 3.2 ?
User avatar
Likenew
Уже с Приветом
Posts: 12065
Joined: 15 Feb 2002 10:01
Location: TX

Re: Impala. Нужен совет

Post by Likenew »

Andreika wrote: 26 Oct 2020 22:11 Вопрос по инсталляции Импала.

Надоело переустанавливать Цлоудера через 2 месяца, решил собрать кластер самостоятельно без нее. Установил Апаче Хадооп. 3 датанода, один мастер - собрано на Убунту 20.4. Все собрано на одной физической машине, но сервера раскиданы по 4 дискам - вполне неплохо работает, для учебы достаточно.

Еще один сервер для загрузки данных - ЦентОС 7, включен в кластер. Пока проинсталлированы Пиг и Хиве, проблем с инсталляцией и конфигурацией не наблюдалось.
Не могу установить Импалу - не знаю почему. Импала с Апачи, версия 3.3.0, требует библиотеки от Питона 2.6 и не собирается. С Убунтой 20.4 - тоже самое, ругается на версию - хотя установил все зависимости - все равно не получилось собрать .

Пытался ставить Импалу от Цлоудера, импала-шелл не устанавливается, ругается на отсутствие клоудеры и питона 2.6.

В тоже время, при инсталляции Цлоудера на ЦентОС 7, Убунту 18 ор 20.4 Импала устанавливается и работает без танцев с бубном....

Виртуальное енв ставить не хочу, подозреваю, что вероятнее всего где-то что-то делаю не так или немного неправильно.
В документации написано, что Импала есть <open source>, но дальше написано <integrated> в Клаудеру. Ето наводит на мысль о тяжком пути использовать импалу без клаудеры.
А вы пробовали клаудерную виртуальную машину < https://docs.cloudera.com/documentation ... start.html >? Там есть импала для учебы так сказать, для дома для семьи.
User avatar
Andreika
Уже с Приветом
Posts: 1084
Joined: 29 Apr 1999 09:01
Location: Страна Травокуров...

Re: Impala. Нужен совет

Post by Andreika »

Да, с Импалой ситуация прояснилась - она как бы фри соурсе, но без клаудеры поставить не получится, или нужно подгонять конфигурацию машины под импалу, устанавливая старую версию Линуксов.

Импала прекрасно работает и на виртуальной машине от Клаудеры, и на кластере с установленной клаудерой. А вот как отдельный фрии продукт - все совсем не просто. Ну да ладно, пока ее оставил - вернусь немного позже.

Хадуп установил 3.1.3 - стабильная версия.

Вчера настроил Hbase : мастер и 3 нода, Пока работает :D
Сейчас мучаю zookeeper - никак не могу разобраться с кофигурацией. Как я понимаю - стандартная схема: мастер-слэйв, интегрированная в HBase. Мастер и нечетное количество нодов. Мастер ZOO установил на той же машине, где проинсталлирован HBase, 3 нода на отдельных серверах, CentOs 7/. И вот тут для меня пока туман:

1. по правилам должно быть мастер и 2 нода или мастер и три нода?
2. Мастер выбирается выборами или конфигурацией?
3. Первоначально установил мастер и 2 нода - подключение происходит в двух напрвлениях
4. Добавил еще один нод - к нему не могу подключиться, от него на все машины, гда стоит Zookeeper/

В hbase-site.xml конфигурации имеются свойства Кворум - насколько я понимаю, мне нужно прописать здесь все Zoo сервера и выборы мастера будут автоматические?
Купил скальпель. Теперь я хирург.
User avatar
Andreika
Уже с Приветом
Posts: 1084
Joined: 29 Apr 1999 09:01
Location: Страна Травокуров...

Re: Impala. Нужен совет

Post by Andreika »

С ZooKeeperom разобрался, заработало. Почему-то при указании в кворуме имя носта - ничего не подключалось. Указал IP addresses - и все встало на свои места, странно. Машины видят и крннектятся друг к другу и по ИП и по имени, в hosts все прописано... Ну да ладно, оставим на лучшие времена выяснение почему не работают имена.

Пока собрал вот такую схему. Насколько она правильно построена с технической точки зрения? Может кто-нибудь высказать свои замечания и пожелания? :-)
VM - 'это виртуальная машина
You do not have the required permissions to view the files attached to this post.
Купил скальпель. Теперь я хирург.
iDesperado
Уже с Приветом
Posts: 1349
Joined: 28 Nov 2008 17:50

Re: Impala. Нужен совет

Post by iDesperado »

Andreika wrote: 29 Oct 2020 19:34 Пока собрал вот такую схему. Насколько она правильно построена с технической точки зрения? Может кто-нибудь высказать свои замечания и пожелания? :-)
так а какая цель ? я так понял поднять hadoop 3.1 для игр, который клоудера не дает сборок. если для игр то не понятно зачем zookeper на отдельных виртуалках, если не для игр, то как минимум namenode нужно дублировать.
кстати, а что взамен cloudera manager ? ambari легко поставился ? и с каким енжином hive получился, у ванилы что то серьезней map-reduce можно поставить ? spark on hive например ?
User avatar
Andreika
Уже с Приветом
Posts: 1084
Joined: 29 Apr 1999 09:01
Location: Страна Травокуров...

Re: Impala. Нужен совет

Post by Andreika »

В общем-то вся сборка собирается для того, что бы разобраться и понять взаимодействие различных компонентов в биг дате. В клаудере, там наверное проще - сборка ролей происходит выборкой и распределением по серверам.
hive установлен - v 3.1.2
По поводу zookeepera - команда zkServer.sh status показывает на 3 серверах leader, follower, follower. Кворум как бы работает правильно.
Но на web ui hbase я виже следущее:

Region servers:
srv-cluster-02,16020,1604258237537
srv-cluster-04,16020,1604258237452
srv-cluster-04,16020,1604254318929
srv-cluster-03,16020,1604254319021
srv-cluster-02,16020,1604254321240
srv-cluster-03,16020,1604258237709
Quorum Server Statistics:
srv-cluster-08:2181
Zookeeper version: 3.6.2--803c7f1a12f85978cb049af5e4ef23bd8b688715, built on 09/04/2020 12:44 GMT
Clients:
/170.168.1.83:34614[1](queued=0,recved=2,sent=2)
/170.168.1.88:55926[0](queued=0,recved=1,sent=0)
/170.168.1.82:33100[1](queued=0,recved=51,sent=56)
/170.168.1.84:38378[1](queued=0,recved=54,sent=63)
/170.168.1.82:33102[1](queued=0,recved=2,sent=2)
/170.168.1.88:55908[1](queued=0,recved=154,sent=170)
/170.168.1.83:34612[1](queued=0,recved=43,sent=46)
/170.168.1.84:38380[1](queued=0,recved=2,sent=2)

Сервера 82,83,84 - HBase regional servers
Сервера 88,87,86 - добавлены в кворум зукипера

Mode: follower Node count: 38
srv-cluster-06:2181

Mode: follower Node count: 38
srv-cluster-07:2181

Mode: leader Node count: 38
srv-cluster-08:2181

Вопрос - здесь отражено все корректно и настройки верны? Как я понимаю Клиенты - это клиенты зукипера для данныХ?
Купил скальпель. Теперь я хирург.
User avatar
Sergunka
Уже с Приветом
Posts: 34164
Joined: 03 Dec 2000 10:01
Location: Vladivostok->San Francisco->Los Angeles->San Francisco

Re: Impala. Нужен совет

Post by Sergunka »

Я обычно не рискую ставить последнию Юбунту почему не взять проверенную версию 18.х?

Но вцелом могучий труд получился. Сколько RAM на машине?
"A patriot must always be ready to defend his country against his government." Edward Abbey
User avatar
Andreika
Уже с Приветом
Posts: 1084
Joined: 29 Apr 1999 09:01
Location: Страна Травокуров...

Re: Impala. Нужен совет

Post by Andreika »

С линуксом какая то солянка получилось, ранее всегда была СентОС 7, а тут чего то решил попробовать установить на юбунте - ну и скачал последнюю, на ней установлен НэймНод и ДатаНоды, все остальное на СентОс уже собиралось.

Машина обычный десктоп Fujitsu Celsius M470-2 с Xeon X5680, 32 рама - поставил 4 диска и датаноды разнес по разным дискам. Работает, все крутится - вполне достаточно, что бы понять принцип работы. Далее придется HA настраивать, еще один нэйменод и один-два датанода, что бы разобраться с правильной commission/decommission датанодов.
Схему немного изменил
You do not have the required permissions to view the files attached to this post.
Купил скальпель. Теперь я хирург.
User avatar
Andreika
Уже с Приветом
Posts: 1084
Joined: 29 Apr 1999 09:01
Location: Страна Травокуров...

Re: Impala. Нужен совет

Post by Andreika »

Вопрос снова по бигдатам.

С момента прошедшего поста , кажется немного разобраля с архитектуре. Установил Ambari - все старался делать правильно. Мастер, 4 датанода, MariaDB - все разнесено по разным серверам, плюс дополнительные сервисы. Установил HA - работает прекрасно. Всего получилось 10 серверов - архитектура работает. Hive, Pig в кластере работают, для меня сейчас все понятно.

Пару недель назад, инсталлировал еще один кластер - на Cloudera. Сделал практически тоже самое - MariaDB, Cloudera Mаnager вынесены на отдельные сервера, сделал 4 дата нода, Master - в НА работает. Spark, Hue, Oozie - установлены и не вызавают нареканий, пока :) всего установлено 11 серверов.

Собственно сам вопрос - сейчас, для работы со Спарк я подключаюсь в к серверу в кластере, но как я понимаю это неправильно. Пользователь должен работать со Спарк или прочими приложениями со своей станции , а уже приложение подключается к кластеру для получения или загрузки данных. Вот этот момент для меня не ясен. Если пользователь подключается со своей станции - на этой машине тоже нужно устанавливать Hadoop или все-же я чего-то не понимаю?

Как должна быть правильно организована работа с данными для пользователей? Веб интерфес - терминальное окно?
Купил скальпель. Теперь я хирург.
iDesperado
Уже с Приветом
Posts: 1349
Joined: 28 Nov 2008 17:50

Re: Impala. Нужен совет

Post by iDesperado »

Spark это фреймворк, в чистом виде его пользователи можно сказать не используют. в чистом виде обычно это какие-то джобы запущенные через идущий в инсталяции и папке bin скрипт spark-submit.sh (или .bat). конечные пользователи используют спарк обычно в комбинации с чем-то, где спарк подницом. например в клоудере есть hive-on-spark с spark2 энжином под низом. альтернативный вариант - можно поднять thrift server и к нему коннкится по jdbc, он сможет spark sql выполнять. сейчас популярны всякие ноутбуки типа apache zepiline или jupyter, есть ваиант с ними спарк использовать. еще всякие etl типа airflow, nifi со спарком сопрягаются. пока не понятно о какой комбинации речь идет.
что касается спарк джобов через spark-submit, то если джоб хочется на кластере исполнять, то в целом да, на клиенте вроде как хадуп должен стоять. но реально сейчас мне кажется вот тут https://spark.apache.org/downloads.html pre-build for hadoop и без хаупа запустятся.
лично у меня есть папка bin на 4.5 мб с виндовыми бинарниками, не помню откуда взял. я так понимаю там совсем минимум, который мне позвляет не только спарк но и map-reduce джобы на лаптопе выполнять. но в принципе spark-submit что-то от хадуп библиотек, через них он выясняет где у кластера name node, связывается с yarn и стартует driver программу. там два режима - spark client кажется врямо на лаптопе driver запустит (executors будут на клатере) и второй вариант на самом кластере, там где yarn укажет. вот для всего этого либы и конфиги хадупа нужны на клиенте, откуда spark-submit стартует.
User avatar
Andreika
Уже с Приветом
Posts: 1084
Joined: 29 Apr 1999 09:01
Location: Страна Травокуров...

Re: Impala. Нужен совет

Post by Andreika »

Спасибо. Сейчас пытаюсь разобраться с подключением spark-submit. Генерируется ошибка в момент подключения к нэйменоду - но направление выбрано правильное :D

Pig, Hive - работают по такому же принципу при подключении со стороннего узла к кластеру? На кластере, для работы с Пиг, я запускаю его с ключом mapreduce. А как работают пользователи: через Hue или все же в реальной жизни с данными приложениямии клиенты не сталкиваются?
Купил скальпель. Теперь я хирург.
iDesperado
Уже с Приветом
Posts: 1349
Joined: 28 Nov 2008 17:50

Re: Impala. Нужен совет

Post by iDesperado »

Andreika wrote: 05 Dec 2020 09:39 Спасибо. Сейчас пытаюсь разобраться с подключением spark-submit. Генерируется ошибка в момент подключения к нэйменоду - но направление выбрано правильное :D
тебе нужна папка с конфигами хадупа, всякие hdfs-site.xml, core-site.xml, yarn-site.xml и переменную среды HADOOP_CONF_DIR указывающую на эту папку
Andreika wrote: 05 Dec 2020 09:39 Pig, Hive - работают по такому же принципу при подключении со стороннего узла к кластеру? На кластере, для работы с Пиг, я запускаю его с ключом mapreduce. А как работают пользователи: через Hue или все же в реальной жизни с данными приложениямии клиенты не сталкиваются?
это все сервисы хадупа, запускается внутри кластера. соответсвенно от клиента ничего не нужно. к hive клиент через jdbc ходит, к hue через http. у нас hue активно пользуют, через него пользователи по hdfs лазают, пускаю кверики в impala. тут им кроме бровсера ничего не надо.
User avatar
Andreika
Уже с Приветом
Posts: 1084
Joined: 29 Apr 1999 09:01
Location: Страна Травокуров...

Re: Impala. Нужен совет

Post by Andreika »

Ну, кажется у меня получилось подключить Spark к кластеру с пользовательского компьютера.

Установил Spark with Hadoop 3.0, версия 2.7 генерировала ошибку подключения на самом первом этапе. Кроме этого, пришлось дописать пару серверов в hosts файл, изменить конфигурацию Cloudera Manager с Java 1.7, ставится по умолчанию - на java 1.8, как на клиентсом компьютере, в противном случае возникала ошибка несоответствия версий. В строку подключения дописал --deploy-mode cluster - иначе возникала ошибка на самом последнем этапе. С Слоудеры выгрузил конфинурационные файлы и загрузил в Spark conf директорию. На HDFS создал директорию для данного пользователя . В итоге - подключение произошло, Слоудера сообщила - succeed. :D

Не проясните один момент по строке подключения:
./spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --executor-memory 5Gb --total-executor-cores 4 /usr/local/spark/examples/jars/spark-examples_2.12-3.0.1.jar 4

Последняя 4 - что может означать? Job отрабатывается и с данным значением и без него. В разных источниках цифра может стоять, может не быть. Описание комманды на Спарке про последнее значение не упоминается... Обычно ставят 10, но на всякий случай, я уменьшил до 4 :-)
Купил скальпель. Теперь я хирург.
iDesperado
Уже с Приветом
Posts: 1349
Joined: 28 Nov 2008 17:50

Re: Impala. Нужен совет

Post by iDesperado »

Andreika wrote: 05 Dec 2020 19:28 Описание комманды на Спарке про последнее значение не упоминается... Обычно ставят 10, но на всякий случай, я уменьшил до 4 :-)
./bin/spark-submit \
--class <main-class> \
--master <master-url> \
--deploy-mode <deploy-mode> \
--conf <key>=<value> \
... # other options
<application-jar> \
[application-arguments]

https://spark.apache.org/docs/latest/su ... tions.html

application-arguments, наверно сколько кол-во знаков после запятой посчитать
User avatar
Andreika
Уже с Приветом
Posts: 1084
Joined: 29 Apr 1999 09:01
Location: Страна Травокуров...

Re: Impala. Нужен совет

Post by Andreika »

Ага, так и есть. Параметр для приложения.
Начал изучение програмной части Spark and Scala. На Слоудере подписался на специализацию от EPFL универа плюс параллельно Spark. Посмотрим, что получится.
Купил скальпель. Теперь я хирург.

Return to “Вопросы и новости IT”