Кто гоняет Spark?

User avatar
Sergunka
Уже с Приветом
Posts: 34164
Joined: 03 Dec 2000 10:01
Location: Vladivostok->San Francisco->Los Angeles->San Francisco

Кто гоняет Spark?

Post by Sergunka »

Расскажите, что за задачи гоняете и в чем так сказать прелесть в отличии от того же Хадупа?

У нас на проекте похоже предстоит внедреж хочу понять где узкие места.
"A patriot must always be ready to defend his country against his government." Edward Abbey
User avatar
metaller
Уже с Приветом
Posts: 4532
Joined: 06 Jul 2011 12:22
Location: Oak Harbor, WA

Re: Кто гоняет Spark?

Post by metaller »

Мы тоже гоняем Hadoop/Hive, облизываемся на Spark SQL. Пока нифига не ясно будет оно жить или как.
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
User avatar
Dweller
Уже с Приветом
Posts: 12262
Joined: 20 Dec 2000 10:01
Location: Bellevue, WA

Re: Кто гоняет Spark?

Post by Dweller »

На алгоритмах где данные влазят в память все летает раз в 100 быстрее на спарке чем в мапредюсе
Я беру hi4large in AWS, spot instances, там 64Г на 16 thread, классно и дешево
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Кто гоняет Spark?

Post by Сабина »

Sergunka wrote:Расскажите, что за задачи гоняете и в чем так сказать прелесть в отличии от того же Хадупа?

У нас на проекте похоже предстоит внедреж хочу понять где узкие места.
Сергунька, вот отличный ресурс - Developer track from Spark Summit. Там есть сессии всего на несколько часов после которых многое проясняется с практической точки зрения
http://livestream.com/fourstream/sparksummit2015-tracka" onclick="window.open(this.href);return false;

Еще у нас тут митап в городе с Матеем и Databricks - лучше ресурса и не придумать
http://www.meetup.com/spark-users/" onclick="window.open(this.href);return false;
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
Sergunka
Уже с Приветом
Posts: 34164
Joined: 03 Dec 2000 10:01
Location: Vladivostok->San Francisco->Los Angeles->San Francisco

Re: Кто гоняет Spark?

Post by Sergunka »

Dweller wrote:На алгоритмах где данные влазят в память все летает раз в 100 быстрее на спарке чем в мапредюсе
Я беру hi4large in AWS, spot instances, там 64Г на 16 thread, классно и дешево
А как там вообще считается влезет в память или нет?
"A patriot must always be ready to defend his country against his government." Edward Abbey
User avatar
metaller
Уже с Приветом
Posts: 4532
Joined: 06 Jul 2011 12:22
Location: Oak Harbor, WA

Re: Кто гоняет Spark?

Post by metaller »

Sergunka wrote:А как там вообще считается влезет в память или нет?
Spark не упадёт, если в память не влезет, просто будет медленее работать. Но всё равно быстрее, чем MapReduce.
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
User avatar
Sergunka
Уже с Приветом
Posts: 34164
Joined: 03 Dec 2000 10:01
Location: Vladivostok->San Francisco->Los Angeles->San Francisco

Re: Кто гоняет Spark?

Post by Sergunka »

metaller wrote:
Sergunka wrote:А как там вообще считается влезет в память или нет?
Spark не упадёт, если в память не влезет, просто будет медленее работать. Но всё равно быстрее, чем MapReduce.
Ага понял там есть такая опция при настройках.
"A patriot must always be ready to defend his country against his government." Edward Abbey
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Кто гоняет Spark?

Post by Сабина »

У нас сегодня было продакшен ишью на спарке, все встало. Root cause интересный оказался, в общем то задача для девопс (кмк)
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
Sergunka
Уже с Приветом
Posts: 34164
Joined: 03 Dec 2000 10:01
Location: Vladivostok->San Francisco->Los Angeles->San Francisco

Re: Кто гоняет Spark?

Post by Sergunka »

Посмотрел как запускать на кластере - что народ скажет - кто какой опцией пользуется?

1) Amazon EC2: our EC2 scripts let you launch a cluster in about 5 minutes
2) Standalone Deploy Mode: simplest way to deploy Spark on a private cluster
3) Apache Mesos
4) Hadoop YARN

Я как-то за 2 опцию, но может есть огромные преимущества от других?
"A patriot must always be ready to defend his country against his government." Edward Abbey
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Кто гоняет Spark?

Post by Сабина »

Сергунька,

Думаю Спарк тут никто особо не гоняет :)
https://www.youtube.com/watch?v=wOwblaKmyVw
Ofreema
Новичок
Posts: 30
Joined: 14 Jul 2015 14:23

Re: Кто гоняет Spark?

Post by Ofreema »

Вот же ж интересно. Спарк никто особо не гоняет, а какие позиции не посмотришь - многие хотят Спарк. Как же так?

На edx был курс Apache Spark.

Ну и еще докину https://spark.apache.org/documentation.html" onclick="window.open(this.href);return false;
User avatar
metaller
Уже с Приветом
Posts: 4532
Joined: 06 Jul 2011 12:22
Location: Oak Harbor, WA

Re: Кто гоняет Spark?

Post by metaller »

Sergunka wrote:Посмотрел как запускать на кластере - что народ скажет - кто какой опцией пользуется?

1) Amazon EC2: our EC2 scripts let you launch a cluster in about 5 minutes
2) Standalone Deploy Mode: simplest way to deploy Spark on a private cluster
3) Apache Mesos
4) Hadoop YARN

Я как-то за 2 опцию, но может есть огромные преимущества от других?
Есть ещё опция арендовать кластер у databricks.com
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Кто гоняет Spark?

Post by Сабина »

Завтра спарковсуий митап хороший в городе от Датабрик - spark и spark streaning в Uber-е. Так обидно, придется пропустить
https://www.youtube.com/watch?v=wOwblaKmyVw
solopipi
Уже с Приветом
Posts: 209
Joined: 12 Sep 2015 23:22

Re: Кто гоняет Spark?

Post by solopipi »

А что вы считаете на Спарке, кроме подсчета слов в предложении?
Экономика России - это просто другое название для цены нефти
_reality
Уже с Приветом
Posts: 232
Joined: 18 Nov 2014 22:55
Location: SFBA

Re: Кто гоняет Spark?

Post by _reality »

Мы гоняем на Ярне потому что у нас уже есть большой Халуп кластер уже. Очень доволен ;) Очень круто что есть dynamic allocation который пока еще нигде кроме ярна нету
User avatar
metaller
Уже с Приветом
Posts: 4532
Joined: 06 Jul 2011 12:22
Location: Oak Harbor, WA

Re: Кто гоняет Spark?

Post by metaller »

Сабина wrote:Завтра спарковсуий митап хороший в городе от Датабрик - spark и spark streaning в Uber-е. Так обидно, придется пропустить
В каком городе-то ? ;)
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
User avatar
metaller
Уже с Приветом
Posts: 4532
Joined: 06 Jul 2011 12:22
Location: Oak Harbor, WA

Re: Кто гоняет Spark?

Post by metaller »

_reality wrote:Мы гоняем на Ярне потому что у нас уже есть большой Халуп кластер уже. Очень доволен ;) Очень круто что есть dynamic allocation который пока еще нигде кроме ярна нету
Кстати мне тут коллеги из соседнего проекта жаловались, что в Спарке если уж запустил джоб, то его нельзя остановить/убить. Ну разве что кластер перестартовать ;) Это уже пофиксили ?
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
_reality
Уже с Приветом
Posts: 232
Joined: 18 Nov 2014 22:55
Location: SFBA

Re: Кто гоняет Spark?

Post by _reality »

metaller wrote: Кстати мне тут коллеги из соседнего проекта жаловались, что в Спарке если уж запустил джоб, то его нельзя остановить/убить. Ну разве что кластер перестартовать ;) Это уже пофиксили ?
Не, нельзя, но я не жалуюсь :-) мне пока не приходилось сталкиваться с тем чтобы джобу надо было останавливать если она запущена. Насколько я знаю это фича вообще пока даже ни кем и разрабатывается потому что похоже никому не нужна :D если очень хочется вырубать таски то мне кажется https://github.com/spark-jobserver/spark-jobserver" onclick="window.open(this.href);return false; должен решить проблему
User avatar
metaller
Уже с Приветом
Posts: 4532
Joined: 06 Jul 2011 12:22
Location: Oak Harbor, WA

Re: Кто гоняет Spark?

Post by metaller »

_reality wrote:
metaller wrote: Кстати мне тут коллеги из соседнего проекта жаловались, что в Спарке если уж запустил джоб, то его нельзя остановить/убить. Ну разве что кластер перестартовать ;) Это уже пофиксили ?
Не, нельзя, но я не жалуюсь :-) мне пока не приходилось сталкиваться с тем чтобы джобу надо было останавливать если она запущена. Насколько я знаю это фича вообще пока даже ни кем и разрабатывается потому что похоже никому не нужна :D если очень хочется вырубать таски то мне кажется https://github.com/spark-jobserver/spark-jobserver" onclick="window.open(this.href);return false; должен решить проблему
Спасибо, посмотрю. Вообще хотелось бы иметь контроль над ситуацией ;)
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
User avatar
metaller
Уже с Приветом
Posts: 4532
Joined: 06 Jul 2011 12:22
Location: Oak Harbor, WA

Re: Кто гоняет Spark?

Post by metaller »

_reality wrote:<поскипано>
А вот ещё подскажите, уважаемый, можно ли в Spark SQL обойтись без Hive metastore в случае если таблички лежат на HDFS в Parquet ? Насколько я знаю Parquet файлы содержат в себе метаинформацию. Спрашиваю потому, что мы сейчас используем Hive и очень часто валится Hive metastore. При переходе на Spark SQL хотелось бы избежать использования Hive metastore.
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
_reality
Уже с Приветом
Posts: 232
Joined: 18 Nov 2014 22:55
Location: SFBA

Re: Кто гоняет Spark?

Post by _reality »

metaller wrote: Спасибо, посмотрю. Вообще хотелось бы иметь контроль над ситуацией ;)
Да в том то и дело что таких ситуаций почти не бывает, нужно перелопатить кучу данных, запускаешь и лопатишь, зачем останавливать то посередине работы :-) ну точнее наверное есть какие то юзкейсы но я пока не сталкивался. В общем это точно не то что должно останавливать от использования спарка.

К тому же в случае Ярна, если я в середине большой таски я понимаю что она мне больше не нужна, то да, я вырубаю кластер. Но это как раз таки то для чего Ярн/Месос и нужен. У нас каждое приложение создает в Ярне себе спарк кластер нужного размера и нужной версии. Некоторые приложения работают 24/7, а некоторые стартанули, посчитали что то, и выключили кластер-освободили ресурсы.
_reality
Уже с Приветом
Posts: 232
Joined: 18 Nov 2014 22:55
Location: SFBA

Re: Кто гоняет Spark?

Post by _reality »

metaller wrote:
_reality wrote:<поскипано>
А вот ещё подскажите, уважаемый, можно ли в Spark SQL обойтись без Hive metastore в случае если таблички лежат на HDFS в Parquet ? Насколько я знаю Parquet файлы содержат в себе метаинформацию. Спрашиваю потому, что мы сейчас используем Hive и очень часто валится Hive metastore. При переходе на Spark SQL хотелось бы избежать использования Hive metastore.
Да можно. У нас сейчас Hive несовместим с Spark 1.5.0 по этому вся работа с хайв таблицами идет мимо метастора как с простыми паркет файлами. То есть если нужно просто читать и не надо делать новые партишены то вообще никаких проблем.

Спарк сам находит партишены и схему грузит. Короче вообще все гладко.
_reality
Уже с Приветом
Posts: 232
Joined: 18 Nov 2014 22:55
Location: SFBA

Re: Кто гоняет Spark?

Post by _reality »

Но возможно Спарк все равно нужно собрать с поддержкой Хайва, это может быть проблема конкретно нашей версии клаудеры или еще чего, но даже если я не работаю с хайвом а просто делаю DataFrame из паркета если спарк собран без хайва то все падает. В общем в нем есть сюрпризы, но в целом все ок.
User avatar
metaller
Уже с Приветом
Posts: 4532
Joined: 06 Jul 2011 12:22
Location: Oak Harbor, WA

Re: Кто гоняет Spark?

Post by metaller »

_reality wrote:У нас каждое приложение создает в Ярне себе спарк кластер нужного размера и нужной версии. Некоторые приложения работают 24/7, а некоторые стартанули, посчитали что то, и выключили кластер-освободили ресурсы.
Хм, ну у нас нужно просто чтобы в любой момент приложение могло подконнектится по JDBC и выдать SQL query на выполнение. Иметь несколько кластеров или стартовать/останавливать нам вроде не надо ...
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
Easbayguy
Уже с Приветом
Posts: 10632
Joined: 17 Jul 2003 22:11

Re: Кто гоняет Spark?

Post by Easbayguy »

Интересно, что будет востребованно через года 2-3 с точки зрения архитектора/администратора?
Пх'нглуи мглв'нафх Ктулху Р'лайх угахнагл фхтагн

Return to “Вопросы и новости IT”