Кто гоняет Spark?
-
- Уже с Приветом
- Posts: 34164
- Joined: 03 Dec 2000 10:01
- Location: Vladivostok->San Francisco->Los Angeles->San Francisco
Кто гоняет Spark?
Расскажите, что за задачи гоняете и в чем так сказать прелесть в отличии от того же Хадупа?
У нас на проекте похоже предстоит внедреж хочу понять где узкие места.
У нас на проекте похоже предстоит внедреж хочу понять где узкие места.
"A patriot must always be ready to defend his country against his government." Edward Abbey
-
- Уже с Приветом
- Posts: 4532
- Joined: 06 Jul 2011 12:22
- Location: Oak Harbor, WA
Re: Кто гоняет Spark?
Мы тоже гоняем Hadoop/Hive, облизываемся на Spark SQL. Пока нифига не ясно будет оно жить или как.
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
-
- Уже с Приветом
- Posts: 12262
- Joined: 20 Dec 2000 10:01
- Location: Bellevue, WA
Re: Кто гоняет Spark?
На алгоритмах где данные влазят в память все летает раз в 100 быстрее на спарке чем в мапредюсе
Я беру hi4large in AWS, spot instances, там 64Г на 16 thread, классно и дешево
Я беру hi4large in AWS, spot instances, там 64Г на 16 thread, классно и дешево
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Кто гоняет Spark?
Сергунька, вот отличный ресурс - Developer track from Spark Summit. Там есть сессии всего на несколько часов после которых многое проясняется с практической точки зренияSergunka wrote:Расскажите, что за задачи гоняете и в чем так сказать прелесть в отличии от того же Хадупа?
У нас на проекте похоже предстоит внедреж хочу понять где узкие места.
http://livestream.com/fourstream/sparksummit2015-tracka" onclick="window.open(this.href);return false;
Еще у нас тут митап в городе с Матеем и Databricks - лучше ресурса и не придумать
http://www.meetup.com/spark-users/" onclick="window.open(this.href);return false;
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 34164
- Joined: 03 Dec 2000 10:01
- Location: Vladivostok->San Francisco->Los Angeles->San Francisco
Re: Кто гоняет Spark?
А как там вообще считается влезет в память или нет?Dweller wrote:На алгоритмах где данные влазят в память все летает раз в 100 быстрее на спарке чем в мапредюсе
Я беру hi4large in AWS, spot instances, там 64Г на 16 thread, классно и дешево
"A patriot must always be ready to defend his country against his government." Edward Abbey
-
- Уже с Приветом
- Posts: 4532
- Joined: 06 Jul 2011 12:22
- Location: Oak Harbor, WA
Re: Кто гоняет Spark?
Spark не упадёт, если в память не влезет, просто будет медленее работать. Но всё равно быстрее, чем MapReduce.Sergunka wrote:А как там вообще считается влезет в память или нет?
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
-
- Уже с Приветом
- Posts: 34164
- Joined: 03 Dec 2000 10:01
- Location: Vladivostok->San Francisco->Los Angeles->San Francisco
Re: Кто гоняет Spark?
Ага понял там есть такая опция при настройках.metaller wrote:Spark не упадёт, если в память не влезет, просто будет медленее работать. Но всё равно быстрее, чем MapReduce.Sergunka wrote:А как там вообще считается влезет в память или нет?
"A patriot must always be ready to defend his country against his government." Edward Abbey
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Кто гоняет Spark?
У нас сегодня было продакшен ишью на спарке, все встало. Root cause интересный оказался, в общем то задача для девопс (кмк)
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 34164
- Joined: 03 Dec 2000 10:01
- Location: Vladivostok->San Francisco->Los Angeles->San Francisco
Re: Кто гоняет Spark?
Посмотрел как запускать на кластере - что народ скажет - кто какой опцией пользуется?
1) Amazon EC2: our EC2 scripts let you launch a cluster in about 5 minutes
2) Standalone Deploy Mode: simplest way to deploy Spark on a private cluster
3) Apache Mesos
4) Hadoop YARN
Я как-то за 2 опцию, но может есть огромные преимущества от других?
1) Amazon EC2: our EC2 scripts let you launch a cluster in about 5 minutes
2) Standalone Deploy Mode: simplest way to deploy Spark on a private cluster
3) Apache Mesos
4) Hadoop YARN
Я как-то за 2 опцию, но может есть огромные преимущества от других?
"A patriot must always be ready to defend his country against his government." Edward Abbey
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Кто гоняет Spark?
Сергунька,
Думаю Спарк тут никто особо не гоняет
Думаю Спарк тут никто особо не гоняет
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Новичок
- Posts: 30
- Joined: 14 Jul 2015 14:23
Re: Кто гоняет Spark?
Вот же ж интересно. Спарк никто особо не гоняет, а какие позиции не посмотришь - многие хотят Спарк. Как же так?
На edx был курс Apache Spark.
Ну и еще докину https://spark.apache.org/documentation.html" onclick="window.open(this.href);return false;
На edx был курс Apache Spark.
Ну и еще докину https://spark.apache.org/documentation.html" onclick="window.open(this.href);return false;
-
- Уже с Приветом
- Posts: 4532
- Joined: 06 Jul 2011 12:22
- Location: Oak Harbor, WA
Re: Кто гоняет Spark?
Есть ещё опция арендовать кластер у databricks.comSergunka wrote:Посмотрел как запускать на кластере - что народ скажет - кто какой опцией пользуется?
1) Amazon EC2: our EC2 scripts let you launch a cluster in about 5 minutes
2) Standalone Deploy Mode: simplest way to deploy Spark on a private cluster
3) Apache Mesos
4) Hadoop YARN
Я как-то за 2 опцию, но может есть огромные преимущества от других?
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Кто гоняет Spark?
Завтра спарковсуий митап хороший в городе от Датабрик - spark и spark streaning в Uber-е. Так обидно, придется пропустить
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 209
- Joined: 12 Sep 2015 23:22
Re: Кто гоняет Spark?
А что вы считаете на Спарке, кроме подсчета слов в предложении?
Экономика России - это просто другое название для цены нефти
-
- Уже с Приветом
- Posts: 232
- Joined: 18 Nov 2014 22:55
- Location: SFBA
Re: Кто гоняет Spark?
Мы гоняем на Ярне потому что у нас уже есть большой Халуп кластер уже. Очень доволен Очень круто что есть dynamic allocation который пока еще нигде кроме ярна нету
-
- Уже с Приветом
- Posts: 4532
- Joined: 06 Jul 2011 12:22
- Location: Oak Harbor, WA
Re: Кто гоняет Spark?
В каком городе-то ?Сабина wrote:Завтра спарковсуий митап хороший в городе от Датабрик - spark и spark streaning в Uber-е. Так обидно, придется пропустить
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
-
- Уже с Приветом
- Posts: 4532
- Joined: 06 Jul 2011 12:22
- Location: Oak Harbor, WA
Re: Кто гоняет Spark?
Кстати мне тут коллеги из соседнего проекта жаловались, что в Спарке если уж запустил джоб, то его нельзя остановить/убить. Ну разве что кластер перестартовать Это уже пофиксили ?_reality wrote:Мы гоняем на Ярне потому что у нас уже есть большой Халуп кластер уже. Очень доволен Очень круто что есть dynamic allocation который пока еще нигде кроме ярна нету
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
-
- Уже с Приветом
- Posts: 232
- Joined: 18 Nov 2014 22:55
- Location: SFBA
Re: Кто гоняет Spark?
Не, нельзя, но я не жалуюсь мне пока не приходилось сталкиваться с тем чтобы джобу надо было останавливать если она запущена. Насколько я знаю это фича вообще пока даже ни кем и разрабатывается потому что похоже никому не нужна если очень хочется вырубать таски то мне кажется https://github.com/spark-jobserver/spark-jobserver" onclick="window.open(this.href);return false; должен решить проблемуmetaller wrote: Кстати мне тут коллеги из соседнего проекта жаловались, что в Спарке если уж запустил джоб, то его нельзя остановить/убить. Ну разве что кластер перестартовать Это уже пофиксили ?
-
- Уже с Приветом
- Posts: 4532
- Joined: 06 Jul 2011 12:22
- Location: Oak Harbor, WA
Re: Кто гоняет Spark?
Спасибо, посмотрю. Вообще хотелось бы иметь контроль над ситуацией_reality wrote:Не, нельзя, но я не жалуюсь мне пока не приходилось сталкиваться с тем чтобы джобу надо было останавливать если она запущена. Насколько я знаю это фича вообще пока даже ни кем и разрабатывается потому что похоже никому не нужна если очень хочется вырубать таски то мне кажется https://github.com/spark-jobserver/spark-jobserver" onclick="window.open(this.href);return false; должен решить проблемуmetaller wrote: Кстати мне тут коллеги из соседнего проекта жаловались, что в Спарке если уж запустил джоб, то его нельзя остановить/убить. Ну разве что кластер перестартовать Это уже пофиксили ?
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
-
- Уже с Приветом
- Posts: 4532
- Joined: 06 Jul 2011 12:22
- Location: Oak Harbor, WA
Re: Кто гоняет Spark?
А вот ещё подскажите, уважаемый, можно ли в Spark SQL обойтись без Hive metastore в случае если таблички лежат на HDFS в Parquet ? Насколько я знаю Parquet файлы содержат в себе метаинформацию. Спрашиваю потому, что мы сейчас используем Hive и очень часто валится Hive metastore. При переходе на Spark SQL хотелось бы избежать использования Hive metastore._reality wrote:<поскипано>
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
-
- Уже с Приветом
- Posts: 232
- Joined: 18 Nov 2014 22:55
- Location: SFBA
Re: Кто гоняет Spark?
Да в том то и дело что таких ситуаций почти не бывает, нужно перелопатить кучу данных, запускаешь и лопатишь, зачем останавливать то посередине работы ну точнее наверное есть какие то юзкейсы но я пока не сталкивался. В общем это точно не то что должно останавливать от использования спарка.metaller wrote: Спасибо, посмотрю. Вообще хотелось бы иметь контроль над ситуацией
К тому же в случае Ярна, если я в середине большой таски я понимаю что она мне больше не нужна, то да, я вырубаю кластер. Но это как раз таки то для чего Ярн/Месос и нужен. У нас каждое приложение создает в Ярне себе спарк кластер нужного размера и нужной версии. Некоторые приложения работают 24/7, а некоторые стартанули, посчитали что то, и выключили кластер-освободили ресурсы.
-
- Уже с Приветом
- Posts: 232
- Joined: 18 Nov 2014 22:55
- Location: SFBA
Re: Кто гоняет Spark?
Да можно. У нас сейчас Hive несовместим с Spark 1.5.0 по этому вся работа с хайв таблицами идет мимо метастора как с простыми паркет файлами. То есть если нужно просто читать и не надо делать новые партишены то вообще никаких проблем.metaller wrote:А вот ещё подскажите, уважаемый, можно ли в Spark SQL обойтись без Hive metastore в случае если таблички лежат на HDFS в Parquet ? Насколько я знаю Parquet файлы содержат в себе метаинформацию. Спрашиваю потому, что мы сейчас используем Hive и очень часто валится Hive metastore. При переходе на Spark SQL хотелось бы избежать использования Hive metastore._reality wrote:<поскипано>
Спарк сам находит партишены и схему грузит. Короче вообще все гладко.
-
- Уже с Приветом
- Posts: 232
- Joined: 18 Nov 2014 22:55
- Location: SFBA
Re: Кто гоняет Spark?
Но возможно Спарк все равно нужно собрать с поддержкой Хайва, это может быть проблема конкретно нашей версии клаудеры или еще чего, но даже если я не работаю с хайвом а просто делаю DataFrame из паркета если спарк собран без хайва то все падает. В общем в нем есть сюрпризы, но в целом все ок.
-
- Уже с Приветом
- Posts: 4532
- Joined: 06 Jul 2011 12:22
- Location: Oak Harbor, WA
Re: Кто гоняет Spark?
Хм, ну у нас нужно просто чтобы в любой момент приложение могло подконнектится по JDBC и выдать SQL query на выполнение. Иметь несколько кластеров или стартовать/останавливать нам вроде не надо ..._reality wrote:У нас каждое приложение создает в Ярне себе спарк кластер нужного размера и нужной версии. Некоторые приложения работают 24/7, а некоторые стартанули, посчитали что то, и выключили кластер-освободили ресурсы.
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
-
- Уже с Приветом
- Posts: 10632
- Joined: 17 Jul 2003 22:11
Re: Кто гоняет Spark?
Интересно, что будет востребованно через года 2-3 с точки зрения архитектора/администратора?
Пх'нглуи мглв'нафх Ктулху Р'лайх угахнагл фхтагн