Spark and memory management

Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Spark and memory management

Post by Сабина »

Читаешь про архитектору Спарка и везде столько оптимизма что RDD-это сплошная круть и memory management такой оптимальный что програмеру ничегошеньки делать не надо. А на деле - тот же EMR кластер нередко страдает от нехватки памяти или disk space в определеленных ситуациях. Понятно что он масштабируемый, но карман тоже у людей не безразмерный :).

Я думаю что будет примерно как с garbage collection. Когда сначала все бегали и радовались что програмера освободили от рутинной работы с памятью, а потом со временем окажется что никто никого не освободил, наоборот нужно хорошее понимание процесса ( уже для JVM в этом конкретном случае).

Интересно есть уже какие tips по написанию Spark программ для более эффективного использования ресурсов? Кроме обычных variable scope etc ?
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
valchkou
Уже с Приветом
Posts: 4195
Joined: 27 Apr 2011 03:43
Location: Сергели ->Chicago

Re: Spark and memory management

Post by valchkou »

Сабина wrote: Интересно есть уже какие tips по написанию Spark программ для более эффективного использования ресурсов? Кроме обычных variable scope etc ?
Сабина, в этом и есть вся ценность спарк спеца в частности и Big Data в целом, там нет готовых решений.
Да есть более менее стандартные инструменты, но под каждый проект приходится разбираться и прилогать инженерные идеи.
А потому и платят прилично и найти людей сложно.
тут я почерпнул некоторые идеи по спарку, не в глубоких деталях, но для общего понятия было полезно.
https://academy.datastax.com/courses/ge ... ache-spark" onclick="window.open(this.href);return false;
- Optimization
- Tuning Partitioning
- Spark Streaming
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Spark and memory management

Post by Сабина »

valchkou wrote:
Сабина wrote: Интересно есть уже какие tips по написанию Spark программ для более эффективного использования ресурсов? Кроме обычных variable scope etc ?
Сабина, в этом и есть вся ценность спарк спеца в частности и Big Data в целом, там нет готовых решений.
Да есть более менее стандартные инструменты, но под каждый проект приходится разбираться и прилогать инженерные идеи.
А потому и платят прилично и найти людей сложно.
тут я почерпнул некоторые идеи по спарку, не в глубоких деталях, но для общего понятия было полезно.
https://academy.datastax.com/courses/ge ... ache-spark" onclick="window.open(this.href);return false;
- Optimization
- Tuning Partitioning
- Spark Streaming
Спасибо, а у нашего класса нету таких топиков, хотя он весь из себя хендзон
https://www.youtube.com/watch?v=wOwblaKmyVw
john_22
Уже с Приветом
Posts: 193
Joined: 08 Jun 2001 09:01

Re: Spark and memory management

Post by john_22 »

Спарк хорошо работает в качестве in-memory, distributed sql-like query engine. Если все данные засунуть в память получается быстро гонять аналитические запросы на больших обьемах - без индексов, star schema и прочих артефактов традиционной аналитики.

Return to “Вопросы и новости IT”