Читаешь про архитектору Спарка и везде столько оптимизма что RDD-это сплошная круть и memory management такой оптимальный что програмеру ничегошеньки делать не надо. А на деле - тот же EMR кластер нередко страдает от нехватки памяти или disk space в определеленных ситуациях. Понятно что он масштабируемый, но карман тоже у людей не безразмерный .
Я думаю что будет примерно как с garbage collection. Когда сначала все бегали и радовались что програмера освободили от рутинной работы с памятью, а потом со временем окажется что никто никого не освободил, наоборот нужно хорошее понимание процесса ( уже для JVM в этом конкретном случае).
Интересно есть уже какие tips по написанию Spark программ для более эффективного использования ресурсов? Кроме обычных variable scope etc ?
Spark and memory management
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Spark and memory management
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 4195
- Joined: 27 Apr 2011 03:43
- Location: Сергели ->Chicago
Re: Spark and memory management
Сабина, в этом и есть вся ценность спарк спеца в частности и Big Data в целом, там нет готовых решений.Сабина wrote: Интересно есть уже какие tips по написанию Spark программ для более эффективного использования ресурсов? Кроме обычных variable scope etc ?
Да есть более менее стандартные инструменты, но под каждый проект приходится разбираться и прилогать инженерные идеи.
А потому и платят прилично и найти людей сложно.
тут я почерпнул некоторые идеи по спарку, не в глубоких деталях, но для общего понятия было полезно.
https://academy.datastax.com/courses/ge ... ache-spark" onclick="window.open(this.href);return false;
- Optimization
- Tuning Partitioning
- Spark Streaming
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Spark and memory management
Спасибо, а у нашего класса нету таких топиков, хотя он весь из себя хендзонvalchkou wrote:Сабина, в этом и есть вся ценность спарк спеца в частности и Big Data в целом, там нет готовых решений.Сабина wrote: Интересно есть уже какие tips по написанию Spark программ для более эффективного использования ресурсов? Кроме обычных variable scope etc ?
Да есть более менее стандартные инструменты, но под каждый проект приходится разбираться и прилогать инженерные идеи.
А потому и платят прилично и найти людей сложно.
тут я почерпнул некоторые идеи по спарку, не в глубоких деталях, но для общего понятия было полезно.
https://academy.datastax.com/courses/ge ... ache-spark" onclick="window.open(this.href);return false;
- Optimization
- Tuning Partitioning
- Spark Streaming
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 193
- Joined: 08 Jun 2001 09:01
Re: Spark and memory management
Спарк хорошо работает в качестве in-memory, distributed sql-like query engine. Если все данные засунуть в память получается быстро гонять аналитические запросы на больших обьемах - без индексов, star schema и прочих артефактов традиционной аналитики.