Правильный подход. Transient or persistent EMR?Сабина wrote: ↑15 Nov 2017 23:20 Cпасибо, не знала что так делают. У нас каждый spark submit job работает с одним источником данных (s3 bucket), "driver program" прикидывает что к чему, какие будут нужны ресурсы, потом скока надо экзекьюторов колбасят (partitioning + auto-scaling), возвращают результат и все контекст умирает.
Что касается AWS, то это конечно дорого, но это не наши проблемы. Рукодельный кластер запаришься конфигурить и поддерживать и проблемы искать, да и вообще, если контора на AWS скупится, то значит жадобы => денюх от них не дождешься. А даже если и дадут денег, то заодно повесят админскую работу. Нафик-нафик такой график.