Народ, меня тут босс озадачил, интересуется он, как бы научиться мониторитьс перформанце нашис приложений, особенно в разработке длаы отладки в условиях <hadoop>, ну и в условиях продуцтион.
То, что сейчас имеется охватывает работу всего кластера. У нас типа кластер на месте, <MapR> разлива, на дашбоард можно проследить загрузку нодов, память, <CPU>, там здоровье нодов. НО... когда речь идет о конкретной задаче, то тут уже нужно копать от запуска задачи, сколько контейнеров на каких нодах, и все меняется в процессе. Приходится лазить по всем логам, чтоды найти причину сбоя. Недавно у нас был сбой, спарк пишет, что задача закончилась успехом, для спарка, но сама задача упала, в результате нарушения цомминицатион с апплиацтионМанагер и ето стоило времени порыться по всем логам сбойных контейнеров. Что бы такое иметь, чтобы поскорее узнать причину сбоя.
Народ, кто работает с етим? Что вы используете? У нас есть <elasticsearch> , который дает основные сообшения по кластеру. Что можно такое найти, чтобы получить данные по конкретной задаче, или по задачам ацтивным в данный момент? Я нашла какую-то аппликуху, но там люди пишут ее нужно устанавливать вместе с задачей Что вы такое используете, что можно почитать.
applications' monitoring
-
- Уже с Приветом
- Posts: 12059
- Joined: 15 Feb 2002 10:01
- Location: TX
-
- Уже с Приветом
- Posts: 472
- Joined: 01 Nov 2017 21:42
Re: applications' monitoring
Похоже, вам нужен Prometheus https://justpaste.it/1d062
-
- Уже с Приветом
- Posts: 12059
- Joined: 15 Feb 2002 10:01
- Location: TX
Re: applications' monitoring
спасибо, ето похоже на то, что я нашла. Не то, что босс хочет
-
- Уже с Приветом
- Posts: 2913
- Joined: 08 May 2016 19:09
Re: applications' monitoring
как вообще такие задачи можно решать на форуме? У нас недавно с одним из корпов джоб упал, так 2 недели искали причину, не смотря на все мониторинги и алерты.