applications' monitoring

Likenew · Post by **Likenew** » 29 Jan 2018 02:52

Народ, меня тут босс озадачил, интересуется он, как бы научиться мониторитьс перформанце нашис приложений, особенно в разработке длаы отладки в условиях <hadoop>, ну и в условиях продуцтион.

То, что сейчас имеется охватывает работу всего кластера. У нас типа кластер на месте, <MapR> разлива, на дашбоард можно проследить загрузку нодов, память, <CPU>, там здоровье нодов. НО... когда речь идет о конкретной задаче, то тут уже нужно копать от запуска задачи, сколько контейнеров на каких нодах, и все меняется в процессе. Приходится лазить по всем логам, чтоды найти причину сбоя. Недавно у нас был сбой, спарк пишет, что задача закончилась успехом, для спарка, но сама задача упала, в результате нарушения цомминицатион с апплиацтионМанагер и ето стоило времени порыться по всем логам сбойных контейнеров. Что бы такое иметь, чтобы поскорее узнать причину сбоя.

Народ, кто работает с етим? Что вы используете? У нас есть <elasticsearch> , который дает основные сообшения по кластеру. Что можно такое найти, чтобы получить данные по конкретной задаче, или по задачам ацтивным в данный момент? Я нашла какую-то аппликуху, но там люди пишут ее нужно устанавливать вместе с задачей Что вы такое используете, что можно почитать.

Бубновый Валет · 29 Jan 2018 05:00

Похоже, вам нужен Prometheus https://justpaste.it/1d062

Likenew · Post by **Likenew** » 05 Feb 2018 02:20

спасибо, ето похоже на то, что я нашла. Не то, что босс хочет

OhBoy · Post by **OhBoy** » 05 Feb 2018 03:10

как вообще такие задачи можно решать на форуме? У нас недавно с одним из корпов джоб упал, так 2 недели искали причину, не смотря на все мониторинги и алерты.

Привет

applications' monitoring

applications' monitoring

Re: applications' monitoring

Re: applications' monitoring

Re: applications' monitoring