Датасатанисты и иже с ними

User avatar
Сабина
Уже с Приветом
Posts: 19045
Joined: 11 Jan 2012 09:25
Location: CA

Датасатанисты и иже с ними

Post by Сабина »

Обращусь тут, потому что в вопросы IT больше никто не ходит видимо :)
Вопрос к датасатанистам. В частности к тем кто и за своих дата инженеров работает .. И прочти ML инженерам кто у ФААНГов оттяпал длинных доллар :mrgreen:

Слабо подсказать хорошую питоновскую библиотеку , а заодно и алгоритмы обсчёта и визуализации timeseries data .
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
Komissar
Уже с Приветом
Posts: 65198
Joined: 12 Jul 2002 16:38
Location: г.Москва, ул. Б. Лубянка, д.2

Re: Датасатанисты и иже с ними

Post by Komissar »

Сабина wrote: 03 Oct 2021 05:23 Обращусь тут, потому что в вопросы IT больше никто не ходит видимо :)
Вопрос к датасатанистам. В частности к тем кто и за своих дата инженеров работает .. И прочти ML инженерам кто у ФААНГов оттяпал длинных доллар :mrgreen:

Слабо подсказать хорошую питоновскую библиотеку , а заодно и алгоритмы обсчёта и визуализации timeseries data .
Py.org
User avatar
kyk
Уже с Приветом
Posts: 31438
Joined: 21 Nov 2004 05:12
Location: камбуз на кампусе

Re: Датасатанисты и иже с ними

Post by kyk »

Komissar wrote: 03 Oct 2021 06:11Py.org
нагуглил или фишку сечёшь?
Лучше переесть, чем недоспать! © Обратное тоже верно :umnik1:
User avatar
Big W
Уже с Приветом
Posts: 920
Joined: 22 Jun 2007 20:41
Location: Santa Rosita

Re: Датасатанисты и иже с ними

Post by Big W »

Сам не датасатанист, но недавно в каком-то форуме на глаза попалось вот такое на эту тему:
https://github.com/salesforce/Merlion
Merlion is a Python library for time series intelligence. It provides an end-to-end machine learning framework that includes loading and transforming data, building and training models, post-processing model outputs, and evaluating model performance. It supports various time series learning tasks, including forecasting and anomaly detection for both univariate and multivariate time series. This library aims to provide engineers and researchers a one-stop solution to rapidly develop models for their specific time series needs, and benchmark them across multiple time series datasets.

Merlion's key features are

Standardized and easily extensible data loading & benchmarking for a wide range of forecasting and anomaly detection datasets.
A library of diverse models for both anomaly detection and forecasting, unified under a shared interface. Models include classic statistical methods, tree ensembles, and deep learning approaches. Advanced users may fully configure each model as desired.
Abstract DefaultDetector and DefaultForecaster models that are efficient, robustly achieve good performance, and provide a starting point for new users.
AutoML for automated hyperaparameter tuning and model selection.
Practical, industry-inspired post-processing rules for anomaly detectors that make anomaly scores more interpretable, while also reducing the number of false positives.
Easy-to-use ensembles that combine the outputs of multiple models to achieve more robust performance.
Flexible evaluation pipelines that simulate the live deployment & re-training of a model in production, and evaluate performance on both forecasting and anomaly detection.
Native support for visualizing model predictions.
User avatar
Сабина
Уже с Приветом
Posts: 19045
Joined: 11 Jan 2012 09:25
Location: CA

Re: Датасатанисты и иже с ними

Post by Сабина »

Big W wrote: 03 Oct 2021 19:17 Сам не датасатанист, но недавно в каком-то форуме на глаза попалось вот такое на эту тему:
https://github.com/salesforce/Merlion
Merlion is a Python library for time series intelligence. It provides an end-to-end machine learning framework that includes loading and transforming data, building and training models, post-processing model outputs, and evaluating model performance. It supports various time series learning tasks, including forecasting and anomaly detection for both univariate and multivariate time series. This library aims to provide engineers and researchers a one-stop solution to rapidly develop models for their specific time series needs, and benchmark them across multiple time series datasets.

Merlion's key features are

Standardized and easily extensible data loading & benchmarking for a wide range of forecasting and anomaly detection datasets.
A library of diverse models for both anomaly detection and forecasting, unified under a shared interface. Models include classic statistical methods, tree ensembles, and deep learning approaches. Advanced users may fully configure each model as desired.
Abstract DefaultDetector and DefaultForecaster models that are efficient, robustly achieve good performance, and provide a starting point for new users.
AutoML for automated hyperaparameter tuning and model selection.
Practical, industry-inspired post-processing rules for anomaly detectors that make anomaly scores more interpretable, while also reducing the number of false positives.
Easy-to-use ensembles that combine the outputs of multiple models to achieve more robust performance.
Flexible evaluation pipelines that simulate the live deployment & re-training of a model in production, and evaluate performance on both forecasting and anomaly detection.
Native support for visualizing model predictions.
Спасибо попробую. В итоге записалась на класс своего любимого препода, если что интересное узнаю - поделюсь
Моя цель - нарисовать charts которые помогут быстренько понять trends входных данных. Последние как обычно multidimensional timeseries и хочется посмотреть как одно и то же property меняется в зависимости от времени для разных dimensions etc. Наложить все это дело на upstream business events, посмотреть как коррелируется. Предсказания в данном случае бессмысленны, просто хочется понять trends
https://www.youtube.com/watch?v=wOwblaKmyVw
Mmodel
Уже с Приветом
Posts: 8193
Joined: 27 Mar 2016 23:56

Re: Датасатанисты и иже с ними

Post by Mmodel »

Сабина wrote: 03 Oct 2021 21:58 Моя цель - нарисовать charts которые помогут быстренько понять trends входных данных
тобишь прогнать на каких-то данных и получить продукт как функции.
И эти функции будут рисовать вам charts для потока данных?
User avatar
Komissar
Уже с Приветом
Posts: 65198
Joined: 12 Jul 2002 16:38
Location: г.Москва, ул. Б. Лубянка, д.2

Re: Датасатанисты и иже с ними

Post by Komissar »

Сабина wrote: 03 Oct 2021 21:58 хочется посмотреть как одно и то же property меняется в зависимости от времени для разных dimensions etc. Наложить все это дело на upstream business events, посмотреть как коррелируется. Предсказания в данном случае бессмысленны, просто хочется понять trends
Всегда помогает четко знать, что именно хочешь узнать от данных.
Mmodel
Уже с Приветом
Posts: 8193
Joined: 27 Mar 2016 23:56

Re: Датасатанисты и иже с ними

Post by Mmodel »

Сабина wrote: 03 Oct 2021 21:58 просто хочется понять trends
Если я правильно понял, сидеть и пытатся понять что за функция получилась.
User avatar
Сабина
Уже с Приветом
Posts: 19045
Joined: 11 Jan 2012 09:25
Location: CA

Re: Датасатанисты и иже с ними

Post by Сабина »

Mmodel wrote: 03 Oct 2021 23:09
Сабина wrote: 03 Oct 2021 21:58 просто хочется понять trends
Если я правильно понял, сидеть и пытатся понять что за функция получилась.
Нет. Но это узкая domain , нет смысла лезть в детали.
Если примитивно, допустим у вас есть данные по тому сколько денег тратит каждый человек на планете. Понятно что у человека есть куча всяких dimensions - возраст, страна проживания, образование, доход, семейное положение. Вы хотите выявить trends - в какой стране больше тратят деньги в июле месяце ? Или какая возрастная категория потратила больше всего денег за лето. И проч и так далее . Функция не волнует, хочется посмотреть на эти trends и наложить на какие то business events, посмотреть как влияют на расходы. Пример business event - начало Ковида например , или период летних каникул и т.д.
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
Komissar
Уже с Приветом
Posts: 65198
Joined: 12 Jul 2002 16:38
Location: г.Москва, ул. Б. Лубянка, д.2

Re: Датасатанисты и иже с ними

Post by Komissar »

Сабина wrote: 04 Oct 2021 03:42 Вы хотите выявить trends - в какой стране больше тратят деньги в июле месяце ? Или какая возрастная категория потратила больше всего денег за лето.
На это есть SQL. Не слышала раньше?
Andrey Strelnikov
Уже с Приветом
Posts: 744
Joined: 17 Dec 2009 11:27

Re: Датасатанисты и иже с ними

Post by Andrey Strelnikov »

Сабина wrote: 03 Oct 2021 05:23 Обращусь тут, потому что в вопросы IT больше никто не ходит видимо :)
Вопрос к датасатанистам. В частности к тем кто и за своих дата инженеров работает .. И прочти ML инженерам кто у ФААНГов оттяпал длинных доллар :mrgreen:

Слабо подсказать хорошую питоновскую библиотеку , а заодно и алгоритмы обсчёта и визуализации timeseries data .
Могу только книжку создателя pandas на русском подсказать -
Маккини У. Python и анализ данных
Wes McKinney. Python for Data Analysis.
Библиотеки описаны конечно по состоянию на 2017 год. Визуализация не самая модная описана.
Вполне хватит и этого для начала.
User avatar
Сабина
Уже с Приветом
Posts: 19045
Joined: 11 Jan 2012 09:25
Location: CA

Re: Датасатанисты и иже с ними

Post by Сабина »

Снежная Королева wrote: 05 Oct 2021 02:46 Сабина, если для работы, вам оно не надо, поверьте мне. Дата сайенс это 80% DE, еще 10% знание конкретного бизнеса, 5% анализ и 5% sales (виз, презентации, snake oil stakeholder influence).

Анализ делать стоит армия желающих business majors etc, и за это не платят. Sales надо иметь credentials + харизма. Простые смертные делают деньги в DE.

Не надо вам time series, выучите лучше Airflow, db, Medallion, Holistic, Looker или ещё какой модный DE tool.
Вы не понимаете. Как раз таки Data engineering tools ( airflow, spark, streaming, GCP ML stack etc ) я владею на А+. В данном случае мне нужно представить данные чтобы отстоять свою идею - development project . А когда у тебя час времени и большая аудитория - Visualization is the key
https://www.youtube.com/watch?v=wOwblaKmyVw
Andrey Strelnikov
Уже с Приветом
Posts: 744
Joined: 17 Dec 2009 11:27

Re: Датасатанисты и иже с ними

Post by Andrey Strelnikov »

Сабина wrote: 06 Oct 2021 02:36
Снежная Королева wrote: 05 Oct 2021 02:46 Сабина, если для работы, вам оно не надо, поверьте мне. Дата сайенс это 80% DE, еще 10% знание конкретного бизнеса, 5% анализ и 5% sales (виз, презентации, snake oil stakeholder influence).

Анализ делать стоит армия желающих business majors etc, и за это не платят. Sales надо иметь credentials + харизма. Простые смертные делают деньги в DE.

Не надо вам time series, выучите лучше Airflow, db, Medallion, Holistic, Looker или ещё какой модный DE tool.
Вы не понимаете. Как раз таки Data engineering tools ( airflow, spark, streaming, GCP ML stack etc ) я владею на А+. В данном случае мне нужно представить данные чтобы отстоять свою идею - development project . А когда у тебя час времени и большая аудитория - Visualization is the key
Сам был примерно в такой ситуации при защите первого data science проекта. Помогло штудирование всякой теории при ответе на всякие вопросы. Плюс в пилоте проект был - почти готовую сетку взяли из книги :). Те на вопросы "как" тоже смогли ответить.
Снежная Королева пытается донести мысль, что Вам может не хватить теоретических знаний при защите. Хотя они у Вас возможно есть.
Мы примерно год вспоминали линейную алгебру, тервер и статистику. Плюс ковыряли на курсах библиотеки.

Ничего там страшного нет - все проходили в универе. Я лично два раза мимо проходил.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Датасатанисты и иже с ними

Post by Физик-Лирик »

Снежная Королева wrote: 05 Oct 2021 02:46 Не надо вам time series,
Оно может и надо, но без знания математики все скорее всего сведется к "ижи с ними", т.е. имплементации взятого с Интернета кода.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Датасатанисты и иже с ними

Post by Физик-Лирик »

Andrey Strelnikov wrote: 06 Oct 2021 09:27 Мы примерно год вспоминали линейную алгебру, тервер и статистику. Плюс ковыряли на курсах библиотеки.
Матан не назвали :D .
User avatar
Сабина
Уже с Приветом
Posts: 19045
Joined: 11 Jan 2012 09:25
Location: CA

Re: Датасатанисты и иже с ними

Post by Сабина »

Andrey Strelnikov wrote: 06 Oct 2021 09:27
Сабина wrote: 06 Oct 2021 02:36
Снежная Королева wrote: 05 Oct 2021 02:46 Сабина, если для работы, вам оно не надо, поверьте мне. Дата сайенс это 80% DE, еще 10% знание конкретного бизнеса, 5% анализ и 5% sales (виз, презентации, snake oil stakeholder influence).

Анализ делать стоит армия желающих business majors etc, и за это не платят. Sales надо иметь credentials + харизма. Простые смертные делают деньги в DE.

Не надо вам time series, выучите лучше Airflow, db, Medallion, Holistic, Looker или ещё какой модный DE tool.
Вы не понимаете. Как раз таки Data engineering tools ( airflow, spark, streaming, GCP ML stack etc ) я владею на А+. В данном случае мне нужно представить данные чтобы отстоять свою идею - development project . А когда у тебя час времени и большая аудитория - Visualization is the key
Сам был примерно в такой ситуации при защите первого data science проекта. Помогло штудирование всякой теории при ответе на всякие вопросы. Плюс в пилоте проект был - почти готовую сетку взяли из книги :). Те на вопросы "как" тоже смогли ответить.
Снежная Королева пытается донести мысль, что Вам может не хватить теоретических знаний при защите. Хотя они у Вас возможно есть.
Мы примерно год вспоминали линейную алгебру, тервер и статистику. Плюс ковыряли на курсах библиотеки.

Ничего там страшного нет - все проходили в универе. Я лично два раза мимо проходил.
То что знаний нет - не спорю, да и не претендую на них. Речь идёт не о конференции какой нибудь, а об основании внутреннего проекта, в тиме где я уже 3 года работаю, о бОльшем тиме - не только backend/Data engineers. Цель - показать сколько всего интересного можно дополнительно извлечь из данных, которые мы собираем ( этот кусок я уже написала в этом году, есть данные, просто на пальцах объяснять и показывать муторно, с правильными картинками было бы куда яснее и быстрее).
https://www.youtube.com/watch?v=wOwblaKmyVw
Mmodel
Уже с Приветом
Posts: 8193
Joined: 27 Mar 2016 23:56

Re: Датасатанисты и иже с ними

Post by Mmodel »

Помоему вы пытаете сделать что-то такое что само по себе много затрат и усилий стоит.
Как показать их, в том смысле визуализировать это очень большая работа.
Но возможно найти что-то стандартное уже готовое что будет хорошо визуализовать, но это тоже работа, в смысле сам поиск это тоже работа.
User avatar
Сабина
Уже с Приветом
Posts: 19045
Joined: 11 Jan 2012 09:25
Location: CA

Re: Датасатанисты и иже с ними

Post by Сабина »

Вот эти библиотеки в классе будут разжевывать, сказали что 10-ю строками Питона смогу построить fancy timeseries chart. Будем поглядеть
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
Сабина
Уже с Приветом
Posts: 19045
Joined: 11 Jan 2012 09:25
Location: CA

Re: Датасатанисты и иже с ними

Post by Сабина »

Снежная Королева wrote: 07 Oct 2021 06:14
Сабина wrote: 06 Oct 2021 13:37 Цель - показать сколько всего интересного можно дополнительно извлечь из данных, которые мы собираем ( этот кусок я уже написала в этом году, есть данные, просто на пальцах объяснять и показывать муторно, с правильными картинками было бы куда яснее и быстрее).
А вы думаете, они не знают? :pain1:
Вопрос не в том, что можно извлечь insights, вопрос в том что потом с этими insights делать.

Любой analytics project, это три вещи.
Thing 1: DE
Thing 2: DS (analysis, insights)
Thing 3: Change management.

Самая быстрая, лёгкая и приятная (но на которую надо 10 лет учиться), это Thing 2.
Однако, Thing 3 ответственна за 95% failure rate of all proje ts.

В общем, зря потратите время.
Извините но я уже запуталась в ваших советах и рекомендациях . Это безотносительно того что на ответ на мой изначальный вопрос они мало похожи. И вы практически ничего не знаете о каком проекте речь. Такое ощущение что вы либо пытаетесь меня от чего то отговорить или сделать акцент на том что я не data scientist отвечая в этой теме. Я - не! Надеюсь это внесло ясность :)

Сначала вы писали что 80% - это data engineering. А анализа там всего ничего. Теперь пишет что анализ - это самое приятное, но результаты никому не нужны.

Моя ситуация вообще к этому всему никаким местом не относится. Я решаю очень сильно наболевшую проблему для всех, прямо сейчас. Собрала данные, которые помогают найти решение, выложила их в cloud storage в parquet, для BigQuery . Написала кучу кверей, пытаюсь объяснить возможное решение.
Дата сатанисты не просто не хотят вникнуть, они после двух , сказанных мной предложений начинают демонстративно перебивать. Из того что они говорят очевидно что они ни минуты не потратили на прочтение и продолжают говорить «мне надо Х», не понимая что им уже дали Х, У и Z. Или просто на дурку стараются это так представить перед другими на митинге что они - “жертва» несовершенных DE процессов.
А проблемы надо решать совместно, а не спихивать друг на друга.

Собственно визуализация - это мощный инструмент донесения смысла быстро и эффективно, именно это и хочу сделать. А timeseries - это база, основа.
Хоть агрегируй данные и в Excel чарты рисуй :mrgreen: .
Мне вообще странно что у них нет этих tools, данные собраны, вычищены и давно им поданы в чистом виде.


Поэтому у меня
https://www.youtube.com/watch?v=wOwblaKmyVw
sp123
Уже с Приветом
Posts: 1963
Joined: 24 Feb 2001 10:01
Location: Челябинск -> Everett, WA

Re: Датасатанисты и иже с ними

Post by sp123 »

Сабина, у вас в конторе должно быть что-нибудь стандартное для визуализации а-ля Tableau. Аналитики это дело любят, и красивый dashboard на знакомом для них инструменте, думается, воспримут позитивно.


Sent from my iPhone using Tapatalk Pro
Mmodel
Уже с Приветом
Posts: 8193
Joined: 27 Mar 2016 23:56

Re: Датасатанисты и иже с ними

Post by Mmodel »

Сабина wrote: 07 Oct 2021 16:06 А проблемы надо решать совместно, а не спихивать друг на друга.
это для инвесторов, конректно для Information Rigths provison в term sheet для VC ?
User avatar
Сабина
Уже с Приветом
Posts: 19045
Joined: 11 Jan 2012 09:25
Location: CA

Re: Датасатанисты и иже с ними

Post by Сабина »

sp123 wrote: 07 Oct 2021 21:23 Сабина, у вас в конторе должно быть что-нибудь стандартное для визуализации а-ля Tableau. Аналитики это дело любят, и красивый dashboard на знакомом для них инструменте, думается, воспримут позитивно.


Sent from my iPhone using Tapatalk Pro
У мня нет никаких слов кроме определённых когда речь заходит про инфру
https://www.youtube.com/watch?v=wOwblaKmyVw
Mmodel
Уже с Приветом
Posts: 8193
Joined: 27 Mar 2016 23:56

Re: Датасатанисты и иже с ними

Post by Mmodel »

Что-то мне кажется у sales отдела должны быть свои графики
Mmodel
Уже с Приветом
Posts: 8193
Joined: 27 Mar 2016 23:56

Re: Датасатанисты и иже с ними

Post by Mmodel »

Сабина, так и не понятно куда вы там собираетесь показывать, preferred shareholders?
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Датасатанисты и иже с ними

Post by Физик-Лирик »

Сабина wrote: 07 Oct 2021 16:06 Дата сатанисты не просто не хотят вникнуть, они после двух , сказанных мной предложений начинают демонстративно перебивать. Из того что они говорят очевидно что они ни минуты не потратили на прочтение и продолжают говорить «мне надо Х», не понимая что им уже дали Х, У и Z. Или просто на дурку стараются это так представить перед другими на митинге что они - “жертва» несовершенных DE процессов.
А проблемы надо решать совместно, а не спихивать друг на друга.
Я, конечно, не знаю, как у вас все работает, но подсовывать ученым квирес - зачастую дело гиблое. Не потому, что они не знают, а потому, что им не интересно. У вас в группе, похоже, нет контакта между подруппами. Возможно, вопрос к менеджеру. Для данного проекта я бы начал с четкой постановки задачи и определениия критериев оценки. Я здесь особо не вникал, но четкости не очень вижу. Отсюда и разговоры на разных языках. Хотите визуализации - возьмите любой тулс. И еще мой очень субъективный совет - очень осторожно влезайте в их вотчину. Зачастую ученые очень ревниво к этому относятся. Отчасти потому, что сейчас имеет место заменить реальную науку на программистко-аналитические потуги (аналитика еще та). И не давайте себя перебивать. Вежливо, но твердо пресекайте эти попытки заткнуть рот. Хотя моим советам следовать совершенно не обязательно.

Return to “Работа и Карьера в IT”