Датасатанисты и иже с ними
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Датасатанисты и иже с ними
Обращусь тут, потому что в вопросы IT больше никто не ходит видимо
Вопрос к датасатанистам. В частности к тем кто и за своих дата инженеров работает .. И прочти ML инженерам кто у ФААНГов оттяпал длинных доллар
Слабо подсказать хорошую питоновскую библиотеку , а заодно и алгоритмы обсчёта и визуализации timeseries data .
Вопрос к датасатанистам. В частности к тем кто и за своих дата инженеров работает .. И прочти ML инженерам кто у ФААНГов оттяпал длинных доллар
Слабо подсказать хорошую питоновскую библиотеку , а заодно и алгоритмы обсчёта и визуализации timeseries data .
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 64875
- Joined: 12 Jul 2002 16:38
- Location: г.Москва, ул. Б. Лубянка, д.2
Re: Датасатанисты и иже с ними
Py.orgСабина wrote: ↑03 Oct 2021 05:23 Обращусь тут, потому что в вопросы IT больше никто не ходит видимо
Вопрос к датасатанистам. В частности к тем кто и за своих дата инженеров работает .. И прочти ML инженерам кто у ФААНГов оттяпал длинных доллар
Слабо подсказать хорошую питоновскую библиотеку , а заодно и алгоритмы обсчёта и визуализации timeseries data .
-
- Уже с Приветом
- Posts: 31589
- Joined: 21 Nov 2004 05:12
- Location: камбуз на кампусе
Re: Датасатанисты и иже с ними
Лучше переесть, чем недоспать! © Обратное тоже верно
-
- Уже с Приветом
- Posts: 920
- Joined: 22 Jun 2007 20:41
- Location: Santa Rosita
Re: Датасатанисты и иже с ними
Сам не датасатанист, но недавно в каком-то форуме на глаза попалось вот такое на эту тему:
https://github.com/salesforce/Merlion
https://github.com/salesforce/Merlion
Merlion is a Python library for time series intelligence. It provides an end-to-end machine learning framework that includes loading and transforming data, building and training models, post-processing model outputs, and evaluating model performance. It supports various time series learning tasks, including forecasting and anomaly detection for both univariate and multivariate time series. This library aims to provide engineers and researchers a one-stop solution to rapidly develop models for their specific time series needs, and benchmark them across multiple time series datasets.
Merlion's key features are
Standardized and easily extensible data loading & benchmarking for a wide range of forecasting and anomaly detection datasets.
A library of diverse models for both anomaly detection and forecasting, unified under a shared interface. Models include classic statistical methods, tree ensembles, and deep learning approaches. Advanced users may fully configure each model as desired.
Abstract DefaultDetector and DefaultForecaster models that are efficient, robustly achieve good performance, and provide a starting point for new users.
AutoML for automated hyperaparameter tuning and model selection.
Practical, industry-inspired post-processing rules for anomaly detectors that make anomaly scores more interpretable, while also reducing the number of false positives.
Easy-to-use ensembles that combine the outputs of multiple models to achieve more robust performance.
Flexible evaluation pipelines that simulate the live deployment & re-training of a model in production, and evaluate performance on both forecasting and anomaly detection.
Native support for visualizing model predictions.
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Датасатанисты и иже с ними
Спасибо попробую. В итоге записалась на класс своего любимого препода, если что интересное узнаю - поделюсьBig W wrote: ↑03 Oct 2021 19:17 Сам не датасатанист, но недавно в каком-то форуме на глаза попалось вот такое на эту тему:
https://github.com/salesforce/MerlionMerlion is a Python library for time series intelligence. It provides an end-to-end machine learning framework that includes loading and transforming data, building and training models, post-processing model outputs, and evaluating model performance. It supports various time series learning tasks, including forecasting and anomaly detection for both univariate and multivariate time series. This library aims to provide engineers and researchers a one-stop solution to rapidly develop models for their specific time series needs, and benchmark them across multiple time series datasets.
Merlion's key features are
Standardized and easily extensible data loading & benchmarking for a wide range of forecasting and anomaly detection datasets.
A library of diverse models for both anomaly detection and forecasting, unified under a shared interface. Models include classic statistical methods, tree ensembles, and deep learning approaches. Advanced users may fully configure each model as desired.
Abstract DefaultDetector and DefaultForecaster models that are efficient, robustly achieve good performance, and provide a starting point for new users.
AutoML for automated hyperaparameter tuning and model selection.
Practical, industry-inspired post-processing rules for anomaly detectors that make anomaly scores more interpretable, while also reducing the number of false positives.
Easy-to-use ensembles that combine the outputs of multiple models to achieve more robust performance.
Flexible evaluation pipelines that simulate the live deployment & re-training of a model in production, and evaluate performance on both forecasting and anomaly detection.
Native support for visualizing model predictions.
Моя цель - нарисовать charts которые помогут быстренько понять trends входных данных. Последние как обычно multidimensional timeseries и хочется посмотреть как одно и то же property меняется в зависимости от времени для разных dimensions etc. Наложить все это дело на upstream business events, посмотреть как коррелируется. Предсказания в данном случае бессмысленны, просто хочется понять trends
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 8210
- Joined: 27 Mar 2016 23:56
-
- Уже с Приветом
- Posts: 64875
- Joined: 12 Jul 2002 16:38
- Location: г.Москва, ул. Б. Лубянка, д.2
Re: Датасатанисты и иже с ними
Всегда помогает четко знать, что именно хочешь узнать от данных.
-
- Уже с Приветом
- Posts: 8210
- Joined: 27 Mar 2016 23:56
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Датасатанисты и иже с ними
Нет. Но это узкая domain , нет смысла лезть в детали.
Если примитивно, допустим у вас есть данные по тому сколько денег тратит каждый человек на планете. Понятно что у человека есть куча всяких dimensions - возраст, страна проживания, образование, доход, семейное положение. Вы хотите выявить trends - в какой стране больше тратят деньги в июле месяце ? Или какая возрастная категория потратила больше всего денег за лето. И проч и так далее . Функция не волнует, хочется посмотреть на эти trends и наложить на какие то business events, посмотреть как влияют на расходы. Пример business event - начало Ковида например , или период летних каникул и т.д.
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 64875
- Joined: 12 Jul 2002 16:38
- Location: г.Москва, ул. Б. Лубянка, д.2
-
- Уже с Приветом
- Posts: 607
- Joined: 17 Dec 2009 11:27
Re: Датасатанисты и иже с ними
Могу только книжку создателя pandas на русском подсказать -Сабина wrote: ↑03 Oct 2021 05:23 Обращусь тут, потому что в вопросы IT больше никто не ходит видимо
Вопрос к датасатанистам. В частности к тем кто и за своих дата инженеров работает .. И прочти ML инженерам кто у ФААНГов оттяпал длинных доллар
Слабо подсказать хорошую питоновскую библиотеку , а заодно и алгоритмы обсчёта и визуализации timeseries data .
Маккини У. Python и анализ данных
Wes McKinney. Python for Data Analysis.
Библиотеки описаны конечно по состоянию на 2017 год. Визуализация не самая модная описана.
Вполне хватит и этого для начала.
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Датасатанисты и иже с ними
Вы не понимаете. Как раз таки Data engineering tools ( airflow, spark, streaming, GCP ML stack etc ) я владею на А+. В данном случае мне нужно представить данные чтобы отстоять свою идею - development project . А когда у тебя час времени и большая аудитория - Visualization is the keyСнежная Королева wrote: ↑05 Oct 2021 02:46 Сабина, если для работы, вам оно не надо, поверьте мне. Дата сайенс это 80% DE, еще 10% знание конкретного бизнеса, 5% анализ и 5% sales (виз, презентации, snake oil stakeholder influence).
Анализ делать стоит армия желающих business majors etc, и за это не платят. Sales надо иметь credentials + харизма. Простые смертные делают деньги в DE.
Не надо вам time series, выучите лучше Airflow, db, Medallion, Holistic, Looker или ещё какой модный DE tool.
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 607
- Joined: 17 Dec 2009 11:27
Re: Датасатанисты и иже с ними
Сам был примерно в такой ситуации при защите первого data science проекта. Помогло штудирование всякой теории при ответе на всякие вопросы. Плюс в пилоте проект был - почти готовую сетку взяли из книги . Те на вопросы "как" тоже смогли ответить.Сабина wrote: ↑06 Oct 2021 02:36Вы не понимаете. Как раз таки Data engineering tools ( airflow, spark, streaming, GCP ML stack etc ) я владею на А+. В данном случае мне нужно представить данные чтобы отстоять свою идею - development project . А когда у тебя час времени и большая аудитория - Visualization is the keyСнежная Королева wrote: ↑05 Oct 2021 02:46 Сабина, если для работы, вам оно не надо, поверьте мне. Дата сайенс это 80% DE, еще 10% знание конкретного бизнеса, 5% анализ и 5% sales (виз, презентации, snake oil stakeholder influence).
Анализ делать стоит армия желающих business majors etc, и за это не платят. Sales надо иметь credentials + харизма. Простые смертные делают деньги в DE.
Не надо вам time series, выучите лучше Airflow, db, Medallion, Holistic, Looker или ещё какой модный DE tool.
Снежная Королева пытается донести мысль, что Вам может не хватить теоретических знаний при защите. Хотя они у Вас возможно есть.
Мы примерно год вспоминали линейную алгебру, тервер и статистику. Плюс ковыряли на курсах библиотеки.
Ничего там страшного нет - все проходили в универе. Я лично два раза мимо проходил.
-
- Уже с Приветом
- Posts: 5106
- Joined: 19 Oct 2004 01:46
Re: Датасатанисты и иже с ними
Оно может и надо, но без знания математики все скорее всего сведется к "ижи с ними", т.е. имплементации взятого с Интернета кода.
-
- Уже с Приветом
- Posts: 5106
- Joined: 19 Oct 2004 01:46
Re: Датасатанисты и иже с ними
Матан не назвали .Andrey Strelnikov wrote: ↑06 Oct 2021 09:27 Мы примерно год вспоминали линейную алгебру, тервер и статистику. Плюс ковыряли на курсах библиотеки.
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Датасатанисты и иже с ними
То что знаний нет - не спорю, да и не претендую на них. Речь идёт не о конференции какой нибудь, а об основании внутреннего проекта, в тиме где я уже 3 года работаю, о бОльшем тиме - не только backend/Data engineers. Цель - показать сколько всего интересного можно дополнительно извлечь из данных, которые мы собираем ( этот кусок я уже написала в этом году, есть данные, просто на пальцах объяснять и показывать муторно, с правильными картинками было бы куда яснее и быстрее).Andrey Strelnikov wrote: ↑06 Oct 2021 09:27Сам был примерно в такой ситуации при защите первого data science проекта. Помогло штудирование всякой теории при ответе на всякие вопросы. Плюс в пилоте проект был - почти готовую сетку взяли из книги . Те на вопросы "как" тоже смогли ответить.Сабина wrote: ↑06 Oct 2021 02:36Вы не понимаете. Как раз таки Data engineering tools ( airflow, spark, streaming, GCP ML stack etc ) я владею на А+. В данном случае мне нужно представить данные чтобы отстоять свою идею - development project . А когда у тебя час времени и большая аудитория - Visualization is the keyСнежная Королева wrote: ↑05 Oct 2021 02:46 Сабина, если для работы, вам оно не надо, поверьте мне. Дата сайенс это 80% DE, еще 10% знание конкретного бизнеса, 5% анализ и 5% sales (виз, презентации, snake oil stakeholder influence).
Анализ делать стоит армия желающих business majors etc, и за это не платят. Sales надо иметь credentials + харизма. Простые смертные делают деньги в DE.
Не надо вам time series, выучите лучше Airflow, db, Medallion, Holistic, Looker или ещё какой модный DE tool.
Снежная Королева пытается донести мысль, что Вам может не хватить теоретических знаний при защите. Хотя они у Вас возможно есть.
Мы примерно год вспоминали линейную алгебру, тервер и статистику. Плюс ковыряли на курсах библиотеки.
Ничего там страшного нет - все проходили в универе. Я лично два раза мимо проходил.
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 8210
- Joined: 27 Mar 2016 23:56
Re: Датасатанисты и иже с ними
Помоему вы пытаете сделать что-то такое что само по себе много затрат и усилий стоит.
Как показать их, в том смысле визуализировать это очень большая работа.
Но возможно найти что-то стандартное уже готовое что будет хорошо визуализовать, но это тоже работа, в смысле сам поиск это тоже работа.
Как показать их, в том смысле визуализировать это очень большая работа.
Но возможно найти что-то стандартное уже готовое что будет хорошо визуализовать, но это тоже работа, в смысле сам поиск это тоже работа.
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Датасатанисты и иже с ними
Вот эти библиотеки в классе будут разжевывать, сказали что 10-ю строками Питона смогу построить fancy timeseries chart. Будем поглядеть
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Датасатанисты и иже с ними
Извините но я уже запуталась в ваших советах и рекомендациях . Это безотносительно того что на ответ на мой изначальный вопрос они мало похожи. И вы практически ничего не знаете о каком проекте речь. Такое ощущение что вы либо пытаетесь меня от чего то отговорить или сделать акцент на том что я не data scientist отвечая в этой теме. Я - не! Надеюсь это внесло ясностьСнежная Королева wrote: ↑07 Oct 2021 06:14А вы думаете, они не знают?
Вопрос не в том, что можно извлечь insights, вопрос в том что потом с этими insights делать.
Любой analytics project, это три вещи.
Thing 1: DE
Thing 2: DS (analysis, insights)
Thing 3: Change management.
Самая быстрая, лёгкая и приятная (но на которую надо 10 лет учиться), это Thing 2.
Однако, Thing 3 ответственна за 95% failure rate of all proje ts.
В общем, зря потратите время.
Сначала вы писали что 80% - это data engineering. А анализа там всего ничего. Теперь пишет что анализ - это самое приятное, но результаты никому не нужны.
Моя ситуация вообще к этому всему никаким местом не относится. Я решаю очень сильно наболевшую проблему для всех, прямо сейчас. Собрала данные, которые помогают найти решение, выложила их в cloud storage в parquet, для BigQuery . Написала кучу кверей, пытаюсь объяснить возможное решение.
Дата сатанисты не просто не хотят вникнуть, они после двух , сказанных мной предложений начинают демонстративно перебивать. Из того что они говорят очевидно что они ни минуты не потратили на прочтение и продолжают говорить «мне надо Х», не понимая что им уже дали Х, У и Z. Или просто на дурку стараются это так представить перед другими на митинге что они - “жертва» несовершенных DE процессов.
А проблемы надо решать совместно, а не спихивать друг на друга.
Собственно визуализация - это мощный инструмент донесения смысла быстро и эффективно, именно это и хочу сделать. А timeseries - это база, основа.
Хоть агрегируй данные и в Excel чарты рисуй .
Мне вообще странно что у них нет этих tools, данные собраны, вычищены и давно им поданы в чистом виде.
Поэтому у меня
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 1962
- Joined: 24 Feb 2001 10:01
- Location: Челябинск -> Everett, WA
Re: Датасатанисты и иже с ними
Сабина, у вас в конторе должно быть что-нибудь стандартное для визуализации а-ля Tableau. Аналитики это дело любят, и красивый dashboard на знакомом для них инструменте, думается, воспримут позитивно.
Sent from my iPhone using Tapatalk Pro
Sent from my iPhone using Tapatalk Pro
-
- Уже с Приветом
- Posts: 8210
- Joined: 27 Mar 2016 23:56
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Датасатанисты и иже с ними
У мня нет никаких слов кроме определённых когда речь заходит про инфру
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 8210
- Joined: 27 Mar 2016 23:56
Re: Датасатанисты и иже с ними
Что-то мне кажется у sales отдела должны быть свои графики
-
- Уже с Приветом
- Posts: 8210
- Joined: 27 Mar 2016 23:56
Re: Датасатанисты и иже с ними
Сабина, так и не понятно куда вы там собираетесь показывать, preferred shareholders?
-
- Уже с Приветом
- Posts: 5106
- Joined: 19 Oct 2004 01:46
Re: Датасатанисты и иже с ними
Я, конечно, не знаю, как у вас все работает, но подсовывать ученым квирес - зачастую дело гиблое. Не потому, что они не знают, а потому, что им не интересно. У вас в группе, похоже, нет контакта между подруппами. Возможно, вопрос к менеджеру. Для данного проекта я бы начал с четкой постановки задачи и определениия критериев оценки. Я здесь особо не вникал, но четкости не очень вижу. Отсюда и разговоры на разных языках. Хотите визуализации - возьмите любой тулс. И еще мой очень субъективный совет - очень осторожно влезайте в их вотчину. Зачастую ученые очень ревниво к этому относятся. Отчасти потому, что сейчас имеет место заменить реальную науку на программистко-аналитические потуги (аналитика еще та). И не давайте себя перебивать. Вежливо, но твердо пресекайте эти попытки заткнуть рот. Хотя моим советам следовать совершенно не обязательно.Сабина wrote: ↑07 Oct 2021 16:06 Дата сатанисты не просто не хотят вникнуть, они после двух , сказанных мной предложений начинают демонстративно перебивать. Из того что они говорят очевидно что они ни минуты не потратили на прочтение и продолжают говорить «мне надо Х», не понимая что им уже дали Х, У и Z. Или просто на дурку стараются это так представить перед другими на митинге что они - “жертва» несовершенных DE процессов.
А проблемы надо решать совместно, а не спихивать друг на друга.