Machine Learning again

User avatar
Kolbasoff
Уже с Приветом
Posts: 3481
Joined: 02 Jan 2005 22:10

Re: Machine Learning again

Post by Kolbasoff »

Физик-Лирик wrote:
Kolbasoff wrote:Что касается аджайла, то дружище АццкоМото как-то сказал резко и точно, по-техасски: это способ заставить бегать марафон короткими спринтами. Соковыжималка это, короче.
Прямо в точку. Похоже это счастье трудиться под бдительны окном ПМов уже до R&D доползло. Ну и куда теперь деваться?
Иэх, расстраиваете вы меня, товарищ ученый. Только я вознамерился найти какую-нибудь богадельню типа НИИ ЧАВО АН СССР, как и там засады.

Однако выхожу на рынок снова, пока рыбный сезон в разгаре. Подумал, что зря время терять? Даешь две рыбалки за сезон! На нонешнем баркасе стало все понятно и скучновато, хотя и приятно. Но стали навешивать какую-то хрень типа девопсенья. Но не для этого мы мастрячим удочки и практикуем броски накидным что бы ржаветь в пыли. ПхД мне все равно не получить в хорошем месте, а в плохом бессмысленно. А слесарить можно и в школе рабочей молодежи научиться. Буду искать барксасы где ловят predictive analytics etc. Пока все идет бодренько, для наших-то унылых мест.
User avatar
Kolbasoff
Уже с Приветом
Posts: 3481
Joined: 02 Jan 2005 22:10

Re: Machine Learning again

Post by Kolbasoff »

Сабина wrote:Тот же поиск нефти - ну просто идеальное приложение для machine learning - так хоть бы одна блоха что говорится
Сабина, сестра, ёлы-палы. Что это за глаза через амбразуру дзота на аватаре? Где фотка в зазывном белом платьице в обтяг? Просьба немедленно вернуть!
blanko27
Уже с Приветом
Posts: 2261
Joined: 17 Jun 2003 04:41
Location: Just like US

Re: Machine Learning again

Post by blanko27 »

Kolbasoff wrote:глаза через амбразуру
А может быть она в никабе? Надо бы на ImageNet-e поклассифицировать...
...а мы такой компанией, возьмем, да и припремся к Элис!
User avatar
Kolbasoff
Уже с Приветом
Posts: 3481
Joined: 02 Jan 2005 22:10

Re: Machine Learning again

Post by Kolbasoff »

blanko27 wrote:
Kolbasoff wrote:глаза через амбразуру
А может быть она в никабе? Надо бы на ImageNet-e поклассифицировать...
А точно! Может зазвала таки, и сразу никаб надели. :sadcry:
User avatar
Kolbasoff
Уже с Приветом
Posts: 3481
Joined: 02 Jan 2005 22:10

Re: Machine Learning again

Post by Kolbasoff »

А вот кто-нибудь знает хорошие бесплатные Streaming Data Sources кроме твиттера? И подскажите пжста хорошие форумы где тусуются дата-копатели/дата-изучатели и где можно других посмотреть и себя показать и халтурку срубить/заказать. Спасипки.
User avatar
Rumba
Уже с Приветом
Posts: 1211
Joined: 12 Mar 2006 08:49

Re: Machine Learning again

Post by Rumba »

Kolbasoff wrote: 12 Mar 2017 00:23 А вот кто-нибудь знает хорошие бесплатные Streaming Data Sources кроме твиттера? И подскажите пжста хорошие форумы где тусуются дата-копатели/дата-изучатели и где можно других посмотреть и себя показать и халтурку срубить/заказать. Спасипки.
вы kaggle.com смотрели? на знаю как с халтурой но вакансии там есть, причем дельные , у меня на одну даже до офера дело дошло, хотя я и не дейта сайтнтист, скорее интересуюсь как хобби
tessob
Уже с Приветом
Posts: 545
Joined: 07 Jan 2016 13:04

Re: Machine Learning again

Post by tessob »

Kolbasoff wrote: 12 Mar 2017 00:23халтурку срубить/заказать
Вы бы не могли поделиться Вашим виденьем халтурки в области DS? Мне просто интересно как Вы себе это представляете. Я сам в консалте и периодически использую методы ML, но как выделить DS в отдельную разовую задачу представляю себе с трудом. Для меня это примерно как специалисты по сортировке массивов.

Так же часто сталкиваюсь с тем, что наниматель с огромным трудом понимает зачем ему DS в компании. В таких случаях получается, что компания сначала нанимает себе отдел/департамент таких вот сайнтистов, а через 8-10 месяцев их всех увольняют. Я не знаю как в штатах, но в EU медиана по зарплатам просела с 80 до 30 евро в год.
User avatar
Kolbasoff
Уже с Приветом
Posts: 3481
Joined: 02 Jan 2005 22:10

Re: Machine Learning again

Post by Kolbasoff »

tessob wrote: 12 Mar 2017 07:24
Kolbasoff wrote: 12 Mar 2017 00:23халтурку срубить/заказать
Вы бы не могли поделиться Вашим виденьем халтурки в области DS?
Обычная контрактная работа, я сейчас на такой.
tessob wrote: 12 Mar 2017 07:24 Я не знаю как в штатах, но в EU медиана по зарплатам просела с 80 до 30 евро в год.
Ой!
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Machine Learning again

Post by Deckel »

Kolbasoff wrote:
tessob wrote: 12 Mar 2017 07:24
Kolbasoff wrote: 12 Mar 2017 00:23халтурку срубить/заказать
Вы бы не могли поделиться Вашим виденьем халтурки в области DS?
Обычная контрактная работа, я сейчас на такой.
tessob wrote: 12 Mar 2017 07:24 Я не знаю как в штатах, но в EU медиана по зарплатам просела с 80 до 30 евро в год.
Ой!
Они начали дс обычных аналитиков называть вот и зарплаты соответствующие стали.
tessob
Уже с Приветом
Posts: 545
Joined: 07 Jan 2016 13:04

Re: Machine Learning again

Post by tessob »

Kolbasoff wrote: 12 Mar 2017 22:44Обычная контрактная работа, я сейчас на такой.
В обычной контрактной работе, как правило, можно говорить о конкретном конечном результате. Допустим, если в IT вы на берегу договариваетесь о создании какой-то функциональности, то по завершению работ эта функциональность должна работать и это можно измерить. В случае DS мне не понятно кто должен брать на себя риски того, что в данных не будет сигнала, например. Ну, или то, что модель будет корректно работать только для 40% случаев. А еще модель может практически полностью деградировать через пару недель.

Deckel wrote: 13 Mar 2017 08:31Они начали дс обычных аналитиков называть вот и зарплаты соответствующие стали.
А как отличить одних от других?
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Machine Learning again

Post by Deckel »

tessob wrote: 13 Mar 2017 09:17
Kolbasoff wrote: 12 Mar 2017 22:44Обычная контрактная работа, я сейчас на такой.
В обычной контрактной работе, как правило, можно говорить о конкретном конечном результате. Допустим, если в IT вы на берегу договариваетесь о создании какой-то функциональности, то по завершению работ эта функциональность должна работать и это можно измерить. В случае DS мне не понятно кто должен брать на себя риски того, что в данных не будет сигнала, например. Ну, или то, что модель будет корректно работать только для 40% случаев. А еще модель может практически полностью деградировать через пару недель.

Deckel wrote: 13 Mar 2017 08:31Они начали дс обычных аналитиков называть вот и зарплаты соответствующие стали.
А как отличить одних от других?
Я бы сказал, что дс отвечает за весь стэк, с постановки вопроса, что вообще делать, сбора данных и вообще дизайна системы которая их генерирует и в конце концов до суммы в долларах на выходе. Аналитик данных берет готовые данные и отвечает на уже поставленный вопрос.
Суровая реальность такова, что менеджеры не умеют работать с дата саентистами, и им нужны аналитики. Но работа аналитиков уже стала низкооплачиваемой. Поэтому их заманивают дс титулами.
tessob
Уже с Приветом
Posts: 545
Joined: 07 Jan 2016 13:04

Re: Machine Learning again

Post by tessob »

Deckel wrote: 13 Mar 2017 09:50Я бы сказал, что дс отвечает за весь стэк, с постановки вопроса, что вообще делать, сбора данных и вообще дизайна системы которая их генерирует и в конце концов до суммы в долларах на выходе. Аналитик данных берет готовые данные и отвечает на уже поставленный вопрос.
В теории оно может и так, а на практике подавляющее большинство DS через полгода превращаются в тыкву обычного аналитика. Возможно Вы этого не помните, но волна Data Mining уже была лет 15-20 назад. Алгоритмы были все теже. Из новых сейчас наверное только CNN & SVM. Тогда тоже майнили-майнили, но ничего не намайнили. Сейчас все в точности повторяется но с другим названием. Более того, сейчас во многих крупных компаниях продолжают работать старые "кванты" (тогда использовали такое слово), которые считаю проблемы бизнеса в SAS, SPSS и R.

То, что вы описали - это полубоги какие-то. Для этого нужно: знать бизнес клиента; разбираться в легаси системах; кодить на уровне энтерпрайз аркитекта; считать экономику проекта на уровне MBA. Наивно предполагать, что таких специалистов на рынке хоть сколько-нибудь значительное количество. Вот рынок и переоценивает ставки.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

tessob wrote: 13 Mar 2017 10:37
В теории оно может и так, а на практике подавляющее большинство DS через полгода превращаются в тыкву обычного аналитика. Возможно Вы этого не помните, но волна Data Mining уже была лет 15-20 назад. Алгоритмы были все теже. Из новых сейчас наверное только CNN & SVM.
Мне кажется из нового сейчас - это бустинг и глубокое обучение. Все-таки СВМ ещё в 80х предложили. А так, да, по сути всё остаётся по-старому.
Я согласен, что ДС в карой-то степени аналитик. А вообще, все от конторы зависит. Особенно, если там особенно сами не знают, зачем им ДСы нужны.
User avatar
Kolbasoff
Уже с Приветом
Posts: 3481
Joined: 02 Jan 2005 22:10

Re: Machine Learning again

Post by Kolbasoff »

tessob wrote: 13 Mar 2017 09:17 В обычной контрактной работе, как правило, можно говорить о конкретном конечном результате. Допустим, если в IT вы на берегу договариваетесь о создании какой-то функциональности, то по завершению работ эта функциональность должна работать и это можно измерить. В случае DS мне не понятно кто должен брать на себя риски того, что в данных не будет сигнала, например. Ну, или то, что модель будет корректно работать только для 40% случаев. А еще модель может практически полностью деградировать через пару недель.
Вы наверное руководитель серьезной консалтинговой фирмы типа Databricks, которая берет подряды на систему "под ключ"? Под "халтуркой" я подразумеваю обычную контракторскую работу в большой корпорации. Сейчас DS оверхайпнуто, всякая конторка, строя красивые репорты с помощью стат софта, рассуждает о DS. Но это не DS. DS это очень дорогая игрушка: инфраструктура, инженеры и ученые, отдел продаж. Отдел дата процессинга - десяток миллионов в месяц только на аренду облака, и это при том, что все оптимизировано, ничего idle не висит. Технически DS начинается когда сырые данные можно прочитать целиком только раз (просто потому что это дорого) и сделать из них компактные структуры, которые потеряют в точности, но займут меньше пространства где-то раз в 100000, при этом сохранят нужную информацию. Для каждой задачи свои структуры. Саентологи колдуют над алгоритмами для создания и операциями с этими структурами, инженеры колдуют как бы оптимально написать программы и сконфигурить инфрастуктуру. 1М записей в день это не DS. 1B записей - уже ближе, но все еще можно обработать за время меньшее, чем хочет видеть кастомер. 10B записей уже так обработать нельзя, и вот тут начинается real-time и настоящая инженерия.
blanko27
Уже с Приветом
Posts: 2261
Joined: 17 Jun 2003 04:41
Location: Just like US

Re: Machine Learning again

Post by blanko27 »

Kolbasoff wrote: 14 Mar 2017 03:55...вот тут начинается real-time и настоящая инженерия.
With an estimated Exabyte of data per day in 2024 the new “Square Kilometer Array” radio telescope will be one of the largest generators of big data ever :love:
...а мы такой компанией, возьмем, да и припремся к Элис!
tessob
Уже с Приветом
Posts: 545
Joined: 07 Jan 2016 13:04

Re: Machine Learning again

Post by tessob »

Kolbasoff wrote: 14 Mar 2017 03:55Вы наверное руководитель серьезной консалтинговой фирмы типа Databricks, которая берет подряды на систему "под ключ"?
Вовсе нет. Просто много лет в консалте.

Kolbasoff wrote: 14 Mar 2017 03:55Под "халтуркой" я подразумеваю обычную контракторскую работу в большой корпорации. Сейчас DS оверхайпнуто, всякая конторка, строя красивые репорты с помощью стат софта, рассуждает о DS. Но это не DS. DS это очень дорогая игрушка: инфраструктура, инженеры и ученые, отдел продаж. Отдел дата процессинга - десяток миллионов в месяц только на аренду облака, и это при том, что все оптимизировано, ничего idle не висит...
Если Вы про халтурку в областях вроде астрофизики и биоинформатики, то мне тут абсолютно нечего сказать. Там возможно все именно так как вы описываете. Я преимущественно работаю с различными производственными, логистическими, торговыми компаниями. Там все значительно проще. Большая часть данных в какой-нибудь ERP системе, например в SAP. Если рассматривать только данные, связанные с основной деятельностью, то получится несколько десятков гигабайт за несколько лет. Если брать какие-либо конкретные данные, например движения по складу, или отгрузки, то таких данных уже будет несколько гигабайт. Все достаточно тривиально.

Не заметить хайп вокруг машинного обучения невозможно, только непонятно какое отношение это все имеет к традиционным индустриям. Консалтинговым и железячным компаниям, ясное дело, нужно что-то продавать. Те же Intel и Cisco постоянно на своих (и чужих) конференциях сейчас постоянно говорят про IoT и индустрию 4.0. IBM постоянно показывает "комиксы" про Watson и когнитивный бизнес. Куча консалтинговых компаний ходят по рынку и проповедуют про глубокое обучение и advanced analytics. Только объединяет их всех один простой факт - ни у кого из них нет ни одного реального кейса по существенному улучшению бизнес-процессов клиента с помощью всего этого зоопарка решений.

Работая on-site часто наблюдаю как по 2-3 sales team приходят впаривать очередной прожект. Довольно часто клиент просит присоединиться и послушать/поспрашивать гостей. Забавно получается когда в течении нескольких месяцев получается пересечься с такой team несколько раз. В целом со стороны бизнеса все это выглядит как очень старый анекдот:

Солнечный день. На сочной траве мирно пасется стадо овец. Подъезжает дорогой автомобиль, из которого выходит хорошо одетый человек и обращается к пастуху: «Добрый день! Хотите, я скажу вам, сколько овец в вашем стаде? Если мои данные окажутся точны, я забираю одну овцу, идёт?».

Пастух соглашается. Молодой человек достает из авто ноутбук, спутниковый телефон, соединяется с интернетом, собирает информацию, систематизирует, анализирует… На закате он выдает пастуху распечатку: «302 головы». Потом выбирает из стада одну овцу и кладет себе в багажник.

И пастух говорит ему: «Постой. Хочешь, теперь я скажу тебе кто ты такой и что тебя ждет? Но учти, если я окажусь прав, овцу ты мне вернешь». Молодой человек соглашается.

«Ты бизнес-консультант и сейчас опозоришься. Откуда я знаю? Во-первых, тебя никто не звал, а ты приехал. Во-вторых, ты сообщил мне ровно то, что я знаю и без тебя. В-третьих, ты совершенно не разбираешься в предмете исследования. Теперь, пожалуйста, достань из багажника мою овчарку».
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

Чем-то напоминает известный анекдот про математика.
Думаю, что всё не совсем так. ДС может очень много чего предложить. Причём реально помочь бизнесу. Другое дело, что бизнес далеко не всегда знает и понимает, зачем ему ДС. Ну не учили бизнес этому в школе. С другой стороны, аналитика сейчас в тренде. Все компании хотят называть себя аналитическими. Вот и нанимают ДС. Отсюда и возникают маразматические ситуации. Не везде, конечно. А то, что компании двигают свой продукт, а консалтеры пытаются продать свой сервис - так это вполне нормально.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

tessob wrote: 14 Mar 2017 08:04 Я преимущественно работаю с различными производственными, логистическими, торговыми компаниями. Там все значительно проще. Большая часть данных в какой-нибудь ERP системе, например в SAP. Если рассматривать только данные, связанные с основной деятельностью, то получится несколько десятков гигабайт за несколько лет. Если брать какие-либо конкретные данные, например движения по складу, или отгрузки, то таких данных уже будет несколько гигабайт. Все достаточно тривиально.
Всё-таки ДС - это не только количество данных, а больше аналитика. И из нескольких гигабайт можно извлечь ценную инфу. Мне кажется, сейчас движение идёт в двух направлениях. Первое - хранение, второе - алгоритмы для аналитики. Первое как бы не совсем ДС, а вот второе как раз ДС.
tessob
Уже с Приветом
Posts: 545
Joined: 07 Jan 2016 13:04

Re: Machine Learning again

Post by tessob »

Физик-Лирик wrote: 14 Mar 2017 13:25Чем-то напоминает известный анекдот про математика.
Поделитесь? ))

Физик-Лирик wrote: 14 Mar 2017 13:25Думаю, что всё не совсем так. ДС может очень много чего предложить. Причём реально помочь бизнесу.
У бизнеса, как мне кажется, нет изолированных задач для DS. Microsoft Kinect или Self-driving cars слегка другая история КМК.

Физик-Лирик wrote: 14 Mar 2017 13:25Другое дело, что бизнес далеко не всегда знает и понимает, зачем ему ДС.
Буквально сегодня смотрел видео: https://youtu.be/6_iy_w-Th40?t=6m
Задача про незаменимого человека и грузчиков - это классическая задача на двудольном графе. Решается она достаточно тривиально. Как они к этому "присобачили" ANN мне даже примерно не понятно. Дальше "Остапа" просто понесло. И именно это сейчас является "средним по палате". Кстати - это яркий пример применения ANN ко всему. Вот как бизнесу сегодня реально понять для чего ему DS? :-)
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

tessob wrote: 14 Mar 2017 14:12 Вот как бизнесу сегодня реально понять для чего ему DS? :-)
Учить бизнес надо. Но они будут упираться :D
tessob
Уже с Приветом
Posts: 545
Joined: 07 Jan 2016 13:04

Re: Machine Learning again

Post by tessob »

Физик-Лирик wrote: 14 Mar 2017 13:41Всё-таки ДС - это не только количество данных, а больше аналитика. И из нескольких гигабайт можно извлечь ценную инфу. Мне кажется, сейчас движение идёт в двух направлениях. Первое - хранение, второе - алгоритмы для аналитики. Первое как бы не совсем ДС, а вот второе как раз ДС.
Все что касается хранения данных мне очень нравится, сегодня огромная конкуренция идей на рынке и это великолепно. Все что касается алгоритмической обработки уже не так однозначно. Спектр задач для ML достаточно узок. Грубо говоря все машинное обучение это про:
  • А или B - классификация
  • B при условии A - регрессия
  • Разобрать кучу на A, B, C ... - кластеризация
Экзотику вроде fp-growth сознательно не трогаю.

Convex optimization решает гораздо больше проблем бизнеса, чем ML. Только двигать ее никто не будет, т.к. боль-и-страдания. :D
User avatar
АццкоМото
Уже с Приветом
Posts: 15242
Joined: 01 Mar 2007 05:18
Location: VVO->ORD->DFW->SFO->DFW->PDX

Re: Machine Learning again

Post by АццкоМото »

Kolbasoff wrote: 14 Mar 2017 03:55 Саентологи колдуют над алгоритмами
Вот эти чоле? https://ru.wikipedia.org/wiki/%D0%A1%D0 ... 0%B8%D1%8F
Мат на форуме запрещен, блдж!
User avatar
АццкоМото
Уже с Приветом
Posts: 15242
Joined: 01 Mar 2007 05:18
Location: VVO->ORD->DFW->SFO->DFW->PDX

Re: Machine Learning again

Post by АццкоМото »

tessob wrote: 14 Mar 2017 14:40 Спектр задач для ML достаточно узок.
он намного ширее, чем кажется
у меня книжка лежит про МЛ на прикроватной тумбочке, вырубает в сон двумя страницами. бигфарма в панике. а ведь это только начало. страниц 10 убьют лошадь. а если ее перемолоть, можно опрыскивать поля от колорадского жука.

классификации/регрессии/кластеризации это мелочь для начинающих
Мат на форуме запрещен, блдж!
tessob
Уже с Приветом
Posts: 545
Joined: 07 Jan 2016 13:04

Re: Machine Learning again

Post by tessob »

АццкоМото wrote: 14 Mar 2017 16:18у меня книжка лежит про МЛ на прикроватной тумбочке, вырубает в сон двумя страницами.
У меня есть еще по теории расписаний. Вырубает двумя абзацами.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

tessob wrote: 14 Mar 2017 14:40 Спектр задач для ML достаточно узок. Грубо говоря все машинное обучение это про:
  • А или B - классификация
  • B при условии A - регрессия
  • Разобрать кучу на A, B, C ... - кластеризация
Экзотику вроде fp-growth сознательно не трогаю.

Convex optimization решает гораздо больше проблем бизнеса, чем ML. Только двигать ее никто не будет, т.к. боль-и-страдания. :D
Наверное, Вы имеете в виду спектр алгоритмов, а не задач. Задач, как раз, много решить можно.
Насчёт оптимизации ... Во-первых, МЛ и есть оптимизация. Во-вторых, далеко не все задачи сводятся именно к выпуклой оптимизации. Пример из МЛ - глубокое обучение и нетворк. А уж если брать задачи из "жизни" ... недаром возникла, например, область генетических алгоритмов. Я люблю использовать термин quantitative methods. Сюда можно и ряды поставить, и диффуры и другие.

Return to “Работа и Карьера в IT”