Machine Learning again

Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Machine Learning again

Post by Сабина »

Прочла сегодня в БАРТе рекламку и поняла почему меня КредитКарма всегла записывает в "х...е заёмщики", в то время как тот же Минт говорит что лучше меня нету :).
Рекламка на стене гласила "I apply machine learning to make credit more human...." И подпись какого то индуса-инженера из Кредит кармы. Ну а че все правильно - потеряй я работу и все мои скоры, которые может и высокие по подсчетам агенств в течении последних 10+ лет , полетят к чертовой матери.
Получается machine learning - это вам не просто так :)
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
Komissar
Уже с Приветом
Posts: 64661
Joined: 12 Jul 2002 16:38
Location: г.Москва, ул. Б. Лубянка, д.2

Re: Machine Learning again

Post by Komissar »

Снежная Королева wrote:Ничего не поняла, что значит "не просто так"? Вы не знали, что credit scores - это чистой воды machine learning algorithms?
австралийцы - как дети, всем байкам верят. 8O :food: Ни machine, ни learning там и рядом не стояло, сплошной угадательный маркетинг.
User avatar
Medium-rare
Уже с Приветом
Posts: 9194
Joined: 04 Mar 2011 03:04
Location: SFBA

Re: Machine Learning again

Post by Medium-rare »

Сабина wrote:Ну а че все правильно - потеряй я работу и все мои скоры, которые может и высокие по подсчетам агенств в течении последних 10+ лет , полетят к чертовой матери.
Мне кажется, если им сам человек не сообщит, что он без работы, то кредитные агенства и не узнают. Между работами и новые кредитки предлагают, и всё, как обычно. Кроме как на мортгидж работодателя подтверждать, не помню, чтобы спрашивали.
... and even then it's rare that you'll be going there...
User avatar
fruit6
Уже с Приветом
Posts: 4205
Joined: 10 Jan 2004 01:22
Location: n-sk -> MD -> VA

Re: Machine Learning again

Post by fruit6 »

Да, 'credit score' отражает 'past performance' а не то что могут подумать иностранцы.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

Medium-rare wrote:
Сабина wrote:Ну а че все правильно - потеряй я работу и все мои скоры, которые может и высокие по подсчетам агенств в течении последних 10+ лет , полетят к чертовой матери.
Мне кажется, если им сам человек не сообщит, что он без работы, то кредитные агенства и не узнают. Между работами и новые кредитки предлагают, и всё, как обычно. Кроме как на мортгидж работодателя подтверждать, не помню, чтобы спрашивали.
Я думаю там не все так примитивно просто "есть работа, нет работы", наверняка machine learner-ы изощряются и анализируют все что можно :), а подписалось на ету Кредит Карму ой-ей-ей скока народу :). Грубо говоря они вам точно посчитают чем 790 у single mom отличаются от 790 of a young guy in his 20s.
Ну а что мы только крепчаем от такого знания :). Вон UCBerkley на днях вывесило Data Science degree , все в онлайне :)
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
Medium-rare
Уже с Приветом
Posts: 9194
Joined: 04 Mar 2011 03:04
Location: SFBA

Re: Machine Learning again

Post by Medium-rare »

Сабина wrote:Вон UCBerkley на днях вывесило Data Science degree , все в онлайне :)
Кто подпишется на тот degree, его score куда пойдёт?
... and even then it's rare that you'll be going there...
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

Medium-rare wrote:
Сабина wrote:Вон UCBerkley на днях вывесило Data Science degree , все в онлайне :)
Кто подпишется на тот degree, его score куда пойдёт?
Надеюсь что в диплом :)
https://www.youtube.com/watch?v=wOwblaKmyVw
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

Снежная Королева wrote:Ничего не поняла, что значит "не просто так"? Вы не знали, что credit scores - это чистой воды machine learning algorithms?
Точно знала что нет, собственно говоря как то раз даже сто лет назад читала статьи как три бюро по разному обсчитывают. Но бюро как репортили мне хороший скор, так и продолжают. Одна кредит карма выпендривается Хотя конечно смотря что считать machine learning? Может нынче любой обсчёт исторических данных по формуле - это автоматически machine learning.
https://www.youtube.com/watch?v=wOwblaKmyVw
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

Снежная Королева wrote:Я имела в виду, что несмотря на то, Что credit score - это просто формула, решение о выдачи кредита - это machine learning algorithm, в котором credit score только одна из inputs.

Это даже несмешно :(. Все равно что сказать "зачем собирать бигдата, формула пойдёт ;)"
https://www.youtube.com/watch?v=wOwblaKmyVw
dasilva
Уже с Приветом
Posts: 4022
Joined: 18 Nov 2014 06:20

Re: Machine Learning again

Post by dasilva »

Вроде бы настоящий Machine Learning по прежнему фиговатый. Т.е. если что-то и есть, то оно типа IBM-овского ватсона. А IBM у нас одно. Ну, еще палантир есть. Остальные, вручную смотрят данные и экспериментируют с разными критериями и параметрами. Какие критерии использовать решает, обычно человек. Выбрать параметры помогает комп.

Например, человек смотрит и думает, а давайте-ка, в качестве критерия возьмем возраст. Дальше берут исторические данные (модно называть big data) и подбираем точные значения возрастов для определения возрастных категорий. Далее назначем этим категориям разные страховки или кредит скоры.

В некоторых (большинстве) приложениях Machine Learning не очевидно, какие критереии надо брать. Ну, народ и пробует разные варианты и пишет диссертации на эту тему. Результат получается не очень, но для написания диссертаций подходит. Например, если угадывание случайным образом дает 50% распознавания (угадывания), то после обучения - 60%. Т.е. типа машина научилась, но ничего реального с такой вероятностью ей не доверишь.
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Machine Learning again

Post by Deckel »

Вообще-то кроме ватсона есть еще много полуавтоматизированых хреней. В sklearn это примерно так делается: непрерывные данные скалировать на [-1,1] если нет intrinsic scale, а все остальные кодировать one hot encoder. Потом на это напустить случайный лес GBM или спуск по градиенту SGD либо classifier либо regressor, если зависимая переменная непрерывная. Гиперпараметры алгоритмов подбираются методом монте-карло или прогоном по списку и cross validation, для этого тоже есть готовый фреймворк. Какие из зависимых переменных приносят пользу можно посмотреть по score который им выдает алгоритм, а потом убрать ненужные. Но с современным объемом памяти это наверное уже и не обязательно.
Остается проблема мультиколлинеарности - ну можно еще методом главных компонент PCA понизить размерность после причесывания данных.
Может я какие-то особенные случаи не учел, пусть старшие товарищи меня поправят.
andmed
Posts: 7
Joined: 13 Sep 2015 20:48

Re: Machine Learning again

Post by andmed »

На udacity google только начал курс deep learning со своим tensorFlow
на coursera Яндекс с ВШЭ неделю назад запустили machine learning (питон, pandas etc)
вещи интересные, в принципе, для начинающих.
jfyi
User avatar
geek7
Уже с Приветом
Posts: 20198
Joined: 01 Dec 2003 23:16
Location: Russia->USA

Re: Machine Learning again

Post by geek7 »

Komissar wrote:
Снежная Королева wrote:Ничего не поняла, что значит "не просто так"? Вы не знали, что credit scores - это чистой воды machine learning algorithms?
австралийцы - как дети, всем байкам верят. 8O :food: Ни machine, ни learning там и рядом не стояло, сплошной угадательный маркетинг.
+1
Говори что думаешь, думай что говоришь!
Маразм крепчал и скрепы гнулись
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

dasilva wrote:Вроде бы настоящий Machine Learning по прежнему фиговатый.
Например, человек смотрит и думает, а давайте-ка, в качестве критерия возьмем возраст. Дальше берут исторические данные (модно называть big data) и подбираем точные значения возрастов для определения возрастных категорий. Далее назначем этим категориям разные страховки или кредит скоры.

В некоторых (большинстве) приложениях Machine Learning не очевидно, какие критереии надо брать. Ну, народ и пробует разные варианты и пишет диссертации на эту тему. Результат получается не очень, но для написания диссертаций подходит. Например, если угадывание случайным образом дает 50% распознавания (угадывания), то после обучения - 60%. Т.е. типа машина научилась, но ничего реального с такой вероятностью ей не доверишь.
Критерии, категории, целевые функции (в особенности) выбираются исходя из бизнес постановки задачи. Входные переменные можно и угадать, но все же тоже определяются бизнес задачей. И все-таки Биг-дата не прости модное слово. Это технологии, алгоритмы, концепции. Последнее тоже очень важно, т.к. многомерные пространства концептуально ведут себя по другому (называется курсе оф дименсионалити). Диалектики однако, количественные изменения переходят в качественные. Проблема с маш. обучением в том, что бизнес зачастую не знает, зачем ему все это надо. А все должно начинаться с бизнес задачи, а не наоборот.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

Deckel wrote:Вообще-то кроме ватсона есть еще много полуавтоматизированых хреней. В sklearn это примерно так делается: непрерывные данные скалировать на [-1,1] если нет intrinsic scale, а все остальные кодировать one hot encoder. Потом на это напустить случайный лес GBM или спуск по градиенту SGD либо classifier либо regressor, если зависимая переменная непрерывная. Гиперпараметры алгоритмов подбираются методом монте-карло или прогоном по списку и cross validation, для этого тоже есть готовый фреймворк. Какие из зависимых переменных приносят пользу можно посмотреть по score который им выдает алгоритм, а потом убрать ненужные. Но с современным объемом памяти это наверное уже и не обязательно.
Остается проблема мультиколлинеарности - ну можно еще методом главных компонент PCA понизить размерность после причесывания данных.
Может я какие-то особенные случаи не учел, пусть старшие товарищи меня поправят.
Оно как бы в теории все так, но на практике все будет иначе. Я уже говорил выше, что все начинается с постановки бизнес задачи. Отсюда надо и плясать. Алгоритмов много, но надо знать какой и где применять не только с точки зрения самой задачи, но и времени вычислений, устойчивости к оферфиттингу, точности и т.п. Выборка основных переменных производится автоматически, но вопрос в том, насколько все это точно. Вы уже упоминали мультиколинеарность. Об этом сейчас много дискутируют. Т.к. оценки важности переменных будут неточными, алгоритмы, основанные на выборке по данному критерию, могут полететь. В случае линейной регрессии все кулинарные переменные могут оказаться незначимыми (их же вычисляют как маргинальные переменные), так что степ вайз селекция может не сработать. Принципиальные компоненты, да, но как их интерпретировать? А как метрику выбирать, например, для кластеров или аутлаеров. А про байес в исходных данных я вообще молчу. Так что заменить все фреймверками не получится. А ещё проблема распараллелить алгоритмы.
Короче, наблюдаем некий бум, сходный (масштаб, конечно, не тот) с концом 90-х. Только в отличие от программирования здесь математику знать надо. А вот здесь будут явные проблемы.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

Снежная Королева wrote:Даже такую простую вещь, как подбор гиперпараметров, невозможно решить исключительно тупым прогоном по списку и cross validation, даже на средней величины дата сет. Не говоря уже про биг дата. Приходится включать голову и ограничивать список параметров. А также для выбора переменных надо знать предметную часть, хотя бы для feature engineering.

Самое интересное, однако, начинается, когда надо интерпретировать output. также, когда алгоритм перестает работать, а начальство хочет знать "почему", и как можно быстро его починить.

Однако, высший пилотаж, это когда данных мало или нет вообще, что в большинстве новых задач имеет место быть. Тут как бы ни фреймворки, ни алгоритмы не помогут.
Если данных вообще нет, тогда надо посылать бизнес-аналиста и как можно дальше. А то они взяли моду, данных нет, а результаты вынь да полож. :D
Безусловно, сейчас аналитика - уже не просто прогон алгоритмов.
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Machine Learning again

Post by Deckel »

Снежная Королева wrote:Даже такую простую вещь, как подбор гиперпараметров, невозможно решить исключительно тупым прогоном по списку и cross validation, даже на средней величины дата сет. ... Приходится включать голову и ограничивать список параметров.
Вот посмотрите куда движется наука http://auto-sklearn.readthedocs.org/en/master/" onclick="window.open(this.href);return false; а чтобы не тормозило вот для параллелизации
https://databricks.com/blog/2016/02/08/ ... spark.html" onclick="window.open(this.href);return false;
Снежная Королева wrote: А также для выбора переменных надо знать предметную часть, хотя бы для feature engineering.
C этим спора нет. GIGO
Снежная Королева wrote: Не говоря уже про биг дата.
Как завещал нам великий DevOps Borat
Is no such thing as Big Data. Is only data you not sampled sufficient yet so it fit in RAM and it process with SQLite.
https://twitter.com/DEVOPS_BORAT" onclick="window.open(this.href);return false;
User avatar
Komissar
Уже с Приветом
Posts: 64661
Joined: 12 Jul 2002 16:38
Location: г.Москва, ул. Б. Лубянка, д.2

Re: Machine Learning again

Post by Komissar »

Снежная Королева wrote:Спасибо, я почитаю auto sklearn paper.

Это не отменяет невозможность оптимизации всех гиперпараметров. По той простой причине, что это NP-hard problem. Голову все ж таки надо иногда включать.
NP - это ПН наоборот? У ПН головы нет. Зато есть другие части тела :umnik1: :food:
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

Deckel wrote: Вот посмотрите куда движется наука
Это скорее не наука движется, а имплементация. Большинство алгоритмов маш. обучения - оптимизационные (по целевой функции) задачи. Многие из них - параметризационные. Соответственно для них нет оптимальных оценок, т.к. результат зависит от конкретных данных. Вот и приходится "угадывать" оптимальное решение. Например, в Р есть методы, позволяющие находить оптимальные области (как и в приведенном случае Питона). На мой субъективный взгляд, большое количество параметров - скорее недостаток чем достоинство. Байес можно хорошо убрать, а вот вариация наверняка вырастить. Опять-таки выборка может происходить по разным критериям. Например, она может быть завязана и на информационные критерии, оценки значимости коэффициентов, индекса Джини и т.п. Короче моно чего там наворотили. Проблема в том, что зачастую, подборка - это тупой (в хорошем смысле) перебор (типа вложенных циклов). Собственно и вся наука. Другое дело, предварительный анализ данных. Он, конечно, не отменяет выборки, но может её упростить.
Komissar wrote:
Снежная Королева wrote:Спасибо, я почитаю auto sklearn paper.

Это не отменяет невозможность оптимизации всех гиперпараметров. По той простой причине, что это NP-hard problem. Голову все ж таки надо иногда включать.
NP - это ПН наоборот? У ПН головы нет. Зато есть другие части тела :umnik1: :food:
У NP вообще ничего нет. Просто красивые слова. :sadcry:
User avatar
flip_flop
Уже с Приветом
Posts: 4375
Joined: 20 Jun 2001 09:01

Re: Machine Learning again

Post by flip_flop »

Физик-Лирик wrote:
Komissar wrote:
Снежная Королева wrote:Спасибо, я почитаю auto sklearn paper.

Это не отменяет невозможность оптимизации всех гиперпараметров. По той простой причине, что это NP-hard problem. Голову все ж таки надо иногда включать.
NP - это ПН наоборот? У ПН головы нет. Зато есть другие части тела :umnik1: :food:
У NP вообще ничего нет. Просто красивые слова. :sadcry:
На самом деле и NP и ПН имеют много общего. Неопределённое поведение и полиномиальная (как функция размера) трата времени.
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Machine Learning again

Post by Deckel »

Физик-Лирик wrote:
Deckel wrote: Вот посмотрите куда движется наука
Это скорее не наука движется, а имплементация.
Наука в контексте data science. А так конечно не наука - больше искусство. Искуство перебора :-)
https://medium.com/@xamat/10-more-lesso ... .uymcfsu0i" onclick="window.open(this.href);return false;
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

У нас в компании обнаружился целый отдел machine learning :)! Сидят себе в Нью Йорке тихонечко. Здесь я остановлюсь и не буду продолжать ибо с моей точки зрения machine learning experts при наличии "ху..вой" data pipeline тоже соотвествующие, в общем backend & data warehouse engineers rock :)
https://www.youtube.com/watch?v=wOwblaKmyVw
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

Deckel wrote: Наука в контексте data science. А так конечно не наука - больше искусство. Искуство перебора :-)
На самом деле, любая наука это искусство перебора. Я когда начинал заниматься наукой, наивно полагал, что методики, приведённые в статьях, будут моментально работать для любой проблемы. Ага, конечно. Статьи дают лишь идеи, а потом начинается "перебор" других возможностей, идей и подходов. В дейта сайнсе все тоже самое. Есть "доказанные" идеи, а решение конкретной задачи лишь перебор возможностей. Даже если алгоритм и построен на выборке параметров - тоже стандарт. В прикладной математике -это норма. Но это я скорее о маш. обучении и предикатов моделинг.
Сабина wrote:У нас в компании обнаружился целый отдел machine learning :)! Сидят себе в Нью Йорке тихонечко. Здесь я остановлюсь и не буду продолжать ибо с моей точки зрения machine learning experts при наличии "ху..вой" data pipeline тоже соотвествующие, в общем backend & data warehouse engineers rock :)
Ну да, все правильно, теперь кто раньше были веархаузниками и сиквельщиками стали новомодными дейта сайнтистами. Хорошая смена вывески.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

Физик-Лирик wrote:
Deckel wrote: Наука в контексте data science. А так конечно не наука - больше искусство. Искуство перебора :-)
На самом деле, любая наука это искусство перебора. Я когда начинал заниматься наукой, наивно полагал, что методики, приведённые в статьях, будут моментально работать для любой проблемы. Ага, конечно. Статьи дают лишь идеи, а потом начинается "перебор" других возможностей, идей и подходов. В дейта сайнсе все тоже самое. Есть "доказанные" идеи, а решение конкретной задачи лишь перебор возможностей. Даже если алгоритм и построен на выборке параметров - тоже стандарт. В прикладной математике -это норма. Но это я скорее о маш. обучении и предикатов моделинг.
Сабина wrote:У нас в компании обнаружился целый отдел machine learning :)! Сидят себе в Нью Йорке тихонечко. Здесь я остановлюсь и не буду продолжать ибо с моей точки зрения machine learning experts при наличии "ху..вой" data pipeline тоже соотвествующие, в общем backend & data warehouse engineers rock :)
Ну да, все правильно, теперь кто раньше были веархаузниками и сиквельщиками стали новомодными дейта сайнтистами. Хорошая смена вывески.

Вы меня не так поняли :). Я пыталась объяснить что никакие глубокие знания R и Matlib не помогут если в тот warehouse данные изначально криво собираются. Ну да ладно, тут все читают что хотят :)
https://www.youtube.com/watch?v=wOwblaKmyVw
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

Сабина wrote:Ну да, все правильно, теперь кто раньше были веархаузниками и сиквельщиками стали новомодными дейта сайнтистами. Хорошая смена вывески.

Вы меня не так поняли :). Я пыталась объяснить что никакие глубокие знания R и Matlib не помогут если в тот warehouse данные изначально криво собираются. Ну да ладно, тут все читают что хотят :)[/quote]

Ну так я о том и говорю. Сиквелщики теперь "ученые", собиратели данных и построители моделей. Просто я так хорошо выражаться не умею.
Другая беда - вся наука сводится к "знанию" Р. Вот и вся предиктив аналитикс. Помноженное на непонимание менеджментом, нафига это все нужно, когда и так работает.

Return to “Работа и Карьера в IT”