Machine Learning again

Сабина · Post by **Сабина** » 12 Jan 2016 05:54

Прочла сегодня в БАРТе рекламку и поняла почему меня КредитКарма всегла записывает в "х...е заёмщики", в то время как тот же Минт говорит что лучше меня нету

.
Рекламка на стене гласила "I apply machine learning to make credit more human...." И подпись какого то индуса-инженера из Кредит кармы. Ну а че все правильно - потеряй я работу и все мои скоры, которые может и высокие по подсчетам агенств в течении последних 10+ лет , полетят к чертовой матери.
Получается machine learning - это вам не просто так

Komissar · Post by **Komissar** » 12 Jan 2016 07:39

Снежная Королева wrote:Ничего не поняла, что значит "не просто так"? Вы не знали, что credit scores - это чистой воды machine learning algorithms?

австралийцы - как дети, всем байкам верят.

Ни machine, ни learning там и рядом не стояло, сплошной угадательный маркетинг.

Medium-rare · Post by **Medium-rare** » 12 Jan 2016 08:43

Сабина wrote:Ну а че все правильно - потеряй я работу и все мои скоры, которые может и высокие по подсчетам агенств в течении последних 10+ лет , полетят к чертовой матери.

Мне кажется, если им сам человек не сообщит, что он без работы, то кредитные агенства и не узнают. Между работами и новые кредитки предлагают, и всё, как обычно. Кроме как на мортгидж работодателя подтверждать, не помню, чтобы спрашивали.

fruit6 · Post by **fruit6** » 12 Jan 2016 16:08

Да, 'credit score' отражает 'past performance' а не то что могут подумать иностранцы.

Сабина · Post by **Сабина** » 13 Jan 2016 05:17

Medium-rare wrote:
Сабина wrote:Ну а че все правильно - потеряй я работу и все мои скоры, которые может и высокие по подсчетам агенств в течении последних 10+ лет , полетят к чертовой матери.
Мне кажется, если им сам человек не сообщит, что он без работы, то кредитные агенства и не узнают. Между работами и новые кредитки предлагают, и всё, как обычно. Кроме как на мортгидж работодателя подтверждать, не помню, чтобы спрашивали.

Я думаю там не все так примитивно просто "есть работа, нет работы", наверняка machine learner-ы изощряются и анализируют все что можно

, а подписалось на ету Кредит Карму ой-ей-ей скока народу

. Грубо говоря они вам точно посчитают чем 790 у single mom отличаются от 790 of a young guy in his 20s.
Ну а что мы только крепчаем от такого знания

. Вон UCBerkley на днях вывесило Data Science degree , все в онлайне

Medium-rare · Post by **Medium-rare** » 13 Jan 2016 21:18

Сабина wrote:Вон UCBerkley на днях вывесило Data Science degree , все в онлайне

Кто подпишется на тот degree, его score куда пойдёт?

Сабина · Post by **Сабина** » 14 Jan 2016 07:27

Medium-rare wrote:
Сабина wrote:Вон UCBerkley на днях вывесило Data Science degree , все в онлайне
Кто подпишется на тот degree, его score куда пойдёт?

Надеюсь что в диплом

Сабина · Post by **Сабина** » 14 Jan 2016 07:33

Снежная Королева wrote:Ничего не поняла, что значит "не просто так"? Вы не знали, что credit scores - это чистой воды machine learning algorithms?

Точно знала что нет, собственно говоря как то раз даже сто лет назад читала статьи как три бюро по разному обсчитывают. Но бюро как репортили мне хороший скор, так и продолжают. Одна кредит карма выпендривается Хотя конечно смотря что считать machine learning? Может нынче любой обсчёт исторических данных по формуле - это автоматически machine learning.

Сабина · Post by **Сабина** » 16 Jan 2016 02:01

Снежная Королева wrote:Я имела в виду, что несмотря на то, Что credit score - это просто формула, решение о выдачи кредита - это machine learning algorithm, в котором credit score только одна из inputs.

Это даже несмешно

. Все равно что сказать "зачем собирать бигдата, формула пойдёт

"

dasilva · Post by **dasilva** » 16 Jan 2016 03:33

Вроде бы настоящий Machine Learning по прежнему фиговатый. Т.е. если что-то и есть, то оно типа IBM-овского ватсона. А IBM у нас одно. Ну, еще палантир есть. Остальные, вручную смотрят данные и экспериментируют с разными критериями и параметрами. Какие критерии использовать решает, обычно человек. Выбрать параметры помогает комп.

Например, человек смотрит и думает, а давайте-ка, в качестве критерия возьмем возраст. Дальше берут исторические данные (модно называть big data) и подбираем точные значения возрастов для определения возрастных категорий. Далее назначем этим категориям разные страховки или кредит скоры.

В некоторых (большинстве) приложениях Machine Learning не очевидно, какие критереии надо брать. Ну, народ и пробует разные варианты и пишет диссертации на эту тему. Результат получается не очень, но для написания диссертаций подходит. Например, если угадывание случайным образом дает 50% распознавания (угадывания), то после обучения - 60%. Т.е. типа машина научилась, но ничего реального с такой вероятностью ей не доверишь.

Deckel · Post by **Deckel** » 21 Jan 2016 01:13

Вообще-то кроме ватсона есть еще много полуавтоматизированых хреней. В sklearn это примерно так делается: непрерывные данные скалировать на [-1,1] если нет intrinsic scale, а все остальные кодировать one hot encoder. Потом на это напустить случайный лес GBM или спуск по градиенту SGD либо classifier либо regressor, если зависимая переменная непрерывная. Гиперпараметры алгоритмов подбираются методом монте-карло или прогоном по списку и cross validation, для этого тоже есть готовый фреймворк. Какие из зависимых переменных приносят пользу можно посмотреть по score который им выдает алгоритм, а потом убрать ненужные. Но с современным объемом памяти это наверное уже и не обязательно.
Остается проблема мультиколлинеарности - ну можно еще методом главных компонент PCA понизить размерность после причесывания данных.
Может я какие-то особенные случаи не учел, пусть старшие товарищи меня поправят.

andmed · Post by **andmed** » 31 Jan 2016 15:29

На udacity google только начал курс deep learning со своим tensorFlow
на coursera Яндекс с ВШЭ неделю назад запустили machine learning (питон, pandas etc)
вещи интересные, в принципе, для начинающих.
jfyi

geek7 · Post by **geek7** » 31 Jan 2016 15:35

Komissar wrote:
Снежная Королева wrote:Ничего не поняла, что значит "не просто так"? Вы не знали, что credit scores - это чистой воды machine learning algorithms?
австралийцы - как дети, всем байкам верят. Ни machine, ни learning там и рядом не стояло, сплошной угадательный маркетинг.

+1

Физик-Лирик · Post by **Физик-Лирик** » 31 Jan 2016 16:22

dasilva wrote:Вроде бы настоящий Machine Learning по прежнему фиговатый.
Например, человек смотрит и думает, а давайте-ка, в качестве критерия возьмем возраст. Дальше берут исторические данные (модно называть big data) и подбираем точные значения возрастов для определения возрастных категорий. Далее назначем этим категориям разные страховки или кредит скоры.

В некоторых (большинстве) приложениях Machine Learning не очевидно, какие критереии надо брать. Ну, народ и пробует разные варианты и пишет диссертации на эту тему. Результат получается не очень, но для написания диссертаций подходит. Например, если угадывание случайным образом дает 50% распознавания (угадывания), то после обучения - 60%. Т.е. типа машина научилась, но ничего реального с такой вероятностью ей не доверишь.

Критерии, категории, целевые функции (в особенности) выбираются исходя из бизнес постановки задачи. Входные переменные можно и угадать, но все же тоже определяются бизнес задачей. И все-таки Биг-дата не прости модное слово. Это технологии, алгоритмы, концепции. Последнее тоже очень важно, т.к. многомерные пространства концептуально ведут себя по другому (называется курсе оф дименсионалити). Диалектики однако, количественные изменения переходят в качественные. Проблема с маш. обучением в том, что бизнес зачастую не знает, зачем ему все это надо. А все должно начинаться с бизнес задачи, а не наоборот.

Физик-Лирик · Post by **Физик-Лирик** » 31 Jan 2016 18:54

Deckel wrote:Вообще-то кроме ватсона есть еще много полуавтоматизированых хреней. В sklearn это примерно так делается: непрерывные данные скалировать на [-1,1] если нет intrinsic scale, а все остальные кодировать one hot encoder. Потом на это напустить случайный лес GBM или спуск по градиенту SGD либо classifier либо regressor, если зависимая переменная непрерывная. Гиперпараметры алгоритмов подбираются методом монте-карло или прогоном по списку и cross validation, для этого тоже есть готовый фреймворк. Какие из зависимых переменных приносят пользу можно посмотреть по score который им выдает алгоритм, а потом убрать ненужные. Но с современным объемом памяти это наверное уже и не обязательно.
Остается проблема мультиколлинеарности - ну можно еще методом главных компонент PCA понизить размерность после причесывания данных.
Может я какие-то особенные случаи не учел, пусть старшие товарищи меня поправят.

Оно как бы в теории все так, но на практике все будет иначе. Я уже говорил выше, что все начинается с постановки бизнес задачи. Отсюда надо и плясать. Алгоритмов много, но надо знать какой и где применять не только с точки зрения самой задачи, но и времени вычислений, устойчивости к оферфиттингу, точности и т.п. Выборка основных переменных производится автоматически, но вопрос в том, насколько все это точно. Вы уже упоминали мультиколинеарность. Об этом сейчас много дискутируют. Т.к. оценки важности переменных будут неточными, алгоритмы, основанные на выборке по данному критерию, могут полететь. В случае линейной регрессии все кулинарные переменные могут оказаться незначимыми (их же вычисляют как маргинальные переменные), так что степ вайз селекция может не сработать. Принципиальные компоненты, да, но как их интерпретировать? А как метрику выбирать, например, для кластеров или аутлаеров. А про байес в исходных данных я вообще молчу. Так что заменить все фреймверками не получится. А ещё проблема распараллелить алгоритмы.
Короче, наблюдаем некий бум, сходный (масштаб, конечно, не тот) с концом 90-х. Только в отличие от программирования здесь математику знать надо. А вот здесь будут явные проблемы.

Физик-Лирик · Post by **Физик-Лирик** » 31 Jan 2016 22:32

Снежная Королева wrote:Даже такую простую вещь, как подбор гиперпараметров, невозможно решить исключительно тупым прогоном по списку и cross validation, даже на средней величины дата сет. Не говоря уже про биг дата. Приходится включать голову и ограничивать список параметров. А также для выбора переменных надо знать предметную часть, хотя бы для feature engineering.

Самое интересное, однако, начинается, когда надо интерпретировать output. также, когда алгоритм перестает работать, а начальство хочет знать "почему", и как можно быстро его починить.

Однако, высший пилотаж, это когда данных мало или нет вообще, что в большинстве новых задач имеет место быть. Тут как бы ни фреймворки, ни алгоритмы не помогут.

Если данных вообще нет, тогда надо посылать бизнес-аналиста и как можно дальше. А то они взяли моду, данных нет, а результаты вынь да полож.

Безусловно, сейчас аналитика - уже не просто прогон алгоритмов.

Deckel · Post by **Deckel** » 09 Feb 2016 02:32

Снежная Королева wrote:Даже такую простую вещь, как подбор гиперпараметров, невозможно решить исключительно тупым прогоном по списку и cross validation, даже на средней величины дата сет. ... Приходится включать голову и ограничивать список параметров.

Вот посмотрите куда движется наука http://auto-sklearn.readthedocs.org/en/master/" onclick="window.open(this.href);return false; а чтобы не тормозило вот для параллелизации
https://databricks.com/blog/2016/02/08/ ... spark.html" onclick="window.open(this.href);return false;

Снежная Королева wrote: А также для выбора переменных надо знать предметную часть, хотя бы для feature engineering.

C этим спора нет. GIGO

Снежная Королева wrote: Не говоря уже про биг дата.

Как завещал нам великий DevOps Borat

Is no such thing as Big Data. Is only data you not sampled sufficient yet so it fit in RAM and it process with SQLite.

https://twitter.com/DEVOPS_BORAT" onclick="window.open(this.href);return false;

Komissar · Post by **Komissar** » 09 Feb 2016 09:06

Снежная Королева wrote:Спасибо, я почитаю auto sklearn paper.

Это не отменяет невозможность оптимизации всех гиперпараметров. По той простой причине, что это NP-hard problem. Голову все ж таки надо иногда включать.

NP - это ПН наоборот? У ПН головы нет. Зато есть другие части тела

Физик-Лирик · Post by **Физик-Лирик** » 09 Feb 2016 17:05

Deckel wrote: Вот посмотрите куда движется наука

Это скорее не наука движется, а имплементация. Большинство алгоритмов маш. обучения - оптимизационные (по целевой функции) задачи. Многие из них - параметризационные. Соответственно для них нет оптимальных оценок, т.к. результат зависит от конкретных данных. Вот и приходится "угадывать" оптимальное решение. Например, в Р есть методы, позволяющие находить оптимальные области (как и в приведенном случае Питона). На мой субъективный взгляд, большое количество параметров - скорее недостаток чем достоинство. Байес можно хорошо убрать, а вот вариация наверняка вырастить. Опять-таки выборка может происходить по разным критериям. Например, она может быть завязана и на информационные критерии, оценки значимости коэффициентов, индекса Джини и т.п. Короче моно чего там наворотили. Проблема в том, что зачастую, подборка - это тупой (в хорошем смысле) перебор (типа вложенных циклов). Собственно и вся наука. Другое дело, предварительный анализ данных. Он, конечно, не отменяет выборки, но может её упростить.

Komissar wrote:
Снежная Королева wrote:Спасибо, я почитаю auto sklearn paper.

Это не отменяет невозможность оптимизации всех гиперпараметров. По той простой причине, что это NP-hard problem. Голову все ж таки надо иногда включать.
NP - это ПН наоборот? У ПН головы нет. Зато есть другие части тела

У NP вообще ничего нет. Просто красивые слова.

flip_flop · Post by **flip_flop** » 09 Feb 2016 22:25

Физик-Лирик wrote:
Komissar wrote:
Снежная Королева wrote:Спасибо, я почитаю auto sklearn paper.

Это не отменяет невозможность оптимизации всех гиперпараметров. По той простой причине, что это NP-hard problem. Голову все ж таки надо иногда включать.
NP - это ПН наоборот? У ПН головы нет. Зато есть другие части тела
У NP вообще ничего нет. Просто красивые слова.

На самом деле и NP и ПН имеют много общего. Неопределённое поведение и полиномиальная (как функция размера) трата времени.

Deckel · Post by **Deckel** » 09 Feb 2016 23:04

Физик-Лирик wrote:
Deckel wrote: Вот посмотрите куда движется наука
Это скорее не наука движется, а имплементация.

Наука в контексте data science. А так конечно не наука - больше искусство. Искуство перебора

https://medium.com/@xamat/10-more-lesso ... .uymcfsu0i" onclick="window.open(this.href);return false;

Сабина · Post by **Сабина** » 10 Feb 2016 05:54

У нас в компании обнаружился целый отдел machine learning

! Сидят себе в Нью Йорке тихонечко. Здесь я остановлюсь и не буду продолжать ибо с моей точки зрения machine learning experts при наличии "ху..вой" data pipeline тоже соотвествующие, в общем backend & data warehouse engineers rock

Физик-Лирик · Post by **Физик-Лирик** » 10 Feb 2016 12:31

Deckel wrote: Наука в контексте data science. А так конечно не наука - больше искусство. Искуство перебора

На самом деле, любая наука это искусство перебора. Я когда начинал заниматься наукой, наивно полагал, что методики, приведённые в статьях, будут моментально работать для любой проблемы. Ага, конечно. Статьи дают лишь идеи, а потом начинается "перебор" других возможностей, идей и подходов. В дейта сайнсе все тоже самое. Есть "доказанные" идеи, а решение конкретной задачи лишь перебор возможностей. Даже если алгоритм и построен на выборке параметров - тоже стандарт. В прикладной математике -это норма. Но это я скорее о маш. обучении и предикатов моделинг.

Сабина wrote:У нас в компании обнаружился целый отдел machine learning ! Сидят себе в Нью Йорке тихонечко. Здесь я остановлюсь и не буду продолжать ибо с моей точки зрения machine learning experts при наличии "ху..вой" data pipeline тоже соотвествующие, в общем backend & data warehouse engineers rock

Ну да, все правильно, теперь кто раньше были веархаузниками и сиквельщиками стали новомодными дейта сайнтистами. Хорошая смена вывески.

Сабина · Post by **Сабина** » 10 Feb 2016 16:40

Физик-Лирик wrote:
Deckel wrote: Наука в контексте data science. А так конечно не наука - больше искусство. Искуство перебора
На самом деле, любая наука это искусство перебора. Я когда начинал заниматься наукой, наивно полагал, что методики, приведённые в статьях, будут моментально работать для любой проблемы. Ага, конечно. Статьи дают лишь идеи, а потом начинается "перебор" других возможностей, идей и подходов. В дейта сайнсе все тоже самое. Есть "доказанные" идеи, а решение конкретной задачи лишь перебор возможностей. Даже если алгоритм и построен на выборке параметров - тоже стандарт. В прикладной математике -это норма. Но это я скорее о маш. обучении и предикатов моделинг.

Сабина wrote:У нас в компании обнаружился целый отдел machine learning ! Сидят себе в Нью Йорке тихонечко. Здесь я остановлюсь и не буду продолжать ибо с моей точки зрения machine learning experts при наличии "ху..вой" data pipeline тоже соотвествующие, в общем backend & data warehouse engineers rock
Ну да, все правильно, теперь кто раньше были веархаузниками и сиквельщиками стали новомодными дейта сайнтистами. Хорошая смена вывески.

Вы меня не так поняли

. Я пыталась объяснить что никакие глубокие знания R и Matlib не помогут если в тот warehouse данные изначально криво собираются. Ну да ладно, тут все читают что хотят

Физик-Лирик · Post by **Физик-Лирик** » 10 Feb 2016 17:54

Сабина wrote:Ну да, все правильно, теперь кто раньше были веархаузниками и сиквельщиками стали новомодными дейта сайнтистами. Хорошая смена вывески.

Вы меня не так поняли

. Я пыталась объяснить что никакие глубокие знания R и Matlib не помогут если в тот warehouse данные изначально криво собираются. Ну да ладно, тут все читают что хотят

[/quote]

Ну так я о том и говорю. Сиквелщики теперь "ученые", собиратели данных и построители моделей. Просто я так хорошо выражаться не умею.
Другая беда - вся наука сводится к "знанию" Р. Вот и вся предиктив аналитикс. Помноженное на непонимание менеджментом, нафига это все нужно, когда и так работает.

Привет

Machine Learning again

Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again