Machine Learning again
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Machine Learning again
Прочла сегодня в БАРТе рекламку и поняла почему меня КредитКарма всегла записывает в "х...е заёмщики", в то время как тот же Минт говорит что лучше меня нету .
Рекламка на стене гласила "I apply machine learning to make credit more human...." И подпись какого то индуса-инженера из Кредит кармы. Ну а че все правильно - потеряй я работу и все мои скоры, которые может и высокие по подсчетам агенств в течении последних 10+ лет , полетят к чертовой матери.
Получается machine learning - это вам не просто так
Рекламка на стене гласила "I apply machine learning to make credit more human...." И подпись какого то индуса-инженера из Кредит кармы. Ну а че все правильно - потеряй я работу и все мои скоры, которые может и высокие по подсчетам агенств в течении последних 10+ лет , полетят к чертовой матери.
Получается machine learning - это вам не просто так
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 64661
- Joined: 12 Jul 2002 16:38
- Location: г.Москва, ул. Б. Лубянка, д.2
Re: Machine Learning again
австралийцы - как дети, всем байкам верят. Ни machine, ни learning там и рядом не стояло, сплошной угадательный маркетинг.Снежная Королева wrote:Ничего не поняла, что значит "не просто так"? Вы не знали, что credit scores - это чистой воды machine learning algorithms?
-
- Уже с Приветом
- Posts: 9194
- Joined: 04 Mar 2011 03:04
- Location: SFBA
Re: Machine Learning again
Мне кажется, если им сам человек не сообщит, что он без работы, то кредитные агенства и не узнают. Между работами и новые кредитки предлагают, и всё, как обычно. Кроме как на мортгидж работодателя подтверждать, не помню, чтобы спрашивали.Сабина wrote:Ну а че все правильно - потеряй я работу и все мои скоры, которые может и высокие по подсчетам агенств в течении последних 10+ лет , полетят к чертовой матери.
... and even then it's rare that you'll be going there...
-
- Уже с Приветом
- Posts: 4205
- Joined: 10 Jan 2004 01:22
- Location: n-sk -> MD -> VA
Re: Machine Learning again
Да, 'credit score' отражает 'past performance' а не то что могут подумать иностранцы.
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Machine Learning again
Я думаю там не все так примитивно просто "есть работа, нет работы", наверняка machine learner-ы изощряются и анализируют все что можно , а подписалось на ету Кредит Карму ой-ей-ей скока народу . Грубо говоря они вам точно посчитают чем 790 у single mom отличаются от 790 of a young guy in his 20s.Medium-rare wrote:Мне кажется, если им сам человек не сообщит, что он без работы, то кредитные агенства и не узнают. Между работами и новые кредитки предлагают, и всё, как обычно. Кроме как на мортгидж работодателя подтверждать, не помню, чтобы спрашивали.Сабина wrote:Ну а че все правильно - потеряй я работу и все мои скоры, которые может и высокие по подсчетам агенств в течении последних 10+ лет , полетят к чертовой матери.
Ну а что мы только крепчаем от такого знания . Вон UCBerkley на днях вывесило Data Science degree , все в онлайне
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 9194
- Joined: 04 Mar 2011 03:04
- Location: SFBA
Re: Machine Learning again
Кто подпишется на тот degree, его score куда пойдёт?Сабина wrote:Вон UCBerkley на днях вывесило Data Science degree , все в онлайне
... and even then it's rare that you'll be going there...
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Machine Learning again
Надеюсь что в дипломMedium-rare wrote:Кто подпишется на тот degree, его score куда пойдёт?Сабина wrote:Вон UCBerkley на днях вывесило Data Science degree , все в онлайне
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Machine Learning again
Точно знала что нет, собственно говоря как то раз даже сто лет назад читала статьи как три бюро по разному обсчитывают. Но бюро как репортили мне хороший скор, так и продолжают. Одна кредит карма выпендривается Хотя конечно смотря что считать machine learning? Может нынче любой обсчёт исторических данных по формуле - это автоматически machine learning.Снежная Королева wrote:Ничего не поняла, что значит "не просто так"? Вы не знали, что credit scores - это чистой воды machine learning algorithms?
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Machine Learning again
Снежная Королева wrote:Я имела в виду, что несмотря на то, Что credit score - это просто формула, решение о выдачи кредита - это machine learning algorithm, в котором credit score только одна из inputs.
Это даже несмешно . Все равно что сказать "зачем собирать бигдата, формула пойдёт "
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 4022
- Joined: 18 Nov 2014 06:20
Re: Machine Learning again
Вроде бы настоящий Machine Learning по прежнему фиговатый. Т.е. если что-то и есть, то оно типа IBM-овского ватсона. А IBM у нас одно. Ну, еще палантир есть. Остальные, вручную смотрят данные и экспериментируют с разными критериями и параметрами. Какие критерии использовать решает, обычно человек. Выбрать параметры помогает комп.
Например, человек смотрит и думает, а давайте-ка, в качестве критерия возьмем возраст. Дальше берут исторические данные (модно называть big data) и подбираем точные значения возрастов для определения возрастных категорий. Далее назначем этим категориям разные страховки или кредит скоры.
В некоторых (большинстве) приложениях Machine Learning не очевидно, какие критереии надо брать. Ну, народ и пробует разные варианты и пишет диссертации на эту тему. Результат получается не очень, но для написания диссертаций подходит. Например, если угадывание случайным образом дает 50% распознавания (угадывания), то после обучения - 60%. Т.е. типа машина научилась, но ничего реального с такой вероятностью ей не доверишь.
Например, человек смотрит и думает, а давайте-ка, в качестве критерия возьмем возраст. Дальше берут исторические данные (модно называть big data) и подбираем точные значения возрастов для определения возрастных категорий. Далее назначем этим категориям разные страховки или кредит скоры.
В некоторых (большинстве) приложениях Machine Learning не очевидно, какие критереии надо брать. Ну, народ и пробует разные варианты и пишет диссертации на эту тему. Результат получается не очень, но для написания диссертаций подходит. Например, если угадывание случайным образом дает 50% распознавания (угадывания), то после обучения - 60%. Т.е. типа машина научилась, но ничего реального с такой вероятностью ей не доверишь.
-
- Ник закрыт за хамство.
- Posts: 357
- Joined: 16 Feb 2014 18:34
Re: Machine Learning again
Вообще-то кроме ватсона есть еще много полуавтоматизированых хреней. В sklearn это примерно так делается: непрерывные данные скалировать на [-1,1] если нет intrinsic scale, а все остальные кодировать one hot encoder. Потом на это напустить случайный лес GBM или спуск по градиенту SGD либо classifier либо regressor, если зависимая переменная непрерывная. Гиперпараметры алгоритмов подбираются методом монте-карло или прогоном по списку и cross validation, для этого тоже есть готовый фреймворк. Какие из зависимых переменных приносят пользу можно посмотреть по score который им выдает алгоритм, а потом убрать ненужные. Но с современным объемом памяти это наверное уже и не обязательно.
Остается проблема мультиколлинеарности - ну можно еще методом главных компонент PCA понизить размерность после причесывания данных.
Может я какие-то особенные случаи не учел, пусть старшие товарищи меня поправят.
Остается проблема мультиколлинеарности - ну можно еще методом главных компонент PCA понизить размерность после причесывания данных.
Может я какие-то особенные случаи не учел, пусть старшие товарищи меня поправят.
-
- Posts: 7
- Joined: 13 Sep 2015 20:48
Re: Machine Learning again
На udacity google только начал курс deep learning со своим tensorFlow
на coursera Яндекс с ВШЭ неделю назад запустили machine learning (питон, pandas etc)
вещи интересные, в принципе, для начинающих.
jfyi
на coursera Яндекс с ВШЭ неделю назад запустили machine learning (питон, pandas etc)
вещи интересные, в принципе, для начинающих.
jfyi
-
- Уже с Приветом
- Posts: 20198
- Joined: 01 Dec 2003 23:16
- Location: Russia->USA
Re: Machine Learning again
+1Komissar wrote:австралийцы - как дети, всем байкам верят. Ни machine, ни learning там и рядом не стояло, сплошной угадательный маркетинг.Снежная Королева wrote:Ничего не поняла, что значит "не просто так"? Вы не знали, что credit scores - это чистой воды machine learning algorithms?
Говори что думаешь, думай что говоришь!
Маразм крепчал и скрепы гнулись
Маразм крепчал и скрепы гнулись
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Machine Learning again
Критерии, категории, целевые функции (в особенности) выбираются исходя из бизнес постановки задачи. Входные переменные можно и угадать, но все же тоже определяются бизнес задачей. И все-таки Биг-дата не прости модное слово. Это технологии, алгоритмы, концепции. Последнее тоже очень важно, т.к. многомерные пространства концептуально ведут себя по другому (называется курсе оф дименсионалити). Диалектики однако, количественные изменения переходят в качественные. Проблема с маш. обучением в том, что бизнес зачастую не знает, зачем ему все это надо. А все должно начинаться с бизнес задачи, а не наоборот.dasilva wrote:Вроде бы настоящий Machine Learning по прежнему фиговатый.
Например, человек смотрит и думает, а давайте-ка, в качестве критерия возьмем возраст. Дальше берут исторические данные (модно называть big data) и подбираем точные значения возрастов для определения возрастных категорий. Далее назначем этим категориям разные страховки или кредит скоры.
В некоторых (большинстве) приложениях Machine Learning не очевидно, какие критереии надо брать. Ну, народ и пробует разные варианты и пишет диссертации на эту тему. Результат получается не очень, но для написания диссертаций подходит. Например, если угадывание случайным образом дает 50% распознавания (угадывания), то после обучения - 60%. Т.е. типа машина научилась, но ничего реального с такой вероятностью ей не доверишь.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Machine Learning again
Оно как бы в теории все так, но на практике все будет иначе. Я уже говорил выше, что все начинается с постановки бизнес задачи. Отсюда надо и плясать. Алгоритмов много, но надо знать какой и где применять не только с точки зрения самой задачи, но и времени вычислений, устойчивости к оферфиттингу, точности и т.п. Выборка основных переменных производится автоматически, но вопрос в том, насколько все это точно. Вы уже упоминали мультиколинеарность. Об этом сейчас много дискутируют. Т.к. оценки важности переменных будут неточными, алгоритмы, основанные на выборке по данному критерию, могут полететь. В случае линейной регрессии все кулинарные переменные могут оказаться незначимыми (их же вычисляют как маргинальные переменные), так что степ вайз селекция может не сработать. Принципиальные компоненты, да, но как их интерпретировать? А как метрику выбирать, например, для кластеров или аутлаеров. А про байес в исходных данных я вообще молчу. Так что заменить все фреймверками не получится. А ещё проблема распараллелить алгоритмы.Deckel wrote:Вообще-то кроме ватсона есть еще много полуавтоматизированых хреней. В sklearn это примерно так делается: непрерывные данные скалировать на [-1,1] если нет intrinsic scale, а все остальные кодировать one hot encoder. Потом на это напустить случайный лес GBM или спуск по градиенту SGD либо classifier либо regressor, если зависимая переменная непрерывная. Гиперпараметры алгоритмов подбираются методом монте-карло или прогоном по списку и cross validation, для этого тоже есть готовый фреймворк. Какие из зависимых переменных приносят пользу можно посмотреть по score который им выдает алгоритм, а потом убрать ненужные. Но с современным объемом памяти это наверное уже и не обязательно.
Остается проблема мультиколлинеарности - ну можно еще методом главных компонент PCA понизить размерность после причесывания данных.
Может я какие-то особенные случаи не учел, пусть старшие товарищи меня поправят.
Короче, наблюдаем некий бум, сходный (масштаб, конечно, не тот) с концом 90-х. Только в отличие от программирования здесь математику знать надо. А вот здесь будут явные проблемы.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Machine Learning again
Если данных вообще нет, тогда надо посылать бизнес-аналиста и как можно дальше. А то они взяли моду, данных нет, а результаты вынь да полож.Снежная Королева wrote:Даже такую простую вещь, как подбор гиперпараметров, невозможно решить исключительно тупым прогоном по списку и cross validation, даже на средней величины дата сет. Не говоря уже про биг дата. Приходится включать голову и ограничивать список параметров. А также для выбора переменных надо знать предметную часть, хотя бы для feature engineering.
Самое интересное, однако, начинается, когда надо интерпретировать output. также, когда алгоритм перестает работать, а начальство хочет знать "почему", и как можно быстро его починить.
Однако, высший пилотаж, это когда данных мало или нет вообще, что в большинстве новых задач имеет место быть. Тут как бы ни фреймворки, ни алгоритмы не помогут.
Безусловно, сейчас аналитика - уже не просто прогон алгоритмов.
-
- Ник закрыт за хамство.
- Posts: 357
- Joined: 16 Feb 2014 18:34
Re: Machine Learning again
Вот посмотрите куда движется наука http://auto-sklearn.readthedocs.org/en/master/" onclick="window.open(this.href);return false; а чтобы не тормозило вот для параллелизацииСнежная Королева wrote:Даже такую простую вещь, как подбор гиперпараметров, невозможно решить исключительно тупым прогоном по списку и cross validation, даже на средней величины дата сет. ... Приходится включать голову и ограничивать список параметров.
https://databricks.com/blog/2016/02/08/ ... spark.html" onclick="window.open(this.href);return false;
C этим спора нет. GIGOСнежная Королева wrote: А также для выбора переменных надо знать предметную часть, хотя бы для feature engineering.
Как завещал нам великий DevOps BoratСнежная Королева wrote: Не говоря уже про биг дата.
https://twitter.com/DEVOPS_BORAT" onclick="window.open(this.href);return false;Is no such thing as Big Data. Is only data you not sampled sufficient yet so it fit in RAM and it process with SQLite.
-
- Уже с Приветом
- Posts: 64661
- Joined: 12 Jul 2002 16:38
- Location: г.Москва, ул. Б. Лубянка, д.2
Re: Machine Learning again
NP - это ПН наоборот? У ПН головы нет. Зато есть другие части телаСнежная Королева wrote:Спасибо, я почитаю auto sklearn paper.
Это не отменяет невозможность оптимизации всех гиперпараметров. По той простой причине, что это NP-hard problem. Голову все ж таки надо иногда включать.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Machine Learning again
Это скорее не наука движется, а имплементация. Большинство алгоритмов маш. обучения - оптимизационные (по целевой функции) задачи. Многие из них - параметризационные. Соответственно для них нет оптимальных оценок, т.к. результат зависит от конкретных данных. Вот и приходится "угадывать" оптимальное решение. Например, в Р есть методы, позволяющие находить оптимальные области (как и в приведенном случае Питона). На мой субъективный взгляд, большое количество параметров - скорее недостаток чем достоинство. Байес можно хорошо убрать, а вот вариация наверняка вырастить. Опять-таки выборка может происходить по разным критериям. Например, она может быть завязана и на информационные критерии, оценки значимости коэффициентов, индекса Джини и т.п. Короче моно чего там наворотили. Проблема в том, что зачастую, подборка - это тупой (в хорошем смысле) перебор (типа вложенных циклов). Собственно и вся наука. Другое дело, предварительный анализ данных. Он, конечно, не отменяет выборки, но может её упростить.Deckel wrote: Вот посмотрите куда движется наука
У NP вообще ничего нет. Просто красивые слова.Komissar wrote:NP - это ПН наоборот? У ПН головы нет. Зато есть другие части телаСнежная Королева wrote:Спасибо, я почитаю auto sklearn paper.
Это не отменяет невозможность оптимизации всех гиперпараметров. По той простой причине, что это NP-hard problem. Голову все ж таки надо иногда включать.
-
- Уже с Приветом
- Posts: 4375
- Joined: 20 Jun 2001 09:01
Re: Machine Learning again
На самом деле и NP и ПН имеют много общего. Неопределённое поведение и полиномиальная (как функция размера) трата времени.Физик-Лирик wrote:У NP вообще ничего нет. Просто красивые слова.Komissar wrote:NP - это ПН наоборот? У ПН головы нет. Зато есть другие части телаСнежная Королева wrote:Спасибо, я почитаю auto sklearn paper.
Это не отменяет невозможность оптимизации всех гиперпараметров. По той простой причине, что это NP-hard problem. Голову все ж таки надо иногда включать.
-
- Ник закрыт за хамство.
- Posts: 357
- Joined: 16 Feb 2014 18:34
Re: Machine Learning again
Наука в контексте data science. А так конечно не наука - больше искусство. Искуство перебораФизик-Лирик wrote:Это скорее не наука движется, а имплементация.Deckel wrote: Вот посмотрите куда движется наука
https://medium.com/@xamat/10-more-lesso ... .uymcfsu0i" onclick="window.open(this.href);return false;
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Machine Learning again
У нас в компании обнаружился целый отдел machine learning ! Сидят себе в Нью Йорке тихонечко. Здесь я остановлюсь и не буду продолжать ибо с моей точки зрения machine learning experts при наличии "ху..вой" data pipeline тоже соотвествующие, в общем backend & data warehouse engineers rock
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Machine Learning again
На самом деле, любая наука это искусство перебора. Я когда начинал заниматься наукой, наивно полагал, что методики, приведённые в статьях, будут моментально работать для любой проблемы. Ага, конечно. Статьи дают лишь идеи, а потом начинается "перебор" других возможностей, идей и подходов. В дейта сайнсе все тоже самое. Есть "доказанные" идеи, а решение конкретной задачи лишь перебор возможностей. Даже если алгоритм и построен на выборке параметров - тоже стандарт. В прикладной математике -это норма. Но это я скорее о маш. обучении и предикатов моделинг.Deckel wrote: Наука в контексте data science. А так конечно не наука - больше искусство. Искуство перебора
Ну да, все правильно, теперь кто раньше были веархаузниками и сиквельщиками стали новомодными дейта сайнтистами. Хорошая смена вывески.Сабина wrote:У нас в компании обнаружился целый отдел machine learning ! Сидят себе в Нью Йорке тихонечко. Здесь я остановлюсь и не буду продолжать ибо с моей точки зрения machine learning experts при наличии "ху..вой" data pipeline тоже соотвествующие, в общем backend & data warehouse engineers rock
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Machine Learning again
Физик-Лирик wrote:На самом деле, любая наука это искусство перебора. Я когда начинал заниматься наукой, наивно полагал, что методики, приведённые в статьях, будут моментально работать для любой проблемы. Ага, конечно. Статьи дают лишь идеи, а потом начинается "перебор" других возможностей, идей и подходов. В дейта сайнсе все тоже самое. Есть "доказанные" идеи, а решение конкретной задачи лишь перебор возможностей. Даже если алгоритм и построен на выборке параметров - тоже стандарт. В прикладной математике -это норма. Но это я скорее о маш. обучении и предикатов моделинг.Deckel wrote: Наука в контексте data science. А так конечно не наука - больше искусство. Искуство перебора
Ну да, все правильно, теперь кто раньше были веархаузниками и сиквельщиками стали новомодными дейта сайнтистами. Хорошая смена вывески.Сабина wrote:У нас в компании обнаружился целый отдел machine learning ! Сидят себе в Нью Йорке тихонечко. Здесь я остановлюсь и не буду продолжать ибо с моей точки зрения machine learning experts при наличии "ху..вой" data pipeline тоже соотвествующие, в общем backend & data warehouse engineers rock
Вы меня не так поняли . Я пыталась объяснить что никакие глубокие знания R и Matlib не помогут если в тот warehouse данные изначально криво собираются. Ну да ладно, тут все читают что хотят
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Machine Learning again
Сабина wrote:Ну да, все правильно, теперь кто раньше были веархаузниками и сиквельщиками стали новомодными дейта сайнтистами. Хорошая смена вывески.
Вы меня не так поняли . Я пыталась объяснить что никакие глубокие знания R и Matlib не помогут если в тот warehouse данные изначально криво собираются. Ну да ладно, тут все читают что хотят [/quote]
Ну так я о том и говорю. Сиквелщики теперь "ученые", собиратели данных и построители моделей. Просто я так хорошо выражаться не умею.
Другая беда - вся наука сводится к "знанию" Р. Вот и вся предиктив аналитикс. Помноженное на непонимание менеджментом, нафига это все нужно, когда и так работает.