Machine Learning again

Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

Снежная Королева wrote:Я в отпуске на Бали, и мне сейчас лень :) через неделю-другую приведу примеры.
В отпуске и на Привете? Я лично не люблю отпусков. Скучно. Езжу, конечно, ради семьи. Но через несколько дней отмокания в океане хочу снова книжку почитать. :D
А что, какие-то алгоритмы особые, что сходу не вспомнить? :D Я больше имел всем известные МЛ.
blanko27 wrote:На самом деле, вот именно это "подручивание параметров" я и имел в виду говоря о voodoo в ML. В теории, как вы и сами подтверждаете, все выглядит отлично :fr:
Так это почти всегда так. Вон в прикладной математике есть метод верхней релаксации. Теория подсказывает диапазон для параметра, а сам параметр подбирается экспериментально. Так что ничего нового. Одно дело, когда имеешь дело с 2-3 параметрами, и совсем другое, когда параметров много. Собственно так МЛ и работает.
flip_flop wrote:"Подкручивание параметров" тоже имеет свою теорию, несмотря на большие проблемы. Можно пользоваться теорией (что сложно), а можно объявить это "вуду", пользоваться стандартными пакетами, ходить на митапы по их использованию и наслаждаться несложной жизнью (что проще, приятнее, и естественнее).
Правильно. Для нелинейных задач трудно выработать теорию. Скорее будет некая линеаризация.
Собственно современный ДС - это перелопачивание данных. Становится скучновато. Теорией надо заниматься.
Смотрю на открытые позиции. Их много, но какие-то неинтересные. Некуда лыжи намылить. :D
blanko27
Уже с Приветом
Posts: 2261
Joined: 17 Jun 2003 04:41
Location: Just like US

Re: Machine Learning again

Post by blanko27 »

Физик-Лирик wrote:
flip_flop wrote:"Подкручивание параметров" тоже имеет свою теорию, ...
Правильно. Для нелинейных задач трудно выработать теорию. ...
Вы вот все правильно обобщаете, но overfit мою мыслю.
Давайте я вам дам для примера линк на широко известную в узких кругах бумагу по negative sampling в NLP Mikolov - Distributed Representations of Words and Phrases and their Compositionality И если вам не лень, конечно, подскажите мне пожалуйста, с какого такого гениального вдохновения в формулу P(w) на странице 4, 3-й снизу абзац, они подставлюят степень 3/4 ? Их обоснование такое
Both NCE and NEG have the noise distribution Pn(w) as a free parameter. We investigated a number of choices for Pn(w) and found that the unigram distribution U(w) raised to the 3/4rd power (i.e., U(w)3/4/Z) outperformed significantly the unigram and the uniform distributions, for both NCE and NEG on every task we tried including language modeling (not reported here).
Т.е., по простому говоря, подгоняют "эмпирическокий коэфициент" :)
...а мы такой компанией, возьмем, да и припремся к Элис!
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

blanko27 wrote: Вы вот все правильно обобщаете, но overfit мою мыслю.
Давайте я вам дам для примера линк на широко известную в узких кругах бумагу по negative sampling в NLP
Выделенный абзац, думаю, и есть объяснение. Найдено эмпирических путём. Что вполне нормально и естественно.
Собственно подружка в МЛ точно такая же. Подкрутили, сравнили, подкрутили, сравнили, и т.д.
blanko27
Уже с Приветом
Posts: 2261
Joined: 17 Jun 2003 04:41
Location: Just like US

Re: Machine Learning again

Post by blanko27 »

Физик-Лирик wrote:Выделенный абзац, думаю, и есть объяснение. Найдено эмпирических путём. ...
Richard Socher, читая лекции по NLP в Stanford cs224d назвал этот коэффициент просто интуитивным hack-ом. "Найдено эмпирических путём." - это "voodoo" :)
...а мы такой компанией, возьмем, да и припремся к Элис!
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

Уже который стартап про ML стучится - у всех одно: финансы ( кредитные дела), медицина ( анализы и диагнозы по ним), маркетинг ( кто что купит, когда и почему). Ладно хоть нет предсказания про то как выростет log и сколько в нем будет ошибок на основе имеющегося.
И чем спрашивается hype по big data хуже? А самое главное - есть какие то более интересные сферы применения крме вышеназванных ?
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
flip_flop
Уже с Приветом
Posts: 4375
Joined: 20 Jun 2001 09:01

Re: Machine Learning again

Post by flip_flop »

Сабина wrote:Уже который стартап про ML стучится - у всех одно: финансы ( кредитные дела), медицина ( анализы и диагнозы по ним), маркетинг ( кто что купит, когда и почему). Ладно хоть нет предсказания про то как выростет log и сколько в нем будет ошибок на основе имеющегося.
И чем спрашивается hype по big data хуже? А самое главное - есть какие то более интересные сферы применения крме вышеназванных ?
Медицина и биология - вполне интересные и очень даже важные сферы. Вон, посмотрите на эпическую долгоиграющую драму Theranos - интереснее не бывает.

Ещё одна интересная сфера - автономные машины, но их время ещё не пришло. Ждите, настанет время и этого хайпа, узнаете из прессы, митапов, и стущащимся стартапам.

В защиту big data, вернее в защиту хайпа по big data – дарю идею: можно скрестить ужа с ежом хайп по big data и хайп по ML, и радоваться.

P.S. Вот, первый же гугл по двум хайпам выдал жизнерадостное утверждение: "Machine learning is ideal for exploiting the opportunities hidden in big data."
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

flip_flop wrote:
Сабина wrote:Уже который стартап про ML стучится - у всех одно: финансы ( кредитные дела), медицина ( анализы и диагнозы по ним), маркетинг ( кто что купит, когда и почему). Ладно хоть нет предсказания про то как выростет log и сколько в нем будет ошибок на основе имеющегося.
И чем спрашивается hype по big data хуже? А самое главное - есть какие то более интересные сферы применения крме вышеназванных ?
Медицина и биология - вполне интересные и очень даже важные сферы. Вон, посмотрите на эпическую долгоиграющую драму Theranos - интереснее не бывает.

Ещё одна интересная сфера - автономные машины, но их время ещё не пришло. Ждите, настанет время и этого хайпа, узнаете из прессы, митапов, и стущащимся стартапам.

В защиту big data, вернее в защиту хайпа по big data – дарю идею: можно скрестить ужа с ежом хайп по big data и хайп по ML, и радоваться.

P.S. Вот, первый же гугл по двум хайпам выдал жизнерадостное утверждение: "Machine learning is ideal for exploiting the opportunities hidden in big data."
То что они общие корни - я согласна, просто не вижу кучи exciting возможностей для применения, которую обещали. Пока надеюсь
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
flip_flop
Уже с Приветом
Posts: 4375
Joined: 20 Jun 2001 09:01

Re: Machine Learning again

Post by flip_flop »

Сабина wrote:
flip_flop wrote:
Сабина wrote:Уже который стартап про ML стучится - у всех одно: финансы ( кредитные дела), медицина ( анализы и диагнозы по ним), маркетинг ( кто что купит, когда и почему). Ладно хоть нет предсказания про то как выростет log и сколько в нем будет ошибок на основе имеющегося.
И чем спрашивается hype по big data хуже? А самое главное - есть какие то более интересные сферы применения крме вышеназванных ?
Медицина и биология - вполне интересные и очень даже важные сферы. Вон, посмотрите на эпическую долгоиграющую драму Theranos - интереснее не бывает.

Ещё одна интересная сфера - автономные машины, но их время ещё не пришло. Ждите, настанет время и этого хайпа, узнаете из прессы, митапов, и стущащимся стартапам.

В защиту big data, вернее в защиту хайпа по big data – дарю идею: можно скрестить ужа с ежом хайп по big data и хайп по ML, и радоваться.

P.S. Вот, первый же гугл по двум хайпам выдал жизнерадостное утверждение: "Machine learning is ideal for exploiting the opportunities hidden in big data."
То что они общие корни - я согласна, просто не вижу кучи exciting возможностей для применения, которую обещали. Пока надеюсь
А куча стучащихся стартапов как же? Или весомые инвестиции больших компаний в это дело? Или там стремительный взлёт производства датологов?

Насчёт общих корней, тут тоже не совсем так очевидно, хоть и переплетаются местами.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

flip_flop wrote: А куча стучащихся стартапов как же? Или весомые инвестиции больших компаний в это дело? Или там стремительный взлёт производства датологов?

Насчёт общих корней, тут тоже не совсем так очевидно, хоть и переплетаются местами.
Ну да, я по том и сужу что раз кто-то вкладывает в них много денег - то они как бы репрезетнтация имеющейся выборки. Но ведь данные можно анализировать дофига где еще ? Тот же поиск нефти - ну просто идеальное приложение для machine learning - так хоть бы одна блоха что говорится
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
flip_flop
Уже с Приветом
Posts: 4375
Joined: 20 Jun 2001 09:01

Re: Machine Learning again

Post by flip_flop »

Сабина wrote:
flip_flop wrote: А куча стучащихся стартапов как же? Или весомые инвестиции больших компаний в это дело? Или там стремительный взлёт производства датологов?

Насчёт общих корней, тут тоже не совсем так очевидно, хоть и переплетаются местами.
Ну да, я по том и сужу что раз кто-то вкладывает в них много денег - то они как бы репрезетнтация имеющейся выборки. Но ведь данные можно анализировать дофига где еще ? Тот же поиск нефти - ну просто идеальное приложение для machine learning - так хоть бы одна блоха что говорится
Нефте- и газо- добыча уже схвачены, очень интересная сфера, кстати. Но это область HPC, весьма узкая и весьма наукоёмкая область. Вряд ли там ширпотребовским стартапам мёдом помазано.
blanko27
Уже с Приветом
Posts: 2261
Joined: 17 Jun 2003 04:41
Location: Just like US

Re: Machine Learning again

Post by blanko27 »

Физик-Лирик wrote:Возьмите, например, книги по суппорт вектор машин (либо классику, либо посовременней). Напишите потом, если сможете осилить их до конца. :D Потом нам всем будите здесь объяснять про "редюсинг кернел хилберт спейс" (вот сказал) :lol:
Почитал. :) Скажите пожалуйста, каким образом наличие infinite VC dimension у SVM kernel-ов согласуется с гарантией learnability? Т.е. наличие infinite VC dimension должно нам сказать, что теоретической гарантии нет?
...а мы такой компанией, возьмем, да и припремся к Элис!
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

[quote="blanko27"]
Почитал. :) Скажите пожалуйста, каким образом наличие infinite VC dimension у SVM kernel-ов согласуется с
Не совсем понятно, что имеется в виду под гарантией. Математически, решается оптимизационная задача, для которой гарантируется существование решения. Переход в бесконечномерные пространства лишь создаёт дополнительные "нелинейные" возможности. В этом, собственно, и идея
Если, скажем, ввести две переменные X и Y, используя генератор случайный чисел, то алгоритмы машинного обучения выдадут решение. Понятно, однако, что на самом деле никакой функциональной зависимости нет.
Какую книгу Вы прочитали?
blanko27
Уже с Приветом
Posts: 2261
Joined: 17 Jun 2003 04:41
Location: Just like US

Re: Machine Learning again

Post by blanko27 »

Физик-Лирик wrote:Не совсем понятно, что имеется в виду под гарантией. Математически, решается оптимизационная задача, для которой гарантируется существование решения.
Спасибо, кажется, разобрался, я упустил то, что large margin implies low VC dimension у полученного классификатора. :o
Гарантия каторую я имел в виду - это гарантия learnability of target function, предоставляемая by Hoeffding inequality.
Книжка, я и сейчас еще читаю (просто глава в ней про SVM) - Murphy по Machine Learning, но это скорее референс, поэтому пока прочитаешь главу, переберешь еще минимум 10 источников.
...а мы такой компанией, возьмем, да и припремся к Элис!
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

blanko27 wrote: Гарантия каторую я имел в виду - это гарантия learnability of target function, предоставляемая by Hoeffding inequality.
Книжка, я и сейчас еще читаю (просто глава в ней про SVM) - Murphy по Machine Learning, но это скорее референс, поэтому пока прочитаешь главу, переберешь еще минимум 10 источников.
В моем понимании, неравенство Хоефдинга, наряду с неравенствами Чебышева, Маркова и Чернова, обычно используются для оценок экстремальных значений случайных величин. Также используются для оценок (неравенств) в SVM. Для машинного обучения стандартный подход - это введение соответствующей loss function, например, квадратичной, представляющей собой функционал от обучающей функции, последующего определения соответствующего функционала, называемого функционалом риска, от этой функции потери для нахождения среднего значения и последующей минимизации данного функционала риска. Во избежание ôverfitting к функционалу добавляют дополнительный член в виде нормы обучающей функции. На практике функционал риска вычисляется эмпирических на основе исторических данных. Собственно это математическая основа машинного обучения (supervised machine learning). В случае классификаторов известно, что не все задачи можно решить путём введения линейных гиперплоскостей в соответствующих пространствах (известный пример - это XOR). Поэтому производится трансформация исходного конечномерного пространства в пространства более высокой размерности или бесконечномерные пространства (идея суппорт вектор машины). Эти трансформации можно описать с помощью ядер, представляющим скалярное произведение в новых пространствах. Далее вводятся ядра (симметричные положительно-определённые функции) Для каждого яра существует соответствующее Гильбертово пространство (редьюсинг кернел Гилберт спейс), в котором и решается минимизационная задача с использованием "трюка ядра".
Посмотрите книгу, которая так и называется, суппорт вектор машин (оранжево-серая обложка). Там изложена вся теория, включая упомянутое Вами неравенство.
User avatar
Flash-04
Уже с Приветом
Posts: 63377
Joined: 03 Nov 2004 05:31
Location: RU -> Toronto, ON

Re: Machine Learning again

Post by Flash-04 »

Извините что встреваю в учОную беседу, позабавило с одной недавней презентации на конференции: докладчик говорит "хотите произвести впечатление? Выучите непонятные слова Колмогоров-Смирнов" :D
Image
Not everyone believes what I believe but my beliefs do not require them to.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

Flash-04 wrote:Извините что встреваю в учОную беседу, позабавило с одной недавней презентации на конференции: докладчик говорит "хотите произвести впечатление? Выучите непонятные слова Колмогоров-Смирнов" :D
Н
:lol:

Чтобы напустить больше шороху, лучше упомянуть и тест Колмогорова-Смирнова и тест Шапиро :D (последний проверяет, получена ли популяция из нормального распределения). Двойной спецэффект. :D
ystar
Уже с Приветом
Posts: 1029
Joined: 27 Apr 2014 17:13
Location: USA

Re: Machine Learning again

Post by ystar »

Ребята, а какие вопросы задают на вакансии связанной с Machine Learning?
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Machine Learning again

Post by Deckel »

1. Расскажите про нормальное распределение?
2. Важно ли оно для ML?
:-)
ystar
Уже с Приветом
Posts: 1029
Joined: 27 Apr 2014 17:13
Location: USA

Re: Machine Learning again

Post by ystar »

Deckel wrote:1. Расскажите про нормальное распределение?
2. Важно ли оно для ML?
:-)
Так второй вопрос очень филосовский. как говорится depends on.
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Machine Learning again

Post by Deckel »

ystar wrote:
Deckel wrote:1. Расскажите про нормальное распределение?
2. Важно ли оно для ML?
:-)
Так второй вопрос очень филосовский. как говорится depends on.
Тут я могу только пояснить, что правильное выражение "it depends" :-)
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

ystar wrote:Ребята, а какие вопросы задают на вакансии связанной с Machine Learning?
Например, описать RKHS и привести примеры функций, составляющих это пространства для RBF.
Доказать теорему Цибенко для однослойного NN. Доказать существование решения для глубокого обучения и объяснить принцип его работы. Объяснить принципы решения некорректно поставленных задач (ill-posed problems) на основе метода регуляризации Тихонова и показать, как эти принципы используются для решения методом регрессии задач с коллинеарными переменными.
Если на всё это ответите во время интервью, тогда точно не возьмут. :D

По большому счету спрашивают, какие бизнес-задачи решались и просят привести примеры их решения с использованием методов машинного обучения. Я бы прежде всего обратил внимание на это. Здесь главное показать, что дейта сайнтист умеет задавать правильные вопросы. Я, например, могу интервьюируемому поставить простую бизнес-задачу (что-нибудь простое и прикольное) и попросить описать процедуру решения. Собственно, отсюда сразу видно, понимает ли человек, что делает. Могут пройтись на понимание самих методов, типа человек знает ли их принципы или просто функции на Питоне вызывает. Могут спросить что-нибудь по статистическим тестам.
А вообще посмотрите на Инете. Там целые публикации ни эту тему.
Deckel wrote:1. Расскажите про нормальное распределение?
2. Важно ли оно для ML?
:-)
Здесь бы я поговорил о линейной регрессии. Чем метод наименьших квадратов отличается от метода максимального лайклихуда. Зачем вводится гипотеза о нормальности ошибки и перешёл бы к оценке коэффициентов путём расчёта p-value. Заодно упомянул бы про t-test и F-test (обязательно бы сказал про гипотезы). Затем упомянул бы про диагностику "резидуалс" путём оценки их распределения. Также сказал бы пару слов о Linear Discriminant Analysis.
Можно ещё поговорить о Central Limit Theorem (в совокупности с Large Number Theorem), т.е. сходимости к нормальному распределению.
Наверное как-то так.
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Machine Learning again

Post by Deckel »

Физик-Лирик wrote: Если на всё это ответите во время интервью, тогда точно не возьмут. :D
Deckel wrote:1. Расскажите про нормальное распределение?
2. Важно ли оно для ML?
:-)
Здесь бы я поговорил о линейной регрессии. Чем метод наименьших квадратов отличается от метода максимального лайклихуда. Зачем вводится гипотеза о нормальности ошибки и перешёл бы к оценке коэффициентов путём расчёта p-value. Заодно упомянул бы про t-test и F-test (обязательно бы сказал про гипотезы). Затем упомянул бы про диагностику "резидуалс" путём оценки их распределения. Также сказал бы пару слов о Linear Discriminant Analysis.
Можно ещё поговорить о Central Limit Theorem (в совокупности с Large Number Theorem), т.е. сходимости к нормальному распределению.
Наверное как-то так.
Вот, словами автора :-)
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

Снежная Королева wrote:Физик, даже я на все вопросы сходу не отвечу :)
Ответите, даже не сомневайтесь. Вы уже прошли моё интервью. :D
User avatar
perasperaadastra
Уже с Приветом
Posts: 20128
Joined: 21 Feb 2009 22:55
Location: Лох Онтарио

Re: Machine Learning again

Post by perasperaadastra »

Flash-04 wrote:Извините что встреваю в учОную беседу, позабавило с одной недавней презентации на конференции: докладчик говорит "хотите произвести впечатление? Выучите непонятные слова Колмогоров-Смирнов" :D
Ушел на википедию. Узнал что-то новое. Спасибствую.
User avatar
Dmitry67
Уже с Приветом
Posts: 28283
Joined: 29 Aug 2000 09:01
Location: SPB --> Gloucester, MA, US --> SPB --> Paris

Re: Machine Learning again

Post by Dmitry67 »

Физик-Лирик wrote:Чтобы напустить больше шороху, лучше упомянуть и тест Колмогорова-Смирнова и тест Шапиро :D (последний проверяет, получена ли популяция из нормального распределения). Двойной спецэффект. :D
В Шапиро 'р' надо п'роизносить на ев'рейский мане'р?
Last edited by Dmitry67 on 17 Oct 2016 12:30, edited 1 time in total.
Зарегистрированный нацпредатель, удостоверение N 19719876044787 от 22.09.2014

Return to “Работа и Карьера в IT”