AI, Machine learning - grad school

flip_flop · Post by **flip_flop** » 16 Dec 2015 00:55

Физик-Лирик wrote:
flip_flop wrote:Нельзя ли, плиз, поконкретнее по Deep Learning и его фундаментального отличиях от обычных NN? Я не увидел прорывов в методах оптимизации при тренировке. Особой теории тоже не нашёл, правда и не искал особо. И какая особая крутизна в новых имплементациях? Ну, кроме железа, где я сам могу долго растекаться мыслию по древу о его, железа, развитии и приспособленности для Deep Learning

P.S. Sorry, я конкретно о Deep Learning. Или Вы ML вообще имели в виду? Кстати, я давным давно читал классику ML - книгу Митчела. Есть ли что-то подобное такого же уровня, но поновее, с учётом всех новых "прорывов"?
Если вкраце, ДЛ - это НН, но с несколькими внутренними слоями. Если посмотреть на некие результаты на инете, то впечетляют. Я никогда не был поклонником НН в основном из-за того, что там слишком много регулирующих параметров, которые замаешься подбирать. В последние годы НН не был особо популярен (мое мнение), и лишь появление ДЛ дало второе дыхание. Однако проблемы с параматрами остались и даже преумножились. Т.е. теперь нужно регулировать и число слоев, и число узлов, а также шринкидж (там добавили и Л1 и Л2). Конечно, можно применить метод сеток (т.е. встроенные циклы по каждому параметру). Но встает вопрос о времени. Тут пара книжек выходит, поизучаем. Почему работает? Не уверен, что пока достигнут консенсус. Читал про физические аналогии (с энергией).
Моя точка зрения - это переход от пространство с одной размерностью к другой. При увеличении числа узлов в промежуточном слое - отображение в пространство с большей размерностью. В этом смысле есть аналогия с кернел-методами (например, суппорт вектор машиной), когда отображения позволяют изучить нелинейное поведение. Уменьшение числа узлов в промежуточном слое ведет к уменьшение размерности (аналог метода принципиальных компонент, точнее кернел принципиальных компонент).

Категорически согласен почти со всем, ну, кроме отсутствия поклонения потомкам персептрона и того, что подбирать тяжело, для етого есть оптимизация (очень хреновая, но всё таки) и компьютер

Вроде бы есть некоторые возможности абстрагировать и моделировать некоторые сущности объекта моделирования на отдельных слоях (не только чисто количественное увеличение размерности), но не уверен и не читал. Кстати, какие книжки выходят?

Прогресс, кстати не только, в ДЛ, но и в некоторых других видах НН, типа spiking NN.

Физик-Лирик · Post by **Физик-Лирик** » 16 Dec 2015 02:29

flip_flop wrote: Категорически согласен почти со всем, ну, кроме отсутствия поклонения потомкам персептрона и того, что подбирать тяжело, для етого есть оптимизация (очень хреновая, но всё таки) и компьютер Вроде бы есть некоторые возможности абстрагировать и моделировать некоторые сущности объекта моделирования на отдельных слоях (не только чисто количественное увеличение размерности), но не уверен и не читал. Кстати, какие книжки выходят?

Прогресс, кстати не только, в ДЛ, но и в некоторых других видах НН, типа spiking NN.

Это да, имеются подходы. Просто при работе с большими данными (а сейчас все именно в эту сторону идет), время может быть неприемлемым. Опять-таки моя "нелюбовь" к НН - чисто субъективная. Безусловно, метод имеет положительные стороны. Зависит от задач. Я предпочитаю другие. В последнее время я все больше склоняюсь к бустингу. Он иногда мне даже больше нравится чем мой любимый рендом форест. А вообще ДЛ имеет смысл поисследовать. Собственно нелинейная оптимизация осталась прежней как и бэк пропогейшен. Тоже есть определенные вопросы.

Я Вам в соседнем топике тоже ответил. Наверное, не совсем пролил свет на поиск удаленки. Если есть моменты - давайте
обсудим. Тема в целом интересная. Давайте обменяемся мнениями. Если Вы сузите критерии поиска, может я дам более конкретные
ответы. В целом все-таки работодатели присутствия хотят.

Kolbasoff · Post by **Kolbasoff** » 16 Dec 2015 02:35

Komissar wrote:Одним словом, прав ли молодой человек, бросая хорошо оплачиваемую позицию в Гугле ради такой аспирантуры?

Тенденция однако такова, что лет через 10 с мастером в CS будут только провода разрешать паять. Т.е. аппликационным погромизмом занимацца. Если чел понял, что тяги к менеджементу у него нет, а есть тяга к изобретательству, то правильный PhD это правильный путь. Я ощущаю, что тотальная роботизация таки грядет. Я лично не уверен, что это лично мне понравится, но выбора особо нет. Лечить будут роботы, убивать тоже роботы, развлекать, кормить и т.д. Так что направление правильное: мат. обеспечение роботов.

Физик-Лирик · Post by **Физик-Лирик** » 16 Dec 2015 02:39

flip_flop wrote:
Снежная Королева wrote:Flip-flop, вы путаете industrial research с просто работой. Да, research редко где. А просто работу найти, учу: гуглите jobs PhD machine learning. 839 позиций на indeed. От Walmart и Nissan до всяких стартапов.
Я не разбираюсь в рынке работ для дата сайентистов и PhD ML. Да и честно говоря, не сильно и интересуюсь. Мне просто было интересно услышать мнение нашего камрада Комиссара по этому вопросу. По видимому у него (и у меня) есть скепсис по поводу всеобщей глобальной нужности. Не отрицая полезности этого дела при правильным балансе ML/statistics и знания предметной области.

Если брать чистый ресерч - то это скорее универы или вотсоны. Если брать практический аспект - прет вовсю. Мне кажется, что сейчас стало модным для любой компании иметь штатного дейта сайнтиста. Учитывая, что университетских программ мало (статистика из другой области), то (реальных) спецов не хватает. В отличие от программисткого бума конца 90, когда брали после 3-х месячных курсов, сейчас, как правило, хотят ПчД или хотя бы мастера. Реальная математика нужна, никуда не денешься. А это отсеивает многих.

flip_flop · Post by **flip_flop** » 16 Dec 2015 02:45

Физик-Лирик wrote:
Я Вам в соседнем топике тоже ответил. Наверное, не совсем пролил свет на поиск удаленки. Если есть моменты - давайте
обсудим. Тема в целом интересная. Давайте обменяемся мнениями. Если Вы сузите критерии поиска, может я дам более конкретные
ответы. В целом все-таки работодатели присутствия хотят.

Мне кажется это был не я, сорри. Перенаправьте, плиз, по адресу.

flip_flop · Post by **flip_flop** » 16 Dec 2015 02:49

Физик-Лирик wrote:
Если брать чистый ресерч - то это скорее универы или вотсоны.

При слове "Бобруйск" Watson собрание болезненно застонало

Сабина · Post by **Сабина** » 16 Dec 2015 02:51

Откуда нам знать что за была перпективная работа в Гугле у молчела и что даст ему back to school experience ?

Я не думаю что это даже удаленно применимо к карьере взрослого профессионала, особенно в контекте PhD in ML хотят везде

flip_flop · Post by **flip_flop** » 16 Dec 2015 02:54

Kolbasoff wrote: Тенденция однако такова, что лет через 10 с мастером в CS будут только провода разрешать паять.

Ни в коем случае, только с мастером в ЕЕ

А в остальном наметился конвульсиум консенсус.

Физик-Лирик · Post by **Физик-Лирик** » 16 Dec 2015 03:18

flip_flop wrote:
Физик-Лирик wrote:
Я Вам в соседнем топике тоже ответил. Наверное, не совсем пролил свет на поиск удаленки. Если есть моменты - давайте
обсудим. Тема в целом интересная. Давайте обменяемся мнениями. Если Вы сузите критерии поиска, может я дам более конкретные
ответы. В целом все-таки работодатели присутствия хотят.
Мне кажется это был не я, сорри. Перенаправьте, плиз, по адресу.

Ой, пардон. Перепутался. Присоединяйтсь к разговору.

Сабина wrote:Откуда нам знать что за была перпективная работа в Гугле у молчела и что даст ему back to school experience ?

Я не думаю что это даже удаленно применимо к карьере взрослого профессионала, особенно в контекте PhD in ML хотят везде

На самом деле, ничего особенного в этой практике нет. Люди уходят с насиженных мест в аспирантуры. Встречал много раз, даже у людей, работающих много лет и делающих карьеру.

Физик-Лирик · Post by **Физик-Лирик** » 16 Dec 2015 03:21

Kolbasoff wrote: Я ощущаю, что тотальная роботизация таки грядет. Я лично не уверен, что это лично мне понравится, но выбора особо нет. Лечить будут роботы, убивать тоже роботы, развлекать, кормить и т.д. Так что направление правильное: мат. обеспечение роботов.

А мне что-то сразу песня из "Приключения Электроника" вспомнилась. Опять на лирику тянет.

flip_flop · Post by **flip_flop** » 16 Dec 2015 03:23

Физик-Лирик wrote: На самом деле, ничего особенного в этой практике нет. Люди уходят с насиженных мест в аспирантуры. Встречал много раз, даже у людей, работающих много лет и делающих карьеру.

У нас мой коллега, principal engineer, математик по образованию, ушёл на пенсию раньше 60-ти и поступил в аспирантуру на какой то там арт с уклоном в философию. Бывает.

flip_flop · Post by **flip_flop** » 16 Dec 2015 03:25

Физик-Лирик wrote:
Kolbasoff wrote: Я ощущаю, что тотальная роботизация таки грядет. Я лично не уверен, что это лично мне понравится, но выбора особо нет. Лечить будут роботы, убивать тоже роботы, развлекать, кормить и т.д. Так что направление правильное: мат. обеспечение роботов.
А мне что-то сразу песня из "Приключения Электроника" вспомнилась. Опять на лирику тянет.

А мне приходит на ум совсем зловещее - superhuman & posthuman

Физик-Лирик · Post by **Физик-Лирик** » 16 Dec 2015 14:36

flip_flop wrote:
Физик-Лирик wrote: На самом деле, ничего особенного в этой практике нет. Люди уходят с насиженных мест в аспирантуры. Встречал много раз, даже у людей, работающих много лет и делающих карьеру.
У нас мой коллега, principal engineer, математик по образованию, ушёл на пенсию раньше 60-ти и поступил в аспирантуру на какой то там арт с уклоном в философию. Бывает.

Это достаточно естественно, когда люди, выходя на пенсию, что-то для души выбирают. Я больше имел в виду случаи, когда люди идут учиться в 30-40 лет. Причем видел случаи, когда люди оставались в своей области, но получали степени, и когда получали степени и полностью меняли специальность. Так что ничего особенного в том, что было описано ТС, не вижу. Более того, считаю абсолютно нормальным. Другое дело я всегда считал, что лучше вначале получить все необходимые степени, а уж потом начинать работать, попутно самообразуясь и получая "сертификаты". В некоторых областях степени просто необходимы. Если в "программировании" в ПчД особого смысла нет (разве что для души), то в предиктив аналитикс, моделировании, статистике нужен по крайней мере мастер.

andmed · Post by **andmed** » 17 Dec 2015 15:19

Снежная Королева wrote:
flip_flop wrote:Почитайте статью A Probabilistic Theory of Deep Learning, она есть в архиве, все свежие референсы там.

Добрый день. Какой архив имеется ввиду?

flip_flop · Post by **flip_flop** » 17 Dec 2015 18:31

http://arxiv.org/abs/1504.00641" onclick="window.open(this.href);return false;
http://arxiv.org/pdf/1504.00641v1.pdf" onclick="window.open(this.href);return false;

Статья весьма хороша на первый взгляд, пытается увязать теории NN и статистику, как правильно обрабатывать помехи и их распределения, и ответить на главный вопрос: а почему, собственно, оно работает?

Кстати, Физик-Лирик - какие книги ожидаются к выходу из печати по теме? Пока то, что есть - не очень густо...

Физик-Лирик · Post by **Физик-Лирик** » 17 Dec 2015 18:56

flip_flop wrote:http://arxiv.org/abs/1504.00641
http://arxiv.org/pdf/1504.00641v1.pdf" onclick="window.open(this.href);return false;

Статья весьма хороша на первый взгляд, пытается увязать теории NN и статистику, как правильно обрабатывать помехи и их распределения, и ответить на главный вопрос: а почему, собственно, оно работает?

Кстати, Физик-Лирик - какие книги ожидаются к выходу из печати по теме? Пока то, что есть - не очень густо...

Попробуйте зайти на сайт "книжного магазана" и напечатать в поиске "Дип Лернинг". Честно, названий не помню. Одна выйдет в следующем году, другая, по-моему, вышла. Про содержание ничего сказать не могу. Если хотите попрактиковаться с ДЛ сейчас возьмите Р-овскую библиотеку н2о. Там есть соответствующая функция. ДЛ, согласно инету, хорошо работает в области распознваний образов. Мне так же было бы интересно сравнить аутоэнкодер и ПСА. Пока это сделать руки не дошли. Есть правда статьи на инете (по ключевым словам).
Там же и Больцмановская машина.

flip_flop · Post by **flip_flop** » 17 Dec 2015 19:09

С программной реализацией проблем нет, я воспроизвёл тестовые результаты MIT в Юле. Матлаб опять же таки с NN toolbox. Проблема в отсутствии всеохватывающей теории.

flip_flop · Post by **flip_flop** » 17 Dec 2015 19:10

flip_flop wrote:С программной реализацией проблем нет, я воспроизвёл тестовые результаты MIT в Юле. Матлаб опять же таки с NN toolbox. Проблема в отсутствии всеохватывающей теории.

P.S. Книгу этого года купил

Физик-Лирик · Post by **Физик-Лирик** » 17 Dec 2015 20:04

flip_flop wrote:
flip_flop wrote:С программной реализацией проблем нет, я воспроизвёл тестовые результаты MIT в Юле. Матлаб опять же таки с NN toolbox. Проблема в отсутствии всеохватывающей теории.
P.S. Книгу этого года купил

Когда прочтете, дайте нам рекомендации.

А какова Ваша цель? Просто изучит / понять или же активно использовать под конкретные проекты?

flip_flop · Post by **flip_flop** » 17 Dec 2015 22:44

Физик-Лирик wrote:
Когда прочтете, дайте нам рекомендации.
А какова Ваша цель? Просто изучит / понять или же активно использовать под конкретные проекты?

Вначале надо прочитать. Потом понять. Потом думать что с этим делать.

Я использовал последний раз проект с NN лет 16 назад

Оно вроде бы работало более менее, стандартный подход, были опубликованы статьи, главы в книгах и т.д. Но убивал уровень эмпирики вместо обоснованной теории. Deep learning NN и сопряжённая с ними теория вроде бы дают новые возможности для сокращения хаоса в этом процессе, но не уверен, надо разбираться.

Физик-Лирик · Post by **Физик-Лирик** » 17 Dec 2015 23:29

flip_flop wrote:
Вначале надо прочитать. Потом понять. Потом думать что с этим делать.

Я использовал последний раз проект с NN лет 16 назад Оно вроде бы работало более менее, стандартный подход, были опубликованы статьи, главы в книгах и т.д. Но убивал уровень эмпирики вместо обоснованной теории. Deep learning NN и сопряжённая с ними теория вроде бы дают новые возможности для сокращения хаоса в этом процессе, но не уверен, надо разбираться.

А в чем проявлялась эмпирика? На мой взгляд, любой метод из области машинного обучения - эмпирика. Т.е. с математической точки зрения вроде как все нормально. Любой алгоритм (супервайзд) - решение соответсвующей минимизационной задачи. Здесь эмпирика в выборе штрафной функции ("лос фанкшэн"). Как правило - это квадратичная в случае регрессионной задачи. Если функция выбрана, осталось доказать наличие и единственность решения. С этим тоже все ясно. Собственно здесь вся теория и заканчивается.
Эмпирика наступает, когда встает вопрос о практическом (как правили, численном) решении задачи. Вот здесь как раз ягодки и появляются. Сходимость в целом, сходмость к глобальному минимуму, устойчивость (что собственно равносильно сходимости) и т.п. При наличие плохообусовленных задач (скажем метод Лассо или Ридж-регрессия) применяется Тихоновская регуляризация. В теории все нормально. А на практике? Далее проблема оверфиттинга. Ну чистая эмпирика. Да, есть куча критериев (информационных), есть прюнинг, есть багинг. Но опять эмпирика. Ведь подбор многочисленных параметров - чистая эмпирика. А если еще добавить шум в данных, то вообще конец всей теории. Все это машинное обучение - это такая фикция. Но работает, однако.

flip_flop · Post by **flip_flop** » 18 Dec 2015 00:08

Физик-Лирик wrote: При наличие плохообусовленных задач ... А если еще добавить шум в данных ...

Это скорее правило, чем исключение

, то вообще конец всей теории.

Не согласен, скорее наоборот, появляется новая теория - методы анализа шумов, борьбы с шумом и помехами, и т.д. Иногда шумы помогают, своего рода регуляризация

Но в принципе согласен с тем, что МЛ в массе своей эмпирика.

Я имел в виду эмпирику при построении NN как модели обьекта/процесса, желательно использовать физику с разумной статистикой вместо формальных математических объектов, типа NN. Много вопросов о выборе вида и структуры NN и о потенциальной эффективности. Нет, если, конечно, принять удобные допущения, то всё на бумаге хорошо, а вот в реальности всё не так, как на самом деле.

А об оптимизации вообще лучше не говорить - тупой метод градиентного спуска, но все остальные "умные" методы к моему удивлению не работали, или работали ещё хуже. Тут, кстати, вообще прогресса нет - поставил Deep Learning NN и вижу всё тот же градиентный спуск (backpropagation), во всём его безобразии.

Физик-Лирик · Post by **Физик-Лирик** » 18 Dec 2015 03:17

На самом деле практически все проблемы будут плохообусловленными, т.к. если брать реальные данные,
то наверняка там будут коррелированные (коллинеарные) переменные. Если посмотреть на формулу для коэффициентов
линейной регрессии в матричном виде, то там надо вычислить обратную от произведения. А это значит, что детерминант
будет близок к нулю, что автоматически делает проблему обращения некорректно поставленной (ил-поузд). Отсюда
и ридж с лассо. При применении других методов проблема сохраняется. Другие методы, суппорт вектор машин,
деревья и др. тоже формулируются как регуляризационные задачи, чтобы избежать оверфиттинга. Для деревьев - это прюнинг,
для СВМ - формулировка оптимизационной задчи в редюсинг кернел гилберт спейсах (пардон май френч).

Поводу шума ... это красиво звучит, но для реальных бизнес-задач - какая там теория снижения шумов. В "рекордах" (их природа не важна), на которых строится модель, будет куча пропущенных данных и куча ошибок. Какая там теория
сигнала/шума? Одни слезы и геммор.

flip_flop · Post by **flip_flop** » 18 Dec 2015 03:58

Не ил-позед а ил-кондышенед (ill conditioned). И матрицу надо не обращать, а решать систему уравнений с декомпозицией Холесского. В своё время я даже свой алгоритм опробовал для решения LMS для вырожденной или плохообусловленной матрицы Гессе. Иногда QR работает чуть лучше, хоть и медленнее Холесского. В теории также используется концепция регуляризации Тихонова, но на практике решается по другому, методом Левенберга Марквардта, что математически соответствует регуляризации, но численно решается совсем по другому, у меня был любимый метод доверительной окрестности (trust region method). Самое обидное, что так хорошо работающие методы для некоторых задач оптимизации/наименьших квадратов совсем плохо себя ведут для NN. Понятно почему, но всё равно обидно.

30 лет прошло а до сих пор помню, хотя лет 15 совсем не занимался. Разворошили Вы муравейник, сейчас каак пойду вспоминать, будете терпеть нудного саксаула аксакала по самое не могу

По поводу шума я имел в виду аналоговый (физический по природе) шум. Со своим спектром, автокорреляцией и прочим. Вообщем, не бизнес задачи. Тут я пасс и полный чайник.

flip_flop · Post by **flip_flop** » 18 Dec 2015 04:06

Кстати, тут PACKT по дешёвке книги продаёт. Вроде бы эта книга "Python Machine Learning" ничего. Обычно я испытываю лёгкую степень отвращения к "поварённым" книгам, но эта как будто ничего. И даже чуток Deep Learning затрагивает.

Привет

AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school

Re: AI, Machine learning - grad school