Яндех курс ML http://habrahabr.ru/company/yandex/blog/208034/Kolbasoff wrote:Так что решил постануть ссылку кому интересно.
http://shad.yandex.ru/lectures/machine_learning.xml
Яндех курс ML http://habrahabr.ru/company/yandex/blog/208034/Kolbasoff wrote:Так что решил постануть ссылку кому интересно.
Поднимаю старую ветку. Забыл спросить:Физик-Лирик wrote: Безусловно, если работать с методами надо знать теорию. Это так же поможет в выборе методов, понимании условий их применимости и т.п. Момент состоит в том, что при реальной работе (скажем аналитиком) Вы будете использовать конкретные кем-то написанные пакеты, т.е. Вы уже будете полагаться на их правильность (или надо все самому писать). В этом смысле пакеты как черные ящики. С данного момента вся теория заканчивается. К сожалению, в машинном обучении (если это не рассматривать как академическую науку) очень много искусства. Как выбирать данные, надо ли их преобразовывать, нормализовать, нaдо ли устранять оутлайеры, надо ли делить на группы или же ввести новую переменную, описывающую группы? Все эти вопросы скорее искусство чем наука. Далее, как многое в прикладной математике методы построены на предположениях. Обыchно - это преdположение нормального распределения. Насколько оно верно на практике? Достаточно редко. Однако многие методы нормално работают даже если предположения не верны. Все, теория кончилась. В этом смысле Вы правы, у аналитиков цениться "почувствовать".
mynameiszb wrote:Был свидетелем несколько лет назад.Сабина wrote:Ну е мое, если я отвечаю сделано будет в лучшем виде, а значит никаких закатанных глаз быть не может . Мне кажется тут только с таким атитюдом чего то добьешься
1. Начальник отдела поставил задачу. Его зам хотел срочно что-то себе проапрувить, поэтому на совещании влез в обсуждение "чего бы нам почесать, чтобы было хорошо" и пообещал, что эту штуку он выполнит в момент. А то, что у него еще 150 дел - так это не беда. Да и вон, например, Вася поможет.
2. Вася был молодой и начинающий, у него язык не повернулся сказать "нет", он покивал - типа, да, мы с мудрым гением отодвинем эти 150 дел и сделаем.
3. В итоге было еще несколько совещаний, на которых брались доп-обязательства, но Васю никто даже в известность не ставил.
4. На каком-то промежуточном подведении итогов всплыло, что Вася хоть и сидит сутками - но все обещанное сделать не успевает.
5. Зам устроил истерику, что "как же так, ведь Вася нам обещал, что он все сделает"
6. Васю выперли тем же вечером...
Физик-Лирик wrote:Сейчас математики может найти работу в следующих областях:Снежная Королева wrote:Это вы серьёзно? Почему не надо?Komissar wrote:Вам - не надо.Снежная Королева wrote:Сейчас думаю, надо ли делать всего мастера, думаю, что не надо.
На самом деле я в больших раздумьях и не знаю, кто может посоветовать. Что-то даже никто не берётся. Вот Физик мог бы дать совет, наверное
1) Профессор в унивeре (нужен доктор и очень большя конкуренция).
2) Оборонка (нухзно правильное происхождение).
3) Индсутрия.
Т.к. автор хочет быть аналитиком, остановимся на 3-м пункте.
Из чисто практичеких соображений, лучше получить степень в прикладной статистике и машинном обучении. Сейчас очень популярно (особенно в связи с "Большыми данными"). Помимо "общей" теории рекомендую делать упор на софтвеерные пакеты, а также эпидемиологию и эконометрику. Под машинным обучением я имею в виду хорошее понимание предмета, а не только овладениа пакетами. К портированию кода, о чем писали выше, это отношение не имеет. Именно понимание и практическое применение анализа сейчас ценится и оплачивается. Можно дополнить образование математическим моделированием. Это будет круто. Под этим я имею в виду набор из диффуров (желательно и в частнх производных), статистики и машинного обучения, стохастических диффуров и процессов. Дополните это хорошим пониманем финансовой математики, эконометрики, эпидемиологии, временных рядов, а также методов моделирования, типа разностных схем, Монте-Карло, конечных элементов, и цены Вам не будет. Также неплохо знать парочку языков программирования.
Спасибо за совет. Да, жесть конечно...Снежная Королева wrote:Кстати, я только что сдала Statistical Inference в универе. Имею full-time работу, тоддлера и мужа с busy работой. Сдала на отлично, хотя думала - помру. И мне уже давно не 18 лет. И да, я тоже брала этот предмет в прошлом году, но испугалась и бросила.Roy wrote:Программа отличная - я не спорю. Я пытался брать, начал со Statistical Inference. Понял, что только мат. образования мне не хватит. Нужно иметь хороший бэкграунд в базовой статистике. Тер. вер. идёт нормально, но как только начинается статистика, то чувствуется недостаток опыта. Надо взять несколько прикладных стат. курсов, поработать с R, набить руку. Может это только мне так, плюс чем старше - тем сложнее учиться.Снежная Королева wrote: Я посмотрела syllabus for MS Statistics from UW, и с моей точки зрения - это отличный курс. Теории немного, только 2 обязательных предмета: Statistical Inference, и поверьте, эта теория несложная для человека с высшим мат.образованием. В моём университете это уровень последнего года бакалавра. Там можно без Real Analysis обойтись, несколько концепций посмотреть по ходу дела. Все остальные предметы практические, и очень полезные + широкий выбор electives, в котором есть и machine learning, и graph theory, особенно хорош Statistical Learning STAT535. То, что действительно сложно (Advanced Probability), у вас идёт как electives, ну так не берите их!
У нас такого счастья нет. У меня выбор или между елементарной прикладной статистикой с устаревшими методами, или сплошной Advanced Probability, и никаких тебе statistical/machine learning - ишь, баловство одно!
Я говорил с PhD студентами. Они утверждали, что надо 4 часа в день на один Statistical Inference курс как минимум. Т.е. мне с работой и семьёй нереально.
Система в универе у нам такая: 4 часа лекций в неделю в business hours. Я не ходила ни на одну лекцию из-за работы. Тратила часа 2 в день на самостоятельную учёбу, причём начала учиться месяца за 3 до начала. И ездила к лектору на консультации. Помню, он мне 3 раза доказательство закона больших чисел объяснял, пока до меня дошло. И так всё: по пять раз возвращалась ко всему, пока начала понимать.
Я реально не понимаю, как можно работать, не зная statistical inference. Раньше думала - можно, а теперь - неа. Шарлатанство получается. Я вам серьёзно рекомендую продолжить учиться, но перед тем, как брать Statistical Inference в универе, вначале (летом, например), пройдите книжку Hogg "Introduction to Mathematical Statistics", в интернете есть solutions к упражнениям. Наймите себе тьютора по интернету, какого-нибудь graduate студента, спрашивать непонятные места (раз в неделю достаточно будет). Эта книжка натаскает вас на intermediate level probability and statistics, после неё Statistical Inference пойдёт у вас если не легко (оно никогда нелегко ), то хотя бы реально. И больше в том семестре ничего не берите. Когда закончите этот предмет, вы станете другим человеком.
Да, этот предмет был самый painful в моей жизни.
Мне кажется, что каждый второй программист в Гугле Statistical Inference знает хорошо. Не знаю точно, в чем там была коллизия, но думаю, все сложнее как-то.Снежная Королева wrote:Predictive modelling.Annetta wrote:А что за работы такие, что нельзя работать без знания Statistical Inference?
Но что то я.. можно, можно работать без знания statistical inference. Правда, уппс моменты получаются:
http://simplystatistics.org/2014/05/07/ ... tatistics/
это когда Google программисты решили, что можно просто взять много даты, и просто на её основе строить predictions, без всякой статистики. Статистика - она же трудная. чего её учить, если можно обойтись без неё?
На чём основано ваше утверждение? Для того, чтобы знать хорошо, желательно иметь MS in Statistics.Annetta wrote: Мне кажется, что каждый второй программист в Гугле Statistical Inference знает хорошо. Не знаю точно, в чем там была коллизия, но думаю, все сложнее как-то.
А у вас в какой области степень, что вы смогли понять, что они делают не правильно?Roy wrote:На чём основано ваше утверждение? Для того, чтобы знать хорошо, желательно иметь MS in Statistics.Annetta wrote: Мне кажется, что каждый второй программист в Гугле Statistical Inference знает хорошо. Не знаю точно, в чем там была коллизия, но думаю, все сложнее как-то.
Сейчас Machine Learning пытается применять каждый второй по поводу и без. Глубокие познания есть мало у кого. У нас в комапнии есть целый Data Science team человек на 6. Даже с моей дилетантской точки зрения они многие вещи делают просто на коленке. Кривость результата видна невооружённым глазом. Есть только один человек с PhD, да и то не в статистике.
Ужос - как представил, какая небывалая концентрация статистиков в MVAnnetta wrote:Мне кажется, что каждый второй программист в Гугле Statistical Inference знает хорошо.
Что такое МV? Почти все инженерные специальности учат статистику в объеме нескольких курсов как минимум, probability, statistics, inference, ml. И это не говоря о тех, кто именно в статистике специализировался, а их я думаю тоже предостаточно в такой компании. Так что я тоже не понимаю, какие там дилетанты "портачат" в таких масштабахM. Ridcully wrote:Ужос - как представил, какая небывалая концентрация статистиков в MVAnnetta wrote:Мне кажется, что каждый второй программист в Гугле Statistical Inference знает хорошо.
Как пользователь добавлю, что "смышлённость" гугловских поделок вроде Google Now просто пугает (пока (?) в хорошем смысле этого слова). Сильно сомневаюсь, что всё это сделали "дилетанты".
(Извиняюсь, что со своим свиным программистским рылом влез в эту научную дискуссию )
Не могли бы вы пояснить, что является основанием для вашего заблуждения?Annetta wrote: Мне кажется, что каждый второй программист в Гугле Statistical Inference знает хорошо. Не знаю точно, в чем там была коллизия, но думаю, все сложнее как-то.
Ничего себеСнежная Королева wrote:Кто вам такое сказал? Ничего подобного. Дай бог, чтобы в electives пара-тройка предметов была доступна инженерам.Annetta wrote:Что такое МV? Почти все инженерные специальности учат статистику в объеме нескольких курсов как минимум, probability, statistics, inference, ml. И это не говоря о тех, кто именно в статистике специализировался, а их я думаю тоже предостаточно в такой компании. Так что я тоже не понимаю, какие там дилетанты "портачат" в таких масштабах
Например, Georgia Tech's Master of Computer Science, статистики нет даже в electives. У них там есть специализация Machine Learning, и человек с этой специализацией может и будет что-то знать (но не statistical inference), а все остальные специализации?
Да что говорить, у нас в Австралии только 3-4 сильных универа заставляют студентов computer science учить algorithms complexity!! Все остальные 20 универов это плавно пропускают, ибо студенты не сдадут, вылетят и денежки тю-тют. А вы говорите, statistical inference, это ведь во много раз сложнее чем complexity.
Наверное, лично зная несколько программистов оттуда, предполагаю, что многие хотя бы такого уровня. Что-то меня эта тема пугает.adda_ wrote:Не могли бы вы пояснить, что является основанием для вашего заблуждения?Annetta wrote: Мне кажется, что каждый второй программист в Гугле Statistical Inference знает хорошо. Не знаю точно, в чем там была коллизия, но думаю, все сложнее как-то.
Судя по качеству кода который они выдают, слухи о квалификации программистов работающих там сильно преувеличены.
Хм, вот оно как, оказывается. Я думала, что уж на всяких таких прикладных MS программах идет одним из первых курсов.Снежная Королева wrote:Statistical Inference никак не может быть "начальным" курсом, потому как он продвинутый и имеет pre-requisites:Annetta wrote:Ничего себеСнежная Королева wrote:Кто вам такое сказал? Ничего подобного. Дай бог, чтобы в electives пара-тройка предметов была доступна инженерам.Annetta wrote:Что такое МV? Почти все инженерные специальности учат статистику в объеме нескольких курсов как минимум, probability, statistics, inference, ml. И это не говоря о тех, кто именно в статистике специализировался, а их я думаю тоже предостаточно в такой компании. Так что я тоже не понимаю, какие там дилетанты "портачат" в таких масштабах
Например, Georgia Tech's Master of Computer Science, статистики нет даже в electives. У них там есть специализация Machine Learning, и человек с этой специализацией может и будет что-то знать (но не statistical inference), а все остальные специализации?
Да что говорить, у нас в Австралии только 3-4 сильных универа заставляют студентов computer science учить algorithms complexity!! Все остальные 20 универов это плавно пропускают, ибо студенты не сдадут, вылетят и денежки тю-тют. А вы говорите, statistical inference, это ведь во много раз сложнее чем complexity.
А что вы понимаете под Statistical Inference? Уж в России точно этому учат вроде? Здесь тоже на многих специальностях типа operations research это самый начальный курс по статистике в grad school.
STAT 512 Statistical Inference (4)
Review of random variables; transformations, conditional expectation, moment generating functions, convergence, limit theorems, estimation; Cramer-Rao lower bound, maximum likelihood estimation, sufficiency, ancillarity, completeness. Rao-Blackwell theorem. Hypothesis testing: Neyman-Pearson lemma, monotone likelihood ratio, likelihood-ratio tests, large-sample theory. Contingency tables, confidence intervals, invariance. Introduction to decision theory. Prerequisite: STAT 395 and STAT 421, STAT 423, STAT 504, or BIOST 512 (concurrent registration permitted for these three). Offered: A.
А почему вы удивляетесь?
На специальности типа operations research (это обычно applied mathematics, ну да ладно, оно и в engineering департаменте может быть), statistical inference идёт как elective (необязательный предмет). Большинство студентов его не берут, ибо сложно-с. Так в университете Мельбурна, во всяком случае, а это лучшая школа в Австралии по operations research.
На специальности типа computer science (undergraduate) этого предмета и близко нет, в MSc (Comp.Sc) идёт как elective.
На самом деле, здесь все очень взаимосвязано. Та же Predictive Modeling вовсю использует и оценки и интервалy и p-value. Вся разница - в решаемых задачах. В очень простой классификации, прикладная статистика - это проверка гипотез. Predictive Modeling - это обучение. Но все может очень переплестись. Те же временные ряды - чистая статистика на мой взгляд, хотя они "предсказывают".Annetta wrote:А что за работы такие, что нельзя работать без знания Statistical Inference?
У меня такое же ощущение. На мой взгляд проблема в том, что внешне машинное обучение выглядит просто. В любой кнжке можно прочитать, например, про регрессию. Далее берешь пакет, вызываешь процедуру, получаешь на выходе какие-то цифирки. Вроде как все. На самом деле все сложнее, если делать правильно. Во-первых, это правильная постановка самой бизнес-задачи и как следствие математичесой задачи. Во-вторых, это подготовка данных (здесь важен и формат и логика данных). Потом сама процедура. Далее - интерпретация результатов. Ведь речь идет не о самом обучении, а о решении проблемы путем создания модели. Здесь так же важно знать саму предметную область. Методы одинаковые, но применяются к разным предметным областям. Поэтому в банковской сфере модели будут отличаться от медицинских моделей, хотя используются те же процедуры.Сейчас Machine Learning пытается применять каждый второй по поводу и без. Глубокие познания есть мало у кого. У нас в комапнии есть целый Data Science team человек на 6. Даже с моей дилетантской точки зрения они многие вещи делают просто на коленке. Кривость результата видна невооружённым глазом. Есть только один человек с PhD, да и то не в статистике.
Дык статистика не точная наука. Но вот если ты бы сделал 100000 эксперементов, то возможно результат был бы лучше, чем не пользуюясь статистическими методами.Fedot wrote: Так и пришлось опять действовать наугад, без научной базы.. Damn it.
На самом деле, все так и есть. Математически это выглядит так. Дана последовательсность случайных величин X_1, X_2, ..., X_N, индекс здесь играет роль времени. Найти случайную величину X_(N+K). В пространстве L^2 оценка этой величины будет условная верятность или, геометрически, - проекция на пространство измеримых функций, построенное по X_1, ..., X_N. Если вычислить вариацию случайной величины при K -> Inf, то результат будет бесконечность. Если построить временные рыды для прогнозирвания, а также 95% confidence interval, то "корридор" будет расширяться. К тому же с этими временными рядами столько возни. Теория хорошо разработана для (слабо) стационарных рядов, так что надо пребразовывать. Мне более нравятся методы обучения с ведением входных параметров.Помню перезжал я из Канады в НЙ и встал актуальный вопрос, оставить деньги в каксах или перевести в баксы
Нет, статистика - наука точная. Просто она имеет "своеобразную" предметную область. Если взять Колмогоровский подход, когда вводятся измеримые пространства, где мера и есть вероятность, то все встает на свои места. Другое дело, что на практике используются статистические модели. А любые модели (не только статистические, но и в физике, например) - есть приближение реальности. Когда на основе статистических моделей делаются выводы. Опять-таки надо иметь в виду вероятностную природу результатов (все же пострoено на выборке из популяции или вместо стохастических рядов - их конкретная реализация), поэтому и вводят оценки интервалов (как равило 95%). Чисто по науке, хотя 95% или 99% - субективно.turic wrote:Дык статистика не точная наука. Но вот если ты бы сделал 100000 эксперементов, то возможно результат был бы лучше, чем не пользуюясь статистическими методами.Fedot wrote: Так и пришлось опять действовать наугад, без научной базы.. Damn it.
Fedot wrote:Помню перезжал я из Канады в НЙ и встал актуальный вопрос, оставить деньги в каксах или перевести в баксы. Залил обменный курс за последние годы в SAS, промолотил все модели времмных рядов (там можно автоматически все выбрать, что бы лучшею найти). И SAS мне выдал, что через несколько лет, обменный курс будет где-то в районе 0-бесконечность, интервальная оценка так сказать. Или иными словами: ХЗ. А SAS это усилия нескольких десятков лет статистиков и программистов.
Так и пришлось опять действовать наугад, без научной базы.. Damn it.
В принципе статистики с опытом прогнозирования, работы с данными и тд тп уже давно должны были обогатиться. За 30 лет когда все физики ломанулись за отсутсвием работы на Wall Street, то же особых чудес с прогнозами не произошло. Рынок грохнулся в 2008, никто предсказать не смог. Я склоняюсь к мысле, что будущее вообще непредсказуемо, "последний закон термодинамики" Как только этот тезис будет доказан , можно будет вздохнуть свободно, масса народу освободится на более продуктивный труд на благо человечества.Annetta wrote:Fedot wrote:Помню перезжал я из Канады в НЙ и встал актуальный вопрос, оставить деньги в каксах или перевести в баксы. Залил обменный курс за последние годы в SAS, промолотил все модели времмных рядов (там можно автоматически все выбрать, что бы лучшею найти). И SAS мне выдал, что через несколько лет, обменный курс будет где-то в районе 0-бесконечность, интервальная оценка так сказать. Или иными словами: ХЗ. А SAS это усилия нескольких десятков лет статистиков и программистов.
Так и пришлось опять действовать наугад, без научной базы.. Damn it.
А представляете, получили бы конкретику на выходе, обогатились бы