Крах машиностроения
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Крах машиностроения
Шучу, конечно. С машиностроением вроде всё как в порядке, а вот машинному обучению, похоже, крантец. Теория, конечно, правильная. И направление передовое. И деньги вложены немалые. И бизнесу можно на мозги капать о важности дейта сайнса, выколачивая бабло под проект.
Но вот в очередной раз озадачился вопросом. Философия всеобщего машобуча предполагает, что образцы данных, с которыми мы работаем, являются репрезентативной выборной. Если же нет, то в данных появляется злой байес. Именно тот, что с маленькой буквы. В результате предсказания, построенные на модели, превращаются в фикцию. Можно, конечно, возразить, мол давай выбирать "по науке". На словах, да, а на деле, когда все эти большие данные уже собраны предыдущими поколениями, может оказаться, что байес уже в них заложен. Ну и что тогда делать? Методик по устранению байеса практически нет. Исключение, быть может, - это коррекция Хекмана (всё-таки Нобель за это дело дали). И так ещё немного. Да и то, при определённых предположениях.
Ну и что делать прикажите? Вообще, мое глубокое убеждение - практически все реальные данные с байесом. Куда же тогда двигаться? Где светлое будущее дейта сайнса? Похоже, придётся присоединиться к айтишникам на пенсии. Народ, выручайте, подкиньте идей, что делать с байсом. А то окончательно пришёл в концептуальный тупик. Тут даже на грудь принимать бесполезно.
Но вот в очередной раз озадачился вопросом. Философия всеобщего машобуча предполагает, что образцы данных, с которыми мы работаем, являются репрезентативной выборной. Если же нет, то в данных появляется злой байес. Именно тот, что с маленькой буквы. В результате предсказания, построенные на модели, превращаются в фикцию. Можно, конечно, возразить, мол давай выбирать "по науке". На словах, да, а на деле, когда все эти большие данные уже собраны предыдущими поколениями, может оказаться, что байес уже в них заложен. Ну и что тогда делать? Методик по устранению байеса практически нет. Исключение, быть может, - это коррекция Хекмана (всё-таки Нобель за это дело дали). И так ещё немного. Да и то, при определённых предположениях.
Ну и что делать прикажите? Вообще, мое глубокое убеждение - практически все реальные данные с байесом. Куда же тогда двигаться? Где светлое будущее дейта сайнса? Похоже, придётся присоединиться к айтишникам на пенсии. Народ, выручайте, подкиньте идей, что делать с байсом. А то окончательно пришёл в концептуальный тупик. Тут даже на грудь принимать бесполезно.
-
- Уже с Приветом
- Posts: 19923
- Joined: 30 Aug 2000 09:01
- Location: WA
-
- Уже с Приветом
- Posts: 15242
- Joined: 01 Mar 2007 05:18
- Location: VVO->ORD->DFW->SFO->DFW->PDX
Re: Крах машиностроения
Ну, на грудь принимать всегда полезно!
А по теме — ведь выборка может быть не только репрезентативной, но и полной. Если вы — какой-то мелкий банк типа ЖэПэМоргалЧейз, вы можете себе позволить поучиться на всех транзакциях всех клиентов за 100500 лет. PROFIT? баес вроде отползает
А по теме — ведь выборка может быть не только репрезентативной, но и полной. Если вы — какой-то мелкий банк типа ЖэПэМоргалЧейз, вы можете себе позволить поучиться на всех транзакциях всех клиентов за 100500 лет. PROFIT? баес вроде отползает
Мат на форуме запрещен, блдж!
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Крах машиностроения
С этим трудно не согласиться.
Для определённого круга задач - это верно. Однако, увы, есть немало таких, когда данные уже с байесом. И вот тогда совсем неясно, что делать. Формально, надо провести рендомизацию. Коррекция байеса требует дополнительных предположений. В общем, одни разочарования.
-
- Уже с Приветом
- Posts: 15242
- Joined: 01 Mar 2007 05:18
- Location: VVO->ORD->DFW->SFO->DFW->PDX
Re: Крах машиностроения
Все верно. Я просто к тому, что можно применить лайфхак и не связываться с работами, где без байеса никак. Кстати, и на энторвью можно запилить эту тему, плюс в карму будетФизик-Лирик wrote: ↑31 May 2017 13:14
Для определённого круга задач - это верно. Однако, увы, есть немало таких, когда данные уже с байесом.
Мат на форуме запрещен, блдж!
-
- Уже с Приветом
- Posts: 545
- Joined: 07 Jan 2016 13:04
Re: Крах машиностроения
Идите в промышленную роботизацию! Там работы до ху... факториала!Физик-Лирик wrote: ↑31 May 2017 03:06Народ, выручайте, подкиньте идей, что делать с байсом. А то окончательно пришёл в концептуальный тупик.
Представьте себе робот тележку, который катается взад-вперед по рельсам вдоль складских ячеек. У этой твари стираются колесики. А еще эти колесики эластичные. Т.е. при разной загрузке эта хрень проходит разное расстояние при прочих "равных"... Сервопривод или шаговый двигатель не эффективны если стоит задача максимизировать среднюю скорость. Еще огромный вопрос как понимать текущее положение тележки в любой момент времени. Например, после отключения электричества...
И вот сидишь и думаешь... И это тупо одномерная задача. А бывают трехмерные...
З.Ы. Сорри за эмоции. О наболевшем.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Крах машиностроения
Так я бы пошёл. Я вот тут в соседнем топике по машобучу уже выражал своё фи по поводу дейта сайнса.
Так нетУ интересных работ. Вот, думаю, на форуме потусуюсь, может кто и заприметит.
Кстати, Снежной Королевы что-то на форуме не видно в последнее время (наверное, поинтеры все изучает). Она вроде как с местной профессурой общается. Может что-нибудь интересное про байес подкинет. Пора глобальные вопросы решать, а не вчерашним днём заниматься. А то ситуация как у числа 3,14159...
-
- Уже с Приветом
- Posts: 3481
- Joined: 02 Jan 2005 22:10
Re: Крах машиностроения
Стратегическое решение: всех послать. Тактическое: на всё забить. Творческое: заняться спортивным траво-курением и метаболизмом пива с водкой. Через некоторое непродолжительное время коррекция Хекмана забудется вместе с излучением Хокинга, а доставлять истинную радость будет решение простого квадратного уравнения.
-
- Уже с Приветом
- Posts: 1980
- Joined: 10 Oct 2000 09:01
- Location: New England
Re: Крах машиностроения
оооо кинематика пром роботов, ориентация и сопромат !!! Блин ностальгия - я ведь диплом писал по задачам кинематики для пром роботовtessob wrote: ↑31 May 2017 19:47Идите в промышленную роботизацию! Там работы до ху... факториала!Физик-Лирик wrote: ↑31 May 2017 03:06Народ, выручайте, подкиньте идей, что делать с байсом. А то окончательно пришёл в концептуальный тупик.
Представьте себе робот тележку, который катается взад-вперед по рельсам вдоль складских ячеек. У этой твари стираются колесики. А еще эти колесики эластичные. Т.е. при разной загрузке эта хрень проходит разное расстояние при прочих "равных"... Сервопривод или шаговый двигатель не эффективны если стоит задача максимизировать среднюю скорость. Еще огромный вопрос как понимать текущее положение тележки в любой момент времени. Например, после отключения электричества...
И вот сидишь и думаешь... И это тупо одномерная задача. А бывают трехмерные...
З.Ы. Сорри за эмоции. О наболевшем.
-
- Уже с Приветом
- Posts: 545
- Joined: 07 Jan 2016 13:04
Re: Крах машиностроения
Прошу прощения, что туплю. У меня сейчас два состояния - работа и велик. А еще я на юге Польши... )))Физик-Лирик wrote: ↑31 May 2017 20:15Так я бы пошёл. Я вот тут в соседнем топике по машобучу уже выражал своё фи по поводу дейта сайнса.
Так нетУ интересных работ. Вот, думаю, на форуме потусуюсь, может кто и заприметит.
Кстати, Снежной Королевы что-то на форуме не видно в последнее время (наверное, поинтеры все изучает). Она вроде как с местной профессурой общается. Может что-нибудь интересное про байес подкинет. Пора глобальные вопросы решать, а не вчерашним днём заниматься. А то ситуация как у числа 3,14159...
У меня самого сейчас бусы и ракушки для папуасов с заделом на дискретную оптимизацию. Но это не раньше ноября, если случится. Попробуйте прямо постучаться в конторы, которые роботами занимаются. В Европе немного другие ставоки, но мне тут нравится больше. ))
-
- Уже с Приветом
- Posts: 10061
- Joined: 20 May 1999 09:01
Re: Крах машиностроения
Пример какой-нибудь жизненнный, чтобы лучше понимать проблему?Физик-Лирик wrote: ↑31 May 2017 03:06 Шучу, конечно. С машиностроением вроде всё как в порядке, а вот машинному обучению, похоже, крантец. Теория, конечно, правильная. И направление передовое. И деньги вложены немалые. И бизнесу можно на мозги капать о важности дейта сайнса, выколачивая бабло под проект.
Но вот в очередной раз озадачился вопросом. Философия всеобщего машобуча предполагает, что образцы данных, с которыми мы работаем, являются репрезентативной выборной. Если же нет, то в данных появляется злой байес. Именно тот, что с маленькой буквы. В результате предсказания, построенные на модели, превращаются в фикцию.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Крах машиностроения
Ставший уже классическим является пример из эконометрики, используемый повсеместно для иллюстрации метода Хекмана. Этот пример - прогнозирование зарплаты, когда данные получены только от работающих.
Похожие примеры. Предсказание цены домов, полученных на основе данных по уже проданным домам. Предсказание "счастья" на основании откликов людей, согласившихся участвовать в опросе.
Общее описание таково. Имеется популяция. Делается выборка, но не случайная, а на основе "неких соображений" (например, только проданные дома, только согласившиеся участвовать в опросе и т.п.).
Для всей популяции известны внутренние характеристики объектов (например, размер дома, размер участка, расположение, наличие гаража и т.п.). Для выборки так же имеется знание целевой функции (например, цена дома). Задача: построить модель, предсказывающую целевую функцию по внутренним характеристикам объектов.
Решение в виде сделать изначально правильную выборку не подойдёт, т.к. она уже "кем то" сделана. Генерация элементов из выборки таким образом, чтобы аппроксимировать распределение популяции может сработать. Однако это может существенно сократить финальный "размер". Плюс может так случиться, что будет невозможным сгенерировать такую подгруппу. Например, в первоначальной выборке в основом "большие" дома.
Под "неких соображений" имеется в виду любой нерепрезентативный метод выборки. Например, я выбираю элементы популяции с номерами, представленными простыми числами.
Вот суть проблемы.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Крах машиностроения
На всякий случай, в англоязычной литературе это обычно называется sample bias correction, sample selection bias correction и всякие производные от них. Нет, литература имеется, статьи опубликованы. Однако, нет ощущения целостности.
-
- Уже с Приветом
- Posts: 10061
- Joined: 20 May 1999 09:01
Re: Крах машиностроения
А почему тут есть какой-то bias? Если средний проданный 4 bedroom дом имеет в среднем цену в 200 баксов/sqft то почему нельзя эту цифру считать правильной (то есть несмещенной, unbiased) оценкой и дома, который еще не был выставлен на продажу? Пока я не понимаю источника bias.Физик-Лирик wrote: ↑03 Jun 2017 19:53Ставший уже классическим является пример из эконометрики, используемый повсеместно для иллюстрации метода Хекмана. Этот пример - прогнозирование зарплаты, когда данные получены только от работающих.
Похожие примеры. Предсказание цены домов, полученных на основе данных по уже проданным домам.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Крах машиностроения
Ответ зависит от того, какая задача решается. Если меня интересует модель, предсказывающая цену "больших" домов, тогда результат будет достаточно точный. Если же моя цель - построить модель, предсказывающую цену домов в любом ценовом диапазоне (т.е. и больших и маленьких домов), тогда возникает проблема, т.к. набор данных, на котором модель строится, не является репрезентивным. На самом деле, даже если решается задача о предсказании цен больших домов, байес, скорее всего, существует, т.к. выборка не является случайной. "Правильно", это когда выбираются дома случайным образом и оценивается их стоимость, а здесь рассматриваются лишь дома, выставленные в прошлом на продажу.ksi wrote: ↑03 Jun 2017 21:17 А почему тут есть какой-то bias? Если средний проданный 4 bedroom дом имеет в среднем цену в 200 баксов/sqft то почему нельзя эту цифру считать правильной (то есть несмещенной, unbiased) оценкой и дома, который еще не был выставлен на продажу? Пока я не понимаю источника bias.
В таких задачах байес - это синоним нерепрезентивной выборки (sample bias), т.е. это не есть байес оценочной статистики (unbiased estimator). Другими словами, проблема заключается в построении модели и главное обобщение результатов. Если модель построена на нерепрезентативных данных, её формально нельзя обобщить на всю популяцию.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Крах машиностроения
В целом, задача не имеет решения. Скажем, есть одноименная область Х и функция на ней. Пусть для Х<0 функция квадратичная, а для Х>0 - экспоненциальная. Если у меня выборка для отрицательных Х, и я построил квадратичную модель, откуда она знает, как себя ведёт функция для положительных Х?
На практике ситуация несколько лучше. Отсюда и вопрос, можно ли что-то выудить ещё из данных. Скажем, я точно знаю, как нерепрезентивная выборка сгенерирована.
На практике ситуация несколько лучше. Отсюда и вопрос, можно ли что-то выудить ещё из данных. Скажем, я точно знаю, как нерепрезентивная выборка сгенерирована.
-
- Уже с Приветом
- Posts: 15242
- Joined: 01 Mar 2007 05:18
- Location: VVO->ORD->DFW->SFO->DFW->PDX
Re: Крах машиностроения
Так ли это все важно, если база данных по всем проданным за 100 последних лет домам влезет в современный телефон?Физик-Лирик wrote: ↑03 Jun 2017 23:04Ответ зависит от того, какая задача решается. Если меня интересует модель, предсказывающая цену "больших" домов, тогда результат будет достаточно точный. Если же моя цель - построить модель, предсказывающую цену домов в любом ценовом диапазоне (т.е. и больших и маленьких домов), тогда возникает проблема, т.к. набор данных, на котором модель строится, не является репрезентивным. На самом деле, даже если решается задача о предсказании цен больших домов, байес, скорее всего, существует, т.к. выборка не является случайной. "Правильно", это когда выбираются дома случайным образом и оценивается их стоимость, а здесь рассматриваются лишь дома, выставленные в прошлом на продажу.ksi wrote: ↑03 Jun 2017 21:17 А почему тут есть какой-то bias? Если средний проданный 4 bedroom дом имеет в среднем цену в 200 баксов/sqft то почему нельзя эту цифру считать правильной (то есть несмещенной, unbiased) оценкой и дома, который еще не был выставлен на продажу? Пока я не понимаю источника bias.
В таких задачах байес - это синоним нерепрезентивной выборки (sample bias), т.е. это не есть байес оценочной статистики (unbiased estimator). Другими словами, проблема заключается в построении модели и главное обобщение результатов. Если модель построена на нерепрезентативных данных, её формально нельзя обобщить на всю популяцию.
Мат на форуме запрещен, блдж!
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
-
- Уже с Приветом
- Posts: 10061
- Joined: 20 May 1999 09:01
Re: Крах машиностроения
Если у вас есть данные по весу акул, то конечно нельзя получить данные о весе китов, не поймав ни одного кита. Это и так очевидно. О статистике для китов можно говорить когда они будут пойманы. Но пока я тут не вижу ни науки ни проблемы. Вы можете понятнее объяснить проблему?Физик-Лирик wrote: ↑03 Jun 2017 23:04Ответ зависит от того, какая задача решается. Если меня интересует модель, предсказывающая цену "больших" домов, тогда результат будет достаточно точный. Если же моя цель - построить модель, предсказывающую цену домов в любом ценовом диапазоне (т.е. и больших и маленьких домов), тогда возникает проблема, т.к. набор данных, на котором модель строится, не является репрезентивным. На самом деле, даже если решается задача о предсказании цен больших домов, байес, скорее всего, существует, т.к. выборка не является случайной. "Правильно", это когда выбираются дома случайным образом и оценивается их стоимость, а здесь рассматриваются лишь дома, выставленные в прошлом на продажу.ksi wrote: ↑03 Jun 2017 21:17 А почему тут есть какой-то bias? Если средний проданный 4 bedroom дом имеет в среднем цену в 200 баксов/sqft то почему нельзя эту цифру считать правильной (то есть несмещенной, unbiased) оценкой и дома, который еще не был выставлен на продажу? Пока я не понимаю источника bias.
В таких задачах байес - это синоним нерепрезентивной выборки (sample bias), т.е. это не есть байес оценочной статистики (unbiased estimator). Другими словами, проблема заключается в построении модели и главное обобщение результатов. Если модель построена на нерепрезентативных данных, её формально нельзя обобщить на всю популяцию.
Bias - это не совсем то, что вы подразумеваете. Это количественная характеристика метода оценивания какого-то параметра. Например, если у вас есть выборка показательных случайных величин (с одним и тем же средним m, которое есть, но неизвестно и которое как раз и надо оценить), то вы можете применить 2 метода оценки: (A) найти среднее арифметическое выборки (B) найти среднее геометрическое выборки. Метод (A) хороший, несмещенный (unbiased), метод (B) плохой, biased, он систематически дает меньшее значение, чем истинное m. Этот bias (который математически определяется как разность между истинным значением m и мат.ожиданием вашей оценки) можно подсчитать, точно или асимптотически.
-
- Уже с Приветом
- Posts: 10061
- Joined: 20 May 1999 09:01
-
- Уже с Приветом
- Posts: 15242
- Joined: 01 Mar 2007 05:18
- Location: VVO->ORD->DFW->SFO->DFW->PDX
Re: Крах машиностроения
Садитесь, два. Настоящее не предсказывают. Предсказывают будущее.
Мат на форуме запрещен, блдж!
-
- Уже с Приветом
- Posts: 15242
- Joined: 01 Mar 2007 05:18
- Location: VVO->ORD->DFW->SFO->DFW->PDX
Re: Крах машиностроения
Это в продолжение моего изначального тезиса: сегодня вместо того, чтобы беспокоиться о репрезентативности выборки, можно тупо перелопатить полные данныеФизик-Лирик wrote: ↑04 Jun 2017 00:23Здесь, скорее, концептуальная проблема. Хранение данных, обычно, не проблема.
Разумеется, не всегда, но часто
Мат на форуме запрещен, блдж!
-
- Уже с Приветом
- Posts: 10061
- Joined: 20 May 1999 09:01
Re: Крах машиностроения
Аццко, не будьте в каждой бочке затычкой. В данной теме вы ничего не понимаете, не засоряйте ее лишней руганью, человеку реально что-то непонятно и вы только будете мешать здесь.
Надо предсказать сегодняшнюю прогнозируемую цену дома на основе цен других домов, которые уже проданы (в этом году). Понятно, что даже прошлогодние данные тут мало помогут, тем более столетние. Вернее, помогут, если вы хорошую модель построите, но это явно не к вам.
-
- Уже с Приветом
- Posts: 15242
- Joined: 01 Mar 2007 05:18
- Location: VVO->ORD->DFW->SFO->DFW->PDX
Re: Крах машиностроения
1) затычкин тут вы, я с вами не пытался заговоритьksi wrote: ↑04 Jun 2017 00:44Аццко, не будьте в каждой бочке затычкой. В данной теме вы ничего не понимаете, не засоряйте ее лишней руганью, человеку реально что-то непонятно и вы только будете мешать здесь.
Надо предсказать сегодняшнюю прогнозируемую цену дома на основе цен других домов, которые уже проданы (в этом году). Понятно, что даже прошлогодние данные тут мало помогут, тем более столетние. Вернее, помогут, если вы хорошую модель построите, но это явно не к вам.
2) в математике, судя по всему, вы соображаете не более, чем в погромизьме, что есть - как мы помним - никак от слова "совсем"
3) и даже языком не владеете, ибо предсказание настоящего - нонсенс даже на лингвистическом уровне
4) reading comprehension у вас на уровне тоддлера с задержкой развития
Мат на форуме запрещен, блдж!
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Крах машиностроения
По-моему, я чётко определил, что я подразумевают под байесом. Это sampling bias. Я не имею в виду biased/unbiased estimator of statistic. Пример про акул, конечно, впечатляет. Почитайте литературу. Я уже приводил ключевые слова. Разберитесь в сути проблемы. Обратите внимание на коррекцию Хекмана. Человек Нобель за это получил. Машобуч - это не совсем чистая статистика, которой Вы оперируете. Этот скорее матан.ksi wrote: ↑04 Jun 2017 00:24 Если у вас есть данные по весу акул, то конечно нельзя получить данные о весе китов, не поймав ни одного кита. Это и так очевидно. О статистике для китов можно говорить когда они будут пойманы. Но пока я тут не вижу ни науки ни проблемы. Вы можете понятнее объяснить проблему?
Bias - это не совсем то, что вы подразумеваете. Это количественная характеристика метода оценивания какого-то параметра. Например, если у вас есть выборка показательных случайных величин (с одним и тем же средним m, которое есть, но неизвестно и которое как раз и надо оценить), то вы можете применить 2 метода оценки: (A) найти среднее арифметическое выборки (B) найти среднее геометрическое выборки. Метод (A) хороший, несмещенный (unbiased), метод (B) плохой, biased, он систематически дает меньшее значение, чем истинное m. Этот bias (который математически определяется как разность между истинным значением m и мат.ожиданием вашей оценки) можно подсчитать, точно или асимптотически.