Крах машиностроения

Физик-Лирик · Post by **Физик-Лирик** » 04 Jun 2017 02:32

АццкоМото wrote: ↑04 Jun 2017 00:36 Это в продолжение моего изначального тезиса: сегодня вместо того, чтобы беспокоиться о репрезентативности выборки, можно тупо перелопатить полные данные

Разумеется, не всегда, но часто

С этим я согласен, но увы не всегда это так. Иногда просто нет всех данных. Тот же пример с домами. Формально надо послать оценочников и просчитать цену всех домов. Возможно, с домами это и можно сделать, но в целом нет. Конечно, для определённых задач мы знаем все данные.

ksi · Post by **ksi** » 04 Jun 2017 02:44

Физик-Лирик wrote: ↑04 Jun 2017 02:28 По-моему, я чётко определил, что я подразумевают под байесом. Это sampling bias. Я не имею в виду biased/unbiased estimator of statistic. Пример про акул, конечно, впечатляет. Почитайте литературу. Я уже приводил ключевые слова. Разберитесь в сути проблемы. Обратите внимание на коррекцию Хекмана. Человек Нобель за это получил. Машобуч - это не совсем чистая статистика, которой Вы оперируете. Этот скорее матан.

Sampling bias - это если вы оценили параметры не по "своей" выборке, а по "похожей"? В примере с домами, если ваша задача оценить стоимость дома в 4000 sqft а у вас реальные данные только по домам с площадью только <= 2500 sqft и простое вычисление средней цены за sqft по этой выборке и затем умножение на площадь "большого"дома дает систематически завышенную стоимость?

АццкоМото · Post by **АццкоМото** » 04 Jun 2017 02:48

Физик-Лирик wrote: ↑04 Jun 2017 02:32
АццкоМото wrote: ↑04 Jun 2017 00:36 Это в продолжение моего изначального тезиса: сегодня вместо того, чтобы беспокоиться о репрезентативности выборки, можно тупо перелопатить полные данные

Разумеется, не всегда, но часто
С этим я согласен, но увы не всегда это так. Иногда просто нет всех данных. Тот же пример с домами. Формально надо послать оценочников и просчитать цену всех домов. Возможно, с домами это и можно сделать, но в целом нет. Конечно, для определённых задач мы знаем все данные.

С домами насколько я понимаю есть mls database и всякие разные другие открытые источники. Именно по ним работают всякие Zillow, redfin и прочие. Работают довольно точно; а ошибка скорей всего заложена как бизнес десижн: зиллоу, например, оптимистичен в оценке (чтобы почесать самолюбие), но консервативен в прогнозе — чтобы не было разочарования.

Ну а когда нет доступа к репрезентативной/полной выборке, остаётся имхо только делать разумные допущения/поправки. Конечно, в вашем примере про экспоненту это вряд ли сработает, но и пример экстремальный.

blanko27 · Post by **blanko27** » 04 Jun 2017 02:56

Получается спор ни о чем, если бы источник bias-а в даных был очевиден его, скорее всего, можно было бы компенсировать.

Kolbasoff · Post by **Kolbasoff** » 04 Jun 2017 02:57

АццкоМото wrote: ↑04 Jun 2017 02:48 зиллоу, например, оптимистичен в оценке (чтобы почесать самолюбие), но консервативен в прогнозе — чтобы не было разочарования.

Оптимистичен что бы налог на пропердь побольше содрать. У нас assessment от каунти приходит точно как зилла показывает, до тысчёнки, и хрен поругаешься с ними. В Канаде вот нет пока зиллы, так assessment занижают тыщ на 50. А тут роботы хреновы, нет от них пощады.

АццкоМото · Post by **АццкоМото** » 04 Jun 2017 03:49

Kolbasoff wrote: ↑04 Jun 2017 02:57
АццкоМото wrote: ↑04 Jun 2017 02:48 зиллоу, например, оптимистичен в оценке (чтобы почесать самолюбие), но консервативен в прогнозе — чтобы не было разочарования.
Оптимистичен что бы налог на пропердь побольше содрать. У нас assessment от каунти приходит точно как зилла показывает, до тысчёнки, и хрен поругаешься с ними. В Канаде вот нет пока зиллы, так assessment занижают тыщ на 50. А тут роботы хреновы, нет от них пощады.

Думаю, это особенности вашего конкретного такс асессора. У меня корреляции нет. Ну, сильной. Да и вообще — зилле то какой с этого прок?

Опять же, иногда оценка растет на 20% в год, а такс асессмент
больше, чем на 10% вырасти не может, хуч даже асессор обосрется от жадности.

Физик-Лирик · Post by **Физик-Лирик** » 04 Jun 2017 03:54

ksi wrote: ↑04 Jun 2017 02:44 Sampling bias - это если вы оценили параметры не по "своей" выборке, а по "похожей"? В примере с домами, если ваша задача оценить стоимость дома в 4000 sqft а у вас реальные данные только по домам с площадью только <= 2500 sqft и простое вычисление средней цены за sqft по этой выборке и затем умножение на площадь "большого"дома дает систематически завышенную стоимость?

В общем, да. Проблема, однако, более серьезная. Для большинства практических задач число входных переменных модели (в нашем примере, площадь, расположение, размер участка и т.п.) может быть очень велико. В совокупности с байесом (я буду продолжать использовать этот термин, как в литературе) не понятно, куда это приведёт.

АццкоМото wrote: ↑04 Jun 2017 02:48 Ну а когда нет доступа к репрезентативной/полной выборке, остаётся имхо только делать разумные допущения/поправки. Конечно, в вашем примере про экспоненту это вряд ли сработает, но и пример экстремальный.

Согласен, экстремальный. Привел только, чтобы подчеркнуть уровень проблемы.

blanko27 wrote: ↑04 Jun 2017 02:56 Получается спор ни о чем, если бы источник bias-а в даных был очевиден его, скорее всего, можно было бы компенсировать.

Возможно, я сделаю крамольное заявление, но все больше склоняюсь к выводу, что весь этот машобуч - большая на .. дувательство. Вот оно как.

АццкоМото · Post by **АццкоМото** » 04 Jun 2017 03:57

blanko27 wrote: ↑04 Jun 2017 02:56 Получается спор ни о чем, если бы источник bias-а в даных был очевиден его, скорее всего, можно было бы компенсировать.

Не совсем

Пример немного сбоку, но КМК даёт представление, о чем толкует Физик-лирик. Вот в моей эрии индусы делают 10-20% покупок мебели. А возвратов — более 90%. И какую поправку можно внести с учётом того, что данные об этнической принадлежности собрать либо нереально, либо даже незаконно? Продажники это знают, они не слепые. А вот в базе данных этого нет.

ksi · Post by **ksi** » 04 Jun 2017 05:09

Физик-Лирик wrote: ↑04 Jun 2017 03:54
ksi wrote: ↑04 Jun 2017 02:44 Sampling bias - это если вы оценили параметры не по "своей" выборке, а по "похожей"? В примере с домами, если ваша задача оценить стоимость дома в 4000 sqft а у вас реальные данные только по домам с площадью только <= 2500 sqft и простое вычисление средней цены за sqft по этой выборке и затем умножение на площадь "большого"дома дает систематически завышенную стоимость?
В общем, да. Проблема, однако, более серьезная. Для большинства практических задач число входных переменных модели (в нашем примере, площадь, расположение, размер участка и т.п.) может быть очень велико. В совокупности с байесом (я буду продолжать использовать этот термин, как в литературе) не понятно, куда это приведёт.

Возможно, я сделаю крамольное заявление, но все больше склоняюсь к выводу, что весь этот машобуч - большая на .. дувательство. Вот оно как.

Ну хорошо, а что сделал Хекман,при каких условиях он нашел выход из этой ситуации? Можете пояснить?

blanko27 · Post by **blanko27** » 04 Jun 2017 15:47

АццкоМото wrote: ↑04 Jun 2017 03:57
blanko27 wrote: ↑04 Jun 2017 02:56 Получается спор ни о чем, если бы источник bias-а в даных был очевиден его, скорее всего, можно было бы компенсировать.
Не совсем
...
данные об этнической принадлежности собрать либо нереально, либо даже незаконно? Продажники это знают, они не слепые. А вот в базе данных этого нет.

Как только кто-то приводит пример bias-а он теряет смысл, потому, что вопрос подменяется. Приведенный пример говорит: вот источник bias-а - как его исправить? Физик-Лирик спрашивает: вот данные - как определить источник bias-а?
Вопрос компенсации bias-а - уже второй вопрос, и если можно автоматически копенсировать, как, к примеру, в случае зависимости цены дома от prime rate-а, или в вашем примере, введением графы "национальность" (шутка) - хорошо.
Я огрубляю, но мне кажется, что спор выходит из-за этого.

АццкоМото · Post by **АццкоМото** » 04 Jun 2017 16:55

blanko27 wrote: ↑04 Jun 2017 15:47
АццкоМото wrote: ↑04 Jun 2017 03:57
blanko27 wrote: ↑04 Jun 2017 02:56 Получается спор ни о чем, если бы источник bias-а в даных был очевиден его, скорее всего, можно было бы компенсировать.
Не совсем
...
данные об этнической принадлежности собрать либо нереально, либо даже незаконно? Продажники это знают, они не слепые. А вот в базе данных этого нет.
Как только кто-то приводит пример bias-а он теряет смысл, потому, что вопрос подменяется. Приведенный пример говорит: вот источник bias-а - как его исправить? Физик-Лирик спрашивает: вот данные - как определить источник bias-а?
Вопрос компенсации bias-а - уже второй вопрос, и если можно автоматически копенсировать, как, к примеру, в случае зависимости цены дома от prime rate-а, или в вашем примере, введением графы "национальность" (шутка) - хорошо.
Я огрубляю, но мне кажется, что спор выходит из-за этого.

Не уверен, что речь изначальна шла об обнаружении bias-a, ибо вот цитата из заглавного поста: Методик по устранению байеса практически нет.

С другой стороны, соглашусь, что обнаружение и компенсация - совершенно разные проблемы

Физик-Лирик · Post by **Физик-Лирик** » 04 Jun 2017 20:37

ksi wrote: ↑04 Jun 2017 05:09 Ну хорошо, а что сделал Хекман,при каких условиях он нашел выход из этой ситуации? Можете пояснить?

Если в общем, был применен двушаговый метод, основанный на регрессионной модели. Скажем, если (средняя) цена дома есть линейная функция от характеристик дома, то формально, формула работает только для выбранных домов (т.е. есть предполагается алгоритм выборки). Математически, это означает корреляцию между выходом и ошибкой модели. Для компенсации модель дополняется членом, который учитывает корреляцию между ошибкой и другой ошибкой в линейной модели выборки. При этом предполагается, что две ошибки имеют совместное нормальное распределение. Детали можно найти на Интернете. Как видно, метод основан на ряде допущений.

АццкоМото wrote: ↑04 Jun 2017 16:55 Не уверен, что речь изначальна шла об обнаружении bias-a, ибо вот цитата из заглавного поста: Методик по устранению байеса практически нет.
С другой стороны, соглашусь, что обнаружение и компенсация - совершенно разные проблемы

Обычно, о наличии байеса известно заранее, потому что, как правило, есть информация о сборе данных. Так что речь в основном о компенсации. Думаю, оценить величину Байеса, по крайней мере в принципе, можно, сравнивая распределения. Типа характеристики всех домов сравнить с соответствующим распределением в выборке. Правда, если таких характеристик сотни, а то и тысячи, не совсем ясно, как это сделать практически. Наверное, можно "подправить" распределение в выборке, например, убрать часть больших домов, если их было слишком много. Но ведь нет гарантии, что всегда это удастся. Опять же практическая проблема, если характеристик очень много. После поправки, можно строить модель. Но это всё теория.

Kolbasoff · Post by **Kolbasoff** » 05 Jun 2017 01:50

Физик-Лирик wrote: ↑04 Jun 2017 03:54 Возможно, я сделаю крамольное заявление, но все больше склоняюсь к выводу, что весь этот машобуч - большая на .. дувательство. Вот оно как.

Хе-хе. У меня тоже в процессе изучения машобуча сложилось такое впечатление. Но следующий сезон буду искать на баркасе под флагом машобуча. Просто интересно посмотреть на это дело на реальной рыбалке. Главное самому не попасться на удочку, а то напоют в уши и заманят любознательного рыбака, а потом хренак и на конвейер рыбу чистить мордой в UI. У меня такое бывало.

Физик-Лирик · Post by **Физик-Лирик** » 05 Jun 2017 02:51

Kolbasoff wrote: ↑05 Jun 2017 01:50 Хе-хе. У меня тоже в процессе изучения машобуча сложилось такое впечатление. Но следующий сезон буду искать на баркасе под флагом машобуча. Просто интересно посмотреть на это дело на реальной рыбалке. Главное самому не попасться на удочку, а то напоют в уши и заманят любознательного рыбака, а потом хренак и на конвейер рыбу чистить мордой в UI. У меня такое бывало.

Весь ужас в том, что теория как таковая работает нормально. Однако, когда начинаешь залезать глубже на практике, возникает всё больше и больше вопросов. Кризис явно налицо. У меня есть и другие концептуальные вопросы. Надо подумать и разобраться. Похоже, придётся возвращаться к началу, т.е. снова все формулы выводить. А так, в МО существуют общепринятые подходы, которые уже никто не обсуждает, предполагая их очевидность.
Я может ещё вопросов покину.

Roy · Post by **Roy** » 05 Jun 2017 05:30

Физик-Лирик wrote: ↑05 Jun 2017 02:51 Весь ужас в том, что теория как таковая работает нормально. Однако, когда начинаешь залезать глубже на практике, возникает всё больше и больше вопросов. Кризис явно налицо. У меня есть и другие концептуальные вопросы. Надо подумать и разобраться. Похоже, придётся возвращаться к началу, т.е. снова все формулы выводить. А так, в МО существуют общепринятые подходы, которые уже никто не обсуждает, предполагая их очевидность.
Я может ещё вопросов покину.

Главное - предположить, что распределение нормальное

Нас учитель статистики заставлял читать опубликованные статьи, в которых использовались статистические методы, и находить 5 ошибок в выводе результата.

АццкоМото · Post by **АццкоМото** » 05 Jun 2017 05:45

Хммм.... А а нас учитель физики учил соотносить результаты решения задачи со здравым смыслом. Типа если высота Эйфелевой башни вышла 34 сантиметра, то стоит задуматься.

Точно также КО вещает, что слухи о распространенности нормального распределения сильно преувеличены

Физик-Лирик · Post by **Физик-Лирик** » 05 Jun 2017 12:41

Roy wrote: ↑05 Jun 2017 05:30 Главное - предположить, что распределение нормальное
Нас учитель статистики заставлял читать опубликованные статьи, в которых использовались статистические методы, и находить 5 ошибок в выводе результата.

Если статьи из нормальных журналов, которые рецензируются, то чтобы найти 5 ошибок надо очень постараться и скорее всего их там не будет. В прошлом году местное статистическое сообщество широко обсуждали использование p-value в выводах. Решили, что на него не стоит вовсю полагаться. А так любой статистический анализ - это модель.

Roy · Post by **Roy** » 05 Jun 2017 16:01

Физик-Лирик wrote: ↑05 Jun 2017 12:41
Roy wrote: ↑05 Jun 2017 05:30 Главное - предположить, что распределение нормальное
Нас учитель статистики заставлял читать опубликованные статьи, в которых использовались статистические методы, и находить 5 ошибок в выводе результата.
Если статьи из нормальных журналов, которые рецензируются, то чтобы найти 5 ошибок надо очень постараться и скорее всего их там не будет. В прошлом году местное статистическое сообщество широко обсуждали использование p-value в выводах. Решили, что на него не стоит вовсю полагаться. А так любой статистический анализ - это модель.
[/quotе]
Насчет р-value интересно. Теперь гипотезы не подтверждают?
Насколько помню - нам давали много статей на тему психологии - типа "британские ученые обнаружили...". Из типичных ошибок было нормальное распределение по-умолчанию, маленькая выборка, невнятная описание эксперимента, не учитывались люди, отказавшиеся от исследования, и т.д

Физик-Лирик · Post by **Физик-Лирик** » 05 Jun 2017 18:49

Roy wrote: ↑05 Jun 2017 16:01 [Насчет р-value интересно. Теперь гипотезы не подтверждают?
Насколько помню - нам давали много статей на тему психологии - типа "британские ученые обнаружили...". Из типичных ошибок было нормальное распределение по-умолчанию, маленькая выборка, невнятная описание эксперимента, не учитывались люди, отказавшиеся от исследования, и т.д

Общий вывод из тех разговоров, не стоит только полагаться на р-value. Посмотрите на публикации местной статистической ассоциации (на их сайте) или можно по ключевым словам.
Я имел дело с публикациями по клиническим испытаниям. Там как бы всю инфу дают. Типа сравнительный анализ участников в разных группах до начала испытаний и после. Методики, размеры. Оценки в основном были на р-value . Правжа формальности напрямую обычно не проверяют. Не обошлось и без приколов. Помнится одно испытание было остановлено (типа нового лекарства) из-за якобы серьёзных побочных явлений, а потом долго спорили в том числе и на конференциях (лично слушал оные дебаты), правда ли были эффекты или же это был чисто статистический просвет, и ничего не было.
Выход людей из эксперимента (censoring) всегда учитывались, да и статистические методы типа Каплан-Мейер и хазардная модель Кокса как бы всё это учитывают.
А вообще, да, статистика - это вещь в себе.

tessob · Post by **tessob** » 05 Jun 2017 19:19

Физик-Лирик wrote: ↑05 Jun 2017 02:51
Kolbasoff wrote: ↑05 Jun 2017 01:50 Хе-хе. У меня тоже в процессе изучения машобуча сложилось такое впечатление. Но следующий сезон буду искать на баркасе под флагом машобуча. Просто интересно посмотреть на это дело на реальной рыбалке. Главное самому не попасться на удочку, а то напоют в уши и заманят любознательного рыбака, а потом хренак и на конвейер рыбу чистить мордой в UI. У меня такое бывало.
Весь ужас в том, что теория как таковая работает нормально. Однако, когда начинаешь залезать глубже на практике, возникает всё больше и больше вопросов. Кризис явно налицо. У меня есть и другие концептуальные вопросы. Надо подумать и разобраться. Похоже, придётся возвращаться к началу, т.е. снова все формулы выводить. А так, в МО существуют общепринятые подходы, которые уже никто не обсуждает, предполагая их очевидность.
Я может ещё вопросов покину.

Мне очень нравится диаграмма Эйлера-Венна про дата-сайнс, где сайнтист должен знать:
- программирование
- статистику/математику
- предметную область

Только я все чаще замечаю как многие исключают последнюю составляющую из числа необходимых. К сожалению. Просто в большинстве случаев это именно то, что позволяет ответить на вопрос: "А есть ли сигнал в данных?". Представьте, что дата-сет для распознавания образов готовил бы слепой. Как размечать данные, если учитель не валиден?

На практике я такое вижу постоянно. Люди пытаются предсказывать продажи, отказы оборудования, увольнения сотрудников, всякую хрень... Но кто сказал, что данные содержат сигнал!?

Смогу ли я узнавать кошечек на фотографиях на основе дат, когда был сделан снимок. А если у меня таких дат будет Big Data?

Физик-Лирик · Post by **Физик-Лирик** » 05 Jun 2017 20:23

tessob wrote: ↑05 Jun 2017 19:19 Мне очень нравится диаграмма Эйлера-Венна про дата-сайнс, где сайнтист должен знать:
- программирование
- статистику/математику
- предметную область

Это да, постоянно вижу "дискуссии"

на эту тему на Интернете. Смысла особого в этом не вижу, но люди обсуждают.

Дейта сайнс, атифишел интеледженс, машобуч, бизнес интеледженс, ... . Я О'фигиваю. Философия или пытаются больше бабла под это дело получить?

Про предмету область полностью согласен.

Вопрос. На словах сможете описать, чем визуально кошки от собак отличаются? Старый вопрос. Есть ли ответ?

ksi · Post by **ksi** » 06 Jun 2017 01:50

Физик-Лирик wrote: ↑05 Jun 2017 12:41
Roy wrote: ↑05 Jun 2017 05:30 Главное - предположить, что распределение нормальное
Нас учитель статистики заставлял читать опубликованные статьи, в которых использовались статистические методы, и находить 5 ошибок в выводе результата.
Если статьи из нормальных журналов, которые рецензируются, то чтобы найти 5 ошибок надо очень постараться и скорее всего их там не будет. В прошлом году местное статистическое сообщество широко обсуждали использование p-value в выводах. Решили, что на него не стоит вовсю полагаться. А так любой статистический анализ - это модель.

А что с p-value не так? Это практически тоже самое что доверительный интервал. Как еще можно интерпретировать статистические выводы в рамках классической (не байесовской) статистики?

Физик-Лирик · Post by **Физик-Лирик** » 06 Jun 2017 13:36

Снежная Королева wrote: ↑06 Jun 2017 06:35
Я диплом защищала

Поздравляем.

Снежная Королева wrote: ↑06 Jun 2017 06:35 Ситуация с data bias данными давно известна. Решение только одно: ВНАЧАЛЕ поставить вопрос, потом собрать репрезентативную выборку. В команде иметь статистика с опытом. Let engineers run experiments and they will screw them up in every way possible.

Шутить изволите? Какой нафиг статистик в команде? Вы, по моему, явно теорией перезанимались. Срочно в отпуск.

Данные уже собраны предыдущими поколениями. Что имеем, то и имеем. В общем, как и предполагал, дело дрянь. Поэтому и говорю, что дурят нашего брата этим самым машобучем.

Кстати ещё вопрос интеллектуалам. Допустим, решается задача классификации (с двумя классами для простоты). Предположим, один класс доминирует. Известно (здесь, конечно, надо поставить жирный знак вопроса, т.к. каждый алгоритм надо рассматривать отдельно, но да ладно), что МО плохо работает в такой ситуации. Проводится балансировка любо путём undersampling, или oversampling или гибридной схемой типа смота. Замечательно. А как быть с байесом в таком случае? Допустим, я убрал некоторые данные из доминирующего класса. Но ведь теперь мой оставшийся набор данных нерепрезентивный? Получается, чтобы исправить одну проблему я ввел новую. Конечно, всегда можно сослаться на дальнейшее тестирование, типа крос-валидации. Возможно, введение "весов" в целевую функцию является более подходящим решением, т.к. не затрагивает самих данных.

tessob · Post by **tessob** » 06 Jun 2017 14:00

Физик-Лирик wrote: ↑05 Jun 2017 20:23Вопрос. На словах сможете описать, чем визуально кошки от собак отличаются? Старый вопрос. Есть ли ответ?

Разумеется. У котов морды наглые. Это же элементарно.

Физик-Лирик · Post by **Физик-Лирик** » 06 Jun 2017 17:24

tessob wrote: ↑06 Jun 2017 14:00
Физик-Лирик wrote: ↑05 Jun 2017 20:23Вопрос. На словах сможете описать, чем визуально кошки от собак отличаются? Старый вопрос. Есть ли ответ?
Разумеется. У котов морды наглые. Это же элементарно.

Чистый классификатор. Наглые морды против ненаглых.

Привет

Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения

Re: Крах машиностроения