С этим я согласен, но увы не всегда это так. Иногда просто нет всех данных. Тот же пример с домами. Формально надо послать оценочников и просчитать цену всех домов. Возможно, с домами это и можно сделать, но в целом нет. Конечно, для определённых задач мы знаем все данные.
Крах машиностроения
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Крах машиностроения
-
- Уже с Приветом
- Posts: 10061
- Joined: 20 May 1999 09:01
Re: Крах машиностроения
Sampling bias - это если вы оценили параметры не по "своей" выборке, а по "похожей"? В примере с домами, если ваша задача оценить стоимость дома в 4000 sqft а у вас реальные данные только по домам с площадью только <= 2500 sqft и простое вычисление средней цены за sqft по этой выборке и затем умножение на площадь "большого"дома дает систематически завышенную стоимость?Физик-Лирик wrote: ↑04 Jun 2017 02:28 По-моему, я чётко определил, что я подразумевают под байесом. Это sampling bias. Я не имею в виду biased/unbiased estimator of statistic. Пример про акул, конечно, впечатляет. Почитайте литературу. Я уже приводил ключевые слова. Разберитесь в сути проблемы. Обратите внимание на коррекцию Хекмана. Человек Нобель за это получил. Машобуч - это не совсем чистая статистика, которой Вы оперируете. Этот скорее матан.
-
- Уже с Приветом
- Posts: 15242
- Joined: 01 Mar 2007 05:18
- Location: VVO->ORD->DFW->SFO->DFW->PDX
Re: Крах машиностроения
С домами насколько я понимаю есть mls database и всякие разные другие открытые источники. Именно по ним работают всякие Zillow, redfin и прочие. Работают довольно точно; а ошибка скорей всего заложена как бизнес десижн: зиллоу, например, оптимистичен в оценке (чтобы почесать самолюбие), но консервативен в прогнозе — чтобы не было разочарования.Физик-Лирик wrote: ↑04 Jun 2017 02:32С этим я согласен, но увы не всегда это так. Иногда просто нет всех данных. Тот же пример с домами. Формально надо послать оценочников и просчитать цену всех домов. Возможно, с домами это и можно сделать, но в целом нет. Конечно, для определённых задач мы знаем все данные.
Ну а когда нет доступа к репрезентативной/полной выборке, остаётся имхо только делать разумные допущения/поправки. Конечно, в вашем примере про экспоненту это вряд ли сработает, но и пример экстремальный.
Мат на форуме запрещен, блдж!
-
- Уже с Приветом
- Posts: 2261
- Joined: 17 Jun 2003 04:41
- Location: Just like US
Re: Крах машиностроения
Получается спор ни о чем, если бы источник bias-а в даных был очевиден его, скорее всего, можно было бы компенсировать.
...а мы такой компанией, возьмем, да и припремся к Элис!
-
- Уже с Приветом
- Posts: 3481
- Joined: 02 Jan 2005 22:10
Re: Крах машиностроения
Оптимистичен что бы налог на пропердь побольше содрать. У нас assessment от каунти приходит точно как зилла показывает, до тысчёнки, и хрен поругаешься с ними. В Канаде вот нет пока зиллы, так assessment занижают тыщ на 50. А тут роботы хреновы, нет от них пощады.
-
- Уже с Приветом
- Posts: 15242
- Joined: 01 Mar 2007 05:18
- Location: VVO->ORD->DFW->SFO->DFW->PDX
Re: Крах машиностроения
Думаю, это особенности вашего конкретного такс асессора. У меня корреляции нет. Ну, сильной. Да и вообще — зилле то какой с этого прок?Kolbasoff wrote: ↑04 Jun 2017 02:57Оптимистичен что бы налог на пропердь побольше содрать. У нас assessment от каунти приходит точно как зилла показывает, до тысчёнки, и хрен поругаешься с ними. В Канаде вот нет пока зиллы, так assessment занижают тыщ на 50. А тут роботы хреновы, нет от них пощады.
Опять же, иногда оценка растет на 20% в год, а такс асессмент
больше, чем на 10% вырасти не может, хуч даже асессор обосрется от жадности.
Мат на форуме запрещен, блдж!
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Крах машиностроения
В общем, да. Проблема, однако, более серьезная. Для большинства практических задач число входных переменных модели (в нашем примере, площадь, расположение, размер участка и т.п.) может быть очень велико. В совокупности с байесом (я буду продолжать использовать этот термин, как в литературе) не понятно, куда это приведёт.ksi wrote: ↑04 Jun 2017 02:44 Sampling bias - это если вы оценили параметры не по "своей" выборке, а по "похожей"? В примере с домами, если ваша задача оценить стоимость дома в 4000 sqft а у вас реальные данные только по домам с площадью только <= 2500 sqft и простое вычисление средней цены за sqft по этой выборке и затем умножение на площадь "большого"дома дает систематически завышенную стоимость?
Согласен, экстремальный. Привел только, чтобы подчеркнуть уровень проблемы.
Возможно, я сделаю крамольное заявление, но все больше склоняюсь к выводу, что весь этот машобуч - большая на .. дувательство. Вот оно как.
-
- Уже с Приветом
- Posts: 15242
- Joined: 01 Mar 2007 05:18
- Location: VVO->ORD->DFW->SFO->DFW->PDX
Re: Крах машиностроения
Не совсем
Пример немного сбоку, но КМК даёт представление, о чем толкует Физик-лирик. Вот в моей эрии индусы делают 10-20% покупок мебели. А возвратов — более 90%. И какую поправку можно внести с учётом того, что данные об этнической принадлежности собрать либо нереально, либо даже незаконно? Продажники это знают, они не слепые. А вот в базе данных этого нет.
Мат на форуме запрещен, блдж!
-
- Уже с Приветом
- Posts: 10061
- Joined: 20 May 1999 09:01
Re: Крах машиностроения
Ну хорошо, а что сделал Хекман,при каких условиях он нашел выход из этой ситуации? Можете пояснить?Физик-Лирик wrote: ↑04 Jun 2017 03:54В общем, да. Проблема, однако, более серьезная. Для большинства практических задач число входных переменных модели (в нашем примере, площадь, расположение, размер участка и т.п.) может быть очень велико. В совокупности с байесом (я буду продолжать использовать этот термин, как в литературе) не понятно, куда это приведёт.ksi wrote: ↑04 Jun 2017 02:44 Sampling bias - это если вы оценили параметры не по "своей" выборке, а по "похожей"? В примере с домами, если ваша задача оценить стоимость дома в 4000 sqft а у вас реальные данные только по домам с площадью только <= 2500 sqft и простое вычисление средней цены за sqft по этой выборке и затем умножение на площадь "большого"дома дает систематически завышенную стоимость?
Возможно, я сделаю крамольное заявление, но все больше склоняюсь к выводу, что весь этот машобуч - большая на .. дувательство. Вот оно как.
-
- Уже с Приветом
- Posts: 2261
- Joined: 17 Jun 2003 04:41
- Location: Just like US
Re: Крах машиностроения
Как только кто-то приводит пример bias-а он теряет смысл, потому, что вопрос подменяется. Приведенный пример говорит: вот источник bias-а - как его исправить? Физик-Лирик спрашивает: вот данные - как определить источник bias-а?
Вопрос компенсации bias-а - уже второй вопрос, и если можно автоматически копенсировать, как, к примеру, в случае зависимости цены дома от prime rate-а, или в вашем примере, введением графы "национальность" (шутка) - хорошо.
Я огрубляю, но мне кажется, что спор выходит из-за этого.
...а мы такой компанией, возьмем, да и припремся к Элис!
-
- Уже с Приветом
- Posts: 15242
- Joined: 01 Mar 2007 05:18
- Location: VVO->ORD->DFW->SFO->DFW->PDX
Re: Крах машиностроения
Не уверен, что речь изначальна шла об обнаружении bias-a, ибо вот цитата из заглавного поста: Методик по устранению байеса практически нет.blanko27 wrote: ↑04 Jun 2017 15:47Как только кто-то приводит пример bias-а он теряет смысл, потому, что вопрос подменяется. Приведенный пример говорит: вот источник bias-а - как его исправить? Физик-Лирик спрашивает: вот данные - как определить источник bias-а?
Вопрос компенсации bias-а - уже второй вопрос, и если можно автоматически копенсировать, как, к примеру, в случае зависимости цены дома от prime rate-а, или в вашем примере, введением графы "национальность" (шутка) - хорошо.
Я огрубляю, но мне кажется, что спор выходит из-за этого.
С другой стороны, соглашусь, что обнаружение и компенсация - совершенно разные проблемы
Мат на форуме запрещен, блдж!
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Крах машиностроения
Если в общем, был применен двушаговый метод, основанный на регрессионной модели. Скажем, если (средняя) цена дома есть линейная функция от характеристик дома, то формально, формула работает только для выбранных домов (т.е. есть предполагается алгоритм выборки). Математически, это означает корреляцию между выходом и ошибкой модели. Для компенсации модель дополняется членом, который учитывает корреляцию между ошибкой и другой ошибкой в линейной модели выборки. При этом предполагается, что две ошибки имеют совместное нормальное распределение. Детали можно найти на Интернете. Как видно, метод основан на ряде допущений.
Обычно, о наличии байеса известно заранее, потому что, как правило, есть информация о сборе данных. Так что речь в основном о компенсации. Думаю, оценить величину Байеса, по крайней мере в принципе, можно, сравнивая распределения. Типа характеристики всех домов сравнить с соответствующим распределением в выборке. Правда, если таких характеристик сотни, а то и тысячи, не совсем ясно, как это сделать практически. Наверное, можно "подправить" распределение в выборке, например, убрать часть больших домов, если их было слишком много. Но ведь нет гарантии, что всегда это удастся. Опять же практическая проблема, если характеристик очень много. После поправки, можно строить модель. Но это всё теория.
-
- Уже с Приветом
- Posts: 3481
- Joined: 02 Jan 2005 22:10
Re: Крах машиностроения
Хе-хе. У меня тоже в процессе изучения машобуча сложилось такое впечатление. Но следующий сезон буду искать на баркасе под флагом машобуча. Просто интересно посмотреть на это дело на реальной рыбалке. Главное самому не попасться на удочку, а то напоют в уши и заманят любознательного рыбака, а потом хренак и на конвейер рыбу чистить мордой в UI. У меня такое бывало.Физик-Лирик wrote: ↑04 Jun 2017 03:54 Возможно, я сделаю крамольное заявление, но все больше склоняюсь к выводу, что весь этот машобуч - большая на .. дувательство. Вот оно как.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Крах машиностроения
Весь ужас в том, что теория как таковая работает нормально. Однако, когда начинаешь залезать глубже на практике, возникает всё больше и больше вопросов. Кризис явно налицо. У меня есть и другие концептуальные вопросы. Надо подумать и разобраться. Похоже, придётся возвращаться к началу, т.е. снова все формулы выводить. А так, в МО существуют общепринятые подходы, которые уже никто не обсуждает, предполагая их очевидность.Kolbasoff wrote: ↑05 Jun 2017 01:50 Хе-хе. У меня тоже в процессе изучения машобуча сложилось такое впечатление. Но следующий сезон буду искать на баркасе под флагом машобуча. Просто интересно посмотреть на это дело на реальной рыбалке. Главное самому не попасться на удочку, а то напоют в уши и заманят любознательного рыбака, а потом хренак и на конвейер рыбу чистить мордой в UI. У меня такое бывало.
Я может ещё вопросов покину.
-
- Уже с Приветом
- Posts: 1234
- Joined: 24 Nov 1999 10:01
- Location: Seattle
Re: Крах машиностроения
Главное - предположить, что распределение нормальноеФизик-Лирик wrote: ↑05 Jun 2017 02:51 Весь ужас в том, что теория как таковая работает нормально. Однако, когда начинаешь залезать глубже на практике, возникает всё больше и больше вопросов. Кризис явно налицо. У меня есть и другие концептуальные вопросы. Надо подумать и разобраться. Похоже, придётся возвращаться к началу, т.е. снова все формулы выводить. А так, в МО существуют общепринятые подходы, которые уже никто не обсуждает, предполагая их очевидность.
Я может ещё вопросов покину.
Нас учитель статистики заставлял читать опубликованные статьи, в которых использовались статистические методы, и находить 5 ошибок в выводе результата.
-
- Уже с Приветом
- Posts: 15242
- Joined: 01 Mar 2007 05:18
- Location: VVO->ORD->DFW->SFO->DFW->PDX
Re: Крах машиностроения
Хммм.... А а нас учитель физики учил соотносить результаты решения задачи со здравым смыслом. Типа если высота Эйфелевой башни вышла 34 сантиметра, то стоит задуматься.
Точно также КО вещает, что слухи о распространенности нормального распределения сильно преувеличены
Точно также КО вещает, что слухи о распространенности нормального распределения сильно преувеличены
Мат на форуме запрещен, блдж!
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Крах машиностроения
Если статьи из нормальных журналов, которые рецензируются, то чтобы найти 5 ошибок надо очень постараться и скорее всего их там не будет. В прошлом году местное статистическое сообщество широко обсуждали использование p-value в выводах. Решили, что на него не стоит вовсю полагаться. А так любой статистический анализ - это модель.
-
- Уже с Приветом
- Posts: 1234
- Joined: 24 Nov 1999 10:01
- Location: Seattle
Re: Крах машиностроения
Физик-Лирик wrote: ↑05 Jun 2017 12:41Если статьи из нормальных журналов, которые рецензируются, то чтобы найти 5 ошибок надо очень постараться и скорее всего их там не будет. В прошлом году местное статистическое сообщество широко обсуждали использование p-value в выводах. Решили, что на него не стоит вовсю полагаться. А так любой статистический анализ - это модель.
[/quotе]
Насчет р-value интересно. Теперь гипотезы не подтверждают?
Насколько помню - нам давали много статей на тему психологии - типа "британские ученые обнаружили...". Из типичных ошибок было нормальное распределение по-умолчанию, маленькая выборка, невнятная описание эксперимента, не учитывались люди, отказавшиеся от исследования, и т.д
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Крах машиностроения
Общий вывод из тех разговоров, не стоит только полагаться на р-value. Посмотрите на публикации местной статистической ассоциации (на их сайте) или можно по ключевым словам.Roy wrote: ↑05 Jun 2017 16:01 [Насчет р-value интересно. Теперь гипотезы не подтверждают?
Насколько помню - нам давали много статей на тему психологии - типа "британские ученые обнаружили...". Из типичных ошибок было нормальное распределение по-умолчанию, маленькая выборка, невнятная описание эксперимента, не учитывались люди, отказавшиеся от исследования, и т.д
Я имел дело с публикациями по клиническим испытаниям. Там как бы всю инфу дают. Типа сравнительный анализ участников в разных группах до начала испытаний и после. Методики, размеры. Оценки в основном были на р-value . Правжа формальности напрямую обычно не проверяют. Не обошлось и без приколов. Помнится одно испытание было остановлено (типа нового лекарства) из-за якобы серьёзных побочных явлений, а потом долго спорили в том числе и на конференциях (лично слушал оные дебаты), правда ли были эффекты или же это был чисто статистический просвет, и ничего не было.
Выход людей из эксперимента (censoring) всегда учитывались, да и статистические методы типа Каплан-Мейер и хазардная модель Кокса как бы всё это учитывают.
А вообще, да, статистика - это вещь в себе.
-
- Уже с Приветом
- Posts: 545
- Joined: 07 Jan 2016 13:04
Re: Крах машиностроения
Мне очень нравится диаграмма Эйлера-Венна про дата-сайнс, где сайнтист должен знать:Физик-Лирик wrote: ↑05 Jun 2017 02:51Весь ужас в том, что теория как таковая работает нормально. Однако, когда начинаешь залезать глубже на практике, возникает всё больше и больше вопросов. Кризис явно налицо. У меня есть и другие концептуальные вопросы. Надо подумать и разобраться. Похоже, придётся возвращаться к началу, т.е. снова все формулы выводить. А так, в МО существуют общепринятые подходы, которые уже никто не обсуждает, предполагая их очевидность.Kolbasoff wrote: ↑05 Jun 2017 01:50 Хе-хе. У меня тоже в процессе изучения машобуча сложилось такое впечатление. Но следующий сезон буду искать на баркасе под флагом машобуча. Просто интересно посмотреть на это дело на реальной рыбалке. Главное самому не попасться на удочку, а то напоют в уши и заманят любознательного рыбака, а потом хренак и на конвейер рыбу чистить мордой в UI. У меня такое бывало.
Я может ещё вопросов покину.
- программирование
- статистику/математику
- предметную область
Только я все чаще замечаю как многие исключают последнюю составляющую из числа необходимых. К сожалению. Просто в большинстве случаев это именно то, что позволяет ответить на вопрос: "А есть ли сигнал в данных?". Представьте, что дата-сет для распознавания образов готовил бы слепой. Как размечать данные, если учитель не валиден?
На практике я такое вижу постоянно. Люди пытаются предсказывать продажи, отказы оборудования, увольнения сотрудников, всякую хрень... Но кто сказал, что данные содержат сигнал!?
Смогу ли я узнавать кошечек на фотографиях на основе дат, когда был сделан снимок. А если у меня таких дат будет Big Data?
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Крах машиностроения
Это да, постоянно вижу "дискуссии" на эту тему на Интернете. Смысла особого в этом не вижу, но люди обсуждают. Дейта сайнс, атифишел интеледженс, машобуч, бизнес интеледженс, ... . Я О'фигиваю. Философия или пытаются больше бабла под это дело получить?
Про предмету область полностью согласен.
Вопрос. На словах сможете описать, чем визуально кошки от собак отличаются? Старый вопрос. Есть ли ответ?
-
- Уже с Приветом
- Posts: 10061
- Joined: 20 May 1999 09:01
Re: Крах машиностроения
А что с p-value не так? Это практически тоже самое что доверительный интервал. Как еще можно интерпретировать статистические выводы в рамках классической (не байесовской) статистики?Физик-Лирик wrote: ↑05 Jun 2017 12:41Если статьи из нормальных журналов, которые рецензируются, то чтобы найти 5 ошибок надо очень постараться и скорее всего их там не будет. В прошлом году местное статистическое сообщество широко обсуждали использование p-value в выводах. Решили, что на него не стоит вовсю полагаться. А так любой статистический анализ - это модель.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Крах машиностроения
Поздравляем.
Шутить изволите? Какой нафиг статистик в команде? Вы, по моему, явно теорией перезанимались. Срочно в отпуск.Снежная Королева wrote: ↑06 Jun 2017 06:35 Ситуация с data bias данными давно известна. Решение только одно: ВНАЧАЛЕ поставить вопрос, потом собрать репрезентативную выборку. В команде иметь статистика с опытом. Let engineers run experiments and they will screw them up in every way possible.
Данные уже собраны предыдущими поколениями. Что имеем, то и имеем. В общем, как и предполагал, дело дрянь. Поэтому и говорю, что дурят нашего брата этим самым машобучем.
Кстати ещё вопрос интеллектуалам. Допустим, решается задача классификации (с двумя классами для простоты). Предположим, один класс доминирует. Известно (здесь, конечно, надо поставить жирный знак вопроса, т.к. каждый алгоритм надо рассматривать отдельно, но да ладно), что МО плохо работает в такой ситуации. Проводится балансировка любо путём undersampling, или oversampling или гибридной схемой типа смота. Замечательно. А как быть с байесом в таком случае? Допустим, я убрал некоторые данные из доминирующего класса. Но ведь теперь мой оставшийся набор данных нерепрезентивный? Получается, чтобы исправить одну проблему я ввел новую. Конечно, всегда можно сослаться на дальнейшее тестирование, типа крос-валидации. Возможно, введение "весов" в целевую функцию является более подходящим решением, т.к. не затрагивает самих данных.
-
- Уже с Приветом
- Posts: 545
- Joined: 07 Jan 2016 13:04
Re: Крах машиностроения
Разумеется. У котов морды наглые. Это же элементарно.Физик-Лирик wrote: ↑05 Jun 2017 20:23Вопрос. На словах сможете описать, чем визуально кошки от собак отличаются? Старый вопрос. Есть ли ответ?
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Крах машиностроения
Чистый классификатор. Наглые морды против ненаглых.tessob wrote: ↑06 Jun 2017 14:00Разумеется. У котов морды наглые. Это же элементарно.Физик-Лирик wrote: ↑05 Jun 2017 20:23Вопрос. На словах сможете описать, чем визуально кошки от собак отличаются? Старый вопрос. Есть ли ответ?