Сабина wrote: ↑19 Feb 2018 22:49Ого! Вот это вы меня озадачили ! Точнее сказать "подзадорили". Это что при всей популярности этого дела в наши дни развестистые Machine Learning так и не могут даже толком сделать хорошую аппроксимацию ? Или это именно с sales такая петрушка ?
Хотя может я вас не совсем хорошо поняла ?
Ну как вам сказать, всякие SAP, SPSS, Rapid Mainer существуют значительно дольше, чем длится текущий хайп машинного обучения. Практически все кроме сверточных сетей и градиентного бустинга было опробовано еще 10-15 лет назад. Сами алгоритмы не новые, просто многие о них только недавно впервые узнали. Кроме того, если вы заметили, то хайп хайпят сами дата сайнтисты, а не представители реального бизнеса. На практике проблема в том, что данные просто не содержат сигнала, и там уже на какой объем данных ноль не умножай... Короче говоря, текущий хайп основан на вере в то, что это может заработать, а не на том, что это где-то заработало.
В случае сбыта куча своих нюансов. Если вы не кока-кола, то ассортиментные позиции в вашей линейка живут очень непродолжительное количество времени, а кроме того возникают акции и распродажи, меняется широта и/или глубина ассортимента и прочее, и прочее. Если же вы кока-кола, то у всех ваших клиентов есть либо дополнительная паллета на складе, чтоб дозабить холодильник, либо дежурный грузовичек с 10-12 паллет на борту, и вам машинное обучение вообще погоды не делает.
Сабина wrote: ↑19 Feb 2018 22:49Где именно можно " взять модель, которая хорошо экстраполирует данные" ? Что есть "перепроизводство и недопроизводство" в данном случае ?
Модели можно взять в любых библиотеках. При выборе моделей важным может оказаться знание того на сколько хорошо модели экстраполируют и интерполируют данные. Например линейная регрессия будет одинаково посредственно и интерполировать и экстраполировать. Случайный лес будет очень хорошо интерполировать данные, но хреново экстраполировать. Если вы понимаете плюсы и минусы разных моделей, то вы можете построить свой ансамбль, чтоб скомпенсировать недостатки различных алгоритмов.
Перепроизводство и недопроизводство - это суть ошибки первого и второго рода. Только для того, чтоб идти к бизнесу и показывать модель, вам нужно идти с результатом выраженным в деньгах, а не в неких ROC/AUC/R^2.