Machine Learning again

Сабина · Post by **Сабина** » 24 Feb 2016 03:53

DropAndDrag wrote:
Сабина wrote:Кстати - вот мой самый любимый machine learning example
Все работает на AWS Kinesis ( альтернатива Kafke)
Компания Sushiro - use case is described in video - https://www.youtube.com/watch?v=lkRoQlh ... 121.052322" onclick="window.open(this.href);return false;

Суть в том что они помещают sensor на каждую sushi тарелку and keep track of what was on plate, when plate was taken off the carousel, etc etc.
В обшем 100% держат руку на пульсе рынка своего продукта

Вот это я понимаю - big data i machine learning

Screen Shot 2016-02-16 at 8.53.12 PM.png
если это БД, то я тогда балерина
пипец, да и только

А какая у вас линейка БД или не БД

? Вот у нас типа тоже фигня - собираем статистику по рекламным компаниям с разных соушал медиа для своих клиентов. И не часто собираем кстати, что то раз в час, что то даже реже. Но количество данных приходится колбасить немалое, в той же Кафке 500 partitions задействованы при сборе. Посчитали на днях throughput для проекта по мигрвции на Kinesis, получилось about a billion of records per month . Причём record - это строго говоря message, может быть json объектом 4-20 KB. Ну и где в не БД компании столько данных умудряются собирать, обрабатывать, анализировать и хранить для online транзакций ?

А тут считывают непрерывно статистику с каждой тарелки во всех ресторанах чейна во все рабочие часы. Конечно БД. И по размеру данных и по throughput

DropAndDrag · Post by **DropAndDrag** » 24 Feb 2016 07:01

да нету у меня никакой БД и в примере с тарелками она не особо то и нужна.
вышла тарелка на конвейер, отследили, что ее взяли. реально какая информация может быть интересна с этой тарелки?
1. сколько одинаковы блюд бегает по конвейеру - БД не нужна
2. сколько каждая тарелка бегает и если старая, то пора в помойку - БД не нужна
3. приготовит счет для клиента - БД не нужна
4. сколько продали каждых блюд и может быть с какой частотой за год, ну другой - информации практически 0.

приведите еще информацию, которая может понадобиться.

и вообще ну что такое биллион records per month - это большой throughput?
а вот давайте-ка я другой пример приведу. 400 датчиков, каждый выдает 2 сигнала по 400 floats с частотой 60 HZ. Понятно что ни один сигнал не должен потерятся, кроме того строго в промежутках между измерениями делаются простецские операции. Все сигналы обрабатываются и в случае чего выключается система - ибо может жахнуть хорошо

а для восстановления будет нужна куча бабла, длительное время ожидания из-за высокой радиации, что тоже в итоге выливается в бабло ... Средние значения записываются все, а иной раз и весь сигнал. А теперь приделайте свою БеДу

(я потом напишу сколько и как использовались компьютеры)

Сабина · Post by **Сабина** » 24 Feb 2016 17:20

DropAndDrag wrote:да нету у меня никакой БД и в примере с тарелками она не особо то и нужна.
вышла тарелка на конвейер, отследили, что ее взяли. реально какая информация может быть интересна с этой тарелки?
1. сколько одинаковы блюд бегает по конвейеру - БД не нужна
2. сколько каждая тарелка бегает и если старая, то пора в помойку - БД не нужна
3. приготовит счет для клиента - БД не нужна
4. сколько продали каждых блюд и может быть с какой частотой за год, ну другой - информации практически 0.

приведите еще информацию, которая может понадобиться.

и вообще ну что такое биллион records per month - это большой throughput?
а вот давайте-ка я другой пример приведу. 400 датчиков, каждый выдает 2 сигнала по 400 floats с частотой 60 HZ. Понятно что ни один сигнал не должен потерятся, кроме того строго в промежутках между измерениями делаются простецские операции. Все сигналы обрабатываются и в случае чего выключается система - ибо может жахнуть хорошо а для восстановления будет нужна куча бабла, длительное время ожидания из-за высокой радиации, что тоже в итоге выливается в бабло ... Средние значения записываются все, а иной раз и весь сигнал. А теперь приделайте свою БеДу (я потом напишу сколько и как использовались компьютеры)

Бигдата дата меряется цифрами и очень конкретно - в bytes and bytes per second. Ваш пример сдатчиками не содержит этой информации потому что издаваемый ими сигнал должен регистрироваться какой то системой, а про неё ничегошеньки неизвестно, наверное есть вебсокеты, а вот например как записываются показания ? Timestamp-value ? Куда? В логи ? Потом куда? Сколько основная data pipeline компонента пропускает в секунду и все такое прочее. А дальше тарелки это или датчики или веб запросы или хня малиновая - не так уж и важно

У нас у платформеной компоненты billion records per month и 5000 messages (2-5 bytes each on average) per second в пик нагрузки. Думаю у "умной ленты" с тарелками запросто может быть больше

DropAndDrag · Post by **DropAndDrag** » 25 Feb 2016 04:35

мы вроде бы начинали, что бывают 5 минутные интервалы, когда стоимость электричества подскакивает. надеюсь понятно, никого не волнует ни 5 минутная задержка, да и минутная расхлябанность тоже. надо ведь говорить о slope

если уж говорить про биг дата, то эксперимент Алиса - это классический пример!
платформенная компонента (не знаю, что это такое) с 5000 message per second - это какое-то недоразумение - это около 1% от 1 Gbps сети ... я не ошибся

Deckel · Post by **Deckel** » 25 Feb 2016 11:44

Снежная Королева wrote:Я копаю в ширину, Extreme Value Theory, special stochastic processes. Из практического хочу освоить shiny и делать dashboards в виде web apps, а то весь front end в Excel, я его ненавижу.

Extreme Value Theory - как на этом деньги зарабатывать, есть уже конкретные применения так чтобы каждый месяц денюжка капала?
special stochastic processes - гугл такого не знает, это что за зверь?
Shiny это конечно data exploration а не machine learning. Таких еще куча - Qlikview, Tableau. Я работаю с Qlikview, туда реально миллиард строк загрузить.

flip_flop · Post by **flip_flop** » 28 Feb 2016 04:34

Случайно наткнулся, может кому понадобится best of unpublished machine learning and statistics books

35ED · Post by **35ED** » 28 Feb 2016 05:48

Extreme Value, Weibull,Gumbel and similar long-tail distribution это все достаточно старые вещи. И point processes подавно. Интерсно может быть методы разработанные уже после 90х.

Физик-Лирик · Post by **Физик-Лирик** » 28 Feb 2016 16:14

35ED wrote:Extreme Value, Weibull,Gumbel and similar long-tail distribution это все достаточно старые вещи. И point processes подавно. Интерсно может быть методы разработанные уже после 90х.

Из последнего я думаю бустинг, дип лернинг, кернел методы.

Kolbasoff · Post by **Kolbasoff** » 28 Feb 2016 16:38

А как звучат типичные бизнес-задачи, где используется биг-дата стэк и машинное обучение?

Deckel · Post by **Deckel** » 28 Feb 2016 16:58

Kolbasoff wrote:А как звучат типичные бизнес-задачи, где используется биг-дата стэк и машинное обучение?

Fraud Protection
Crosselling

Физик-Лирик · Post by **Физик-Лирик** » 28 Feb 2016 20:04

Deckel wrote:
Kolbasoff wrote:А как звучат типичные бизнес-задачи, где используется биг-дата стэк и машинное обучение?
Fraud Protection
Crosselling

Я думаю, что любые бизнес-задачи. Рекомендации, например. Всякого рода счета, риски, онлайн коммерция (и не только), всякие страховки, медицина, финансы.

Физик-Лирик · Post by **Физик-Лирик** » 28 Feb 2016 20:10

Kolbasoff wrote:А как звучат типичные бизнес-задачи, где используется биг-дата стэк и машинное обучение?

Самый простой способ выяснить - это пойти на сайт работ и набрать ключевое слово "машинное обучение". Выпадет куча позиций. Посмотрите по описаниям и индустриям. Все, что я упомянул, будет там. На мой взгляд, сейчас быстро расцветают стартапы, особенно в Кали, где машинное обучение хотят поставить на поток.

Сабина · Post by **Сабина** » 28 Feb 2016 20:54

DropAndDrag wrote:мы вроде бы начинали, что бывают 5 минутные интервалы, когда стоимость электричества подскакивает. надеюсь понятно, никого не волнует ни 5 минутная задержка, да и минутная расхлябанность тоже. надо ведь говорить о slope

если уж говорить про биг дата, то эксперимент Алиса - это классический пример!
платформенная компонента (не знаю, что это такое) с 5000 message per second - это какое-то недоразумение - это около 1% от 1 Gbps сети ... я не ошибся

У вас имеет место быть непонимание термина Big data . Очень советую почитать на эту тему, это очень давно уже весьма конкретное понятие и это необязятально "скорость света" или Gbps сети. Я уже вам дала подсказку - обьем и скорость (bytes per second). А одни мой знакомый описал это кратко так "когда одна машина уже не может, а много еще не умеют данные из не-Big становятся Big"

Deckel · Post by **Deckel** » 28 Feb 2016 21:48

Сабина wrote:
DropAndDrag wrote:мы вроде бы начинали, что бывают 5 минутные интервалы, когда стоимость электричества подскакивает. надеюсь понятно, никого не волнует ни 5 минутная задержка, да и минутная расхлябанность тоже. надо ведь говорить о slope

если уж говорить про биг дата, то эксперимент Алиса - это классический пример!
платформенная компонента (не знаю, что это такое) с 5000 message per second - это какое-то недоразумение - это около 1% от 1 Gbps сети ... я не ошибся
У вас имеет место быть непонимание термина Big data . Очень советую почитать на эту тему, это очень давно уже весьма конкретное понятие и это необязятально "скорость света" или Gbps сети. Я уже вам дала подсказку - обьем и скорость (bytes per second). А одни мой знакомый описал это кратко так "когда одна машина уже не может, а много еще не умеют данные из не-Big становятся Big"

хорошее определение. deep

Rumba · Post by **Rumba** » 29 Feb 2016 00:40

Kolbasoff wrote:А как звучат типичные бизнес-задачи, где используется биг-дата стэк и машинное обучение?

https://www.kaggle.com" onclick="window.open(this.href);return false;
вот интересныи саит для желающих поиграться с реальными примерами

Deckel · Post by **Deckel** » 29 Feb 2016 00:44

Rumba wrote:
Kolbasoff wrote:А как звучат типичные бизнес-задачи, где используется биг-дата стэк и машинное обучение?
https://www.kaggle.com" onclick="window.open(this.href);return false;
вот интересныи саит для желающих поиграться с реальными примерами

Это не биг дата

Rumba · Post by **Rumba** » 29 Feb 2016 00:48

Deckel wrote:
Rumba wrote:
Kolbasoff wrote:А как звучат типичные бизнес-задачи, где используется биг-дата стэк и машинное обучение?
https://www.kaggle.com" onclick="window.open(this.href);return false;
вот интересныи саит для желающих поиграться с реальными примерами
Это не биг дата

про машинное обучение автором вопроса тоже спрашивалось

fruit6 · Post by **fruit6** » 29 Feb 2016 01:46

Deckel wrote: хорошее определение. deep

Ага! Big Data - то что не помещается в кластер.

DropAndDrag · Post by **DropAndDrag** » 29 Feb 2016 02:09

fruit6 wrote:
Deckel wrote: хорошее определение. deep
Ага! Big Data - то что не помещается в кластер.

приколоться и не жить

послушаешь биг дата people - биг дата это ВСЕ вокруг. когда спрашиваешь - а на х*я, то начинается такое

когда система не вмещается в один компьютер, то это distributed. и это понятие устойчивое уже полвека. ну ладно лично не буду за полвека отвечать, но лет 35+ (помню попалась мне классная конференция от 1987 года, а потом уже перестали печатать) - это точняк! для самых пре самых биг датаистов вот тут https://en.wikipedia.org/wiki/Distributed_computing.
реально бывало сложно растащить сложную систему на 2 и больше компьютеров, как и то что до сих нету единственного, ладно двух или трех устоявшихся протоколов для всего и всех (понятно, что я не про UDP и TCP уровень). когда компьютеры еще распиханы по топологии, скажем от одного до другого сотня метров, то это создает дополнительные прелести.

Deckel · Post by **Deckel** » 29 Feb 2016 02:22

fruit6 wrote:
Deckel wrote: хорошее определение. deep
Ага! Big Data - то что не помещается в кластер.

нет, даже наоборот.

fruit6 · Post by **fruit6** » 29 Feb 2016 02:44

Deckel wrote:
fruit6 wrote:
Deckel wrote: хорошее определение. deep
Ага! Big Data - то что не помещается в кластер.
нет, даже наоборот.

Девушка написала что не помещается. Она наверняка спец по биг дате.

Физик-Лирик · Post by **Физик-Лирик** » 29 Feb 2016 17:22

fruit6 wrote:
Deckel wrote:
fruit6 wrote:
Deckel wrote: хорошее определение. deep
Ага! Big Data - то что не помещается в кластер.
нет, даже наоборот.
Девушка написала что не помещается. Она наверняка спец по биг дате.

Если Биг Дейта не умещаются в кластер, то это называется очень большие Биг Дейта.

Сабина · Post by **Сабина** » 29 Feb 2016 17:29

один другого занятнее

. Где это я написала что не помещается ? Я написала много машин еще не справляются. Причем привела цитату которую вы вывернули как вам хотелось. Имелось в виду что само понятие Big data возникло потому что даже имеющееся на тот момент программное обеспечение для дистрибутивных систем не могло справится с обработкой. Оттого и появились HDFS , хадупы, а дальше спарки и иже с ними. Это только потом набежали драг'н'дропы которым Big Data недостаточно биг если это не гигабитные сети и прочие экстримы

Сабина · Post by **Сабина** » 29 Feb 2016 17:38

Спец не спец, а учу матчасть, не игнорирую историю и люблю четкие определения:
"Big data is data sets so large or complex that traditional data processing applications are inadequate. Challenges include analysis, capture, data curation, search, sharing, storage, transfer, visualization, querying and information privacy.".

PS. Хинт для невнимательных - обратите внимание на слово традиционные. То есть если ваша система ваши данные по вашим requirements традиционными средствами не может больше процессить и вы перешли на HDFS, хадуп, спарк - ваши data big, можете не сомневаться

fruit6 · Post by **fruit6** » 29 Feb 2016 18:45

а если, скажем, я перешел на "HDFS, хадуп, спарк", но данных не залил, это все равно Big Data?

и чтобы два раза не вставать, скрам-мастеров нужно больше или меньше для Big Data?

Привет

Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: RE: Re: Machine Learning again

Re: RE: Re: Machine Learning again

Re: RE: Re: Machine Learning again

Re: RE: Re: RE: Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again