Machine Learning again

Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

DropAndDrag wrote:
Сабина wrote:Кстати - вот мой самый любимый machine learning example :)
Все работает на AWS Kinesis ( альтернатива Kafke)
Компания Sushiro - use case is described in video - https://www.youtube.com/watch?v=lkRoQlh ... 121.052322" onclick="window.open(this.href);return false;

Суть в том что они помещают sensor на каждую sushi тарелку and keep track of what was on plate, when plate was taken off the carousel, etc etc.
В обшем 100% держат руку на пульсе рынка своего продукта :)

Вот это я понимаю - big data i machine learning
Screen Shot 2016-02-16 at 8.53.12 PM.png
если это БД, то я тогда балерина 8)
пипец, да и только :pain1:
А какая у вас линейка БД или не БД :)? Вот у нас типа тоже фигня - собираем статистику по рекламным компаниям с разных соушал медиа для своих клиентов. И не часто собираем кстати, что то раз в час, что то даже реже. Но количество данных приходится колбасить немалое, в той же Кафке 500 partitions задействованы при сборе. Посчитали на днях throughput для проекта по мигрвции на Kinesis, получилось about a billion of records per month . Причём record - это строго говоря message, может быть json объектом 4-20 KB. Ну и где в не БД компании столько данных умудряются собирать, обрабатывать, анализировать и хранить для online транзакций ?

А тут считывают непрерывно статистику с каждой тарелки во всех ресторанах чейна во все рабочие часы. Конечно БД. И по размеру данных и по throughput
https://www.youtube.com/watch?v=wOwblaKmyVw
DropAndDrag
Уже с Приветом
Posts: 5992
Joined: 11 Mar 2011 05:36

Re: Machine Learning again

Post by DropAndDrag »

да нету у меня никакой БД и в примере с тарелками она не особо то и нужна.
вышла тарелка на конвейер, отследили, что ее взяли. реально какая информация может быть интересна с этой тарелки?
1. сколько одинаковы блюд бегает по конвейеру - БД не нужна
2. сколько каждая тарелка бегает и если старая, то пора в помойку - БД не нужна
3. приготовит счет для клиента - БД не нужна
4. сколько продали каждых блюд и может быть с какой частотой за год, ну другой - информации практически 0.

приведите еще информацию, которая может понадобиться.

и вообще ну что такое биллион records per month - это большой throughput?
а вот давайте-ка я другой пример приведу. 400 датчиков, каждый выдает 2 сигнала по 400 floats с частотой 60 HZ. Понятно что ни один сигнал не должен потерятся, кроме того строго в промежутках между измерениями делаются простецские операции. Все сигналы обрабатываются и в случае чего выключается система - ибо может жахнуть хорошо :umnik1: а для восстановления будет нужна куча бабла, длительное время ожидания из-за высокой радиации, что тоже в итоге выливается в бабло ... Средние значения записываются все, а иной раз и весь сигнал. А теперь приделайте свою БеДу :wink: (я потом напишу сколько и как использовались компьютеры)
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

DropAndDrag wrote:да нету у меня никакой БД и в примере с тарелками она не особо то и нужна.
вышла тарелка на конвейер, отследили, что ее взяли. реально какая информация может быть интересна с этой тарелки?
1. сколько одинаковы блюд бегает по конвейеру - БД не нужна
2. сколько каждая тарелка бегает и если старая, то пора в помойку - БД не нужна
3. приготовит счет для клиента - БД не нужна
4. сколько продали каждых блюд и может быть с какой частотой за год, ну другой - информации практически 0.

приведите еще информацию, которая может понадобиться.

и вообще ну что такое биллион records per month - это большой throughput?
а вот давайте-ка я другой пример приведу. 400 датчиков, каждый выдает 2 сигнала по 400 floats с частотой 60 HZ. Понятно что ни один сигнал не должен потерятся, кроме того строго в промежутках между измерениями делаются простецские операции. Все сигналы обрабатываются и в случае чего выключается система - ибо может жахнуть хорошо :umnik1: а для восстановления будет нужна куча бабла, длительное время ожидания из-за высокой радиации, что тоже в итоге выливается в бабло ... Средние значения записываются все, а иной раз и весь сигнал. А теперь приделайте свою БеДу :wink: (я потом напишу сколько и как использовались компьютеры)
Бигдата дата меряется цифрами и очень конкретно - в bytes and bytes per second. Ваш пример сдатчиками не содержит этой информации потому что издаваемый ими сигнал должен регистрироваться какой то системой, а про неё ничегошеньки неизвестно, наверное есть вебсокеты, а вот например как записываются показания ? Timestamp-value ? Куда? В логи ? Потом куда? Сколько основная data pipeline компонента пропускает в секунду и все такое прочее. А дальше тарелки это или датчики или веб запросы или хня малиновая - не так уж и важно :)

У нас у платформеной компоненты billion records per month и 5000 messages (2-5 bytes each on average) per second в пик нагрузки. Думаю у "умной ленты" с тарелками запросто может быть больше
https://www.youtube.com/watch?v=wOwblaKmyVw
DropAndDrag
Уже с Приветом
Posts: 5992
Joined: 11 Mar 2011 05:36

Re: Machine Learning again

Post by DropAndDrag »

мы вроде бы начинали, что бывают 5 минутные интервалы, когда стоимость электричества подскакивает. надеюсь понятно, никого не волнует ни 5 минутная задержка, да и минутная расхлябанность тоже. надо ведь говорить о slope ;-)

если уж говорить про биг дата, то эксперимент Алиса - это классический пример!
платформенная компонента (не знаю, что это такое) с 5000 message per second - это какое-то недоразумение - это около 1% от 1 Gbps сети ... я не ошибся :wink:
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Machine Learning again

Post by Deckel »

Снежная Королева wrote:Я копаю в ширину, Extreme Value Theory, special stochastic processes. Из практического хочу освоить shiny и делать dashboards в виде web apps, а то весь front end в Excel, я его ненавижу.
Extreme Value Theory - как на этом деньги зарабатывать, есть уже конкретные применения так чтобы каждый месяц денюжка капала?
special stochastic processes - гугл такого не знает, это что за зверь?
Shiny это конечно data exploration а не machine learning. Таких еще куча - Qlikview, Tableau. Я работаю с Qlikview, туда реально миллиард строк загрузить.
User avatar
flip_flop
Уже с Приветом
Posts: 4375
Joined: 20 Jun 2001 09:01

Re: Machine Learning again

Post by flip_flop »

Случайно наткнулся, может кому понадобится best of unpublished machine learning and statistics books
User avatar
35ED
Posts: 14
Joined: 11 Apr 2015 04:30
Location: Ufa->Chicago->Pasadena

Re: Machine Learning again

Post by 35ED »

Extreme Value, Weibull,Gumbel and similar long-tail distribution это все достаточно старые вещи. И point processes подавно. Интерсно может быть методы разработанные уже после 90х.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

35ED wrote:Extreme Value, Weibull,Gumbel and similar long-tail distribution это все достаточно старые вещи. И point processes подавно. Интерсно может быть методы разработанные уже после 90х.
Из последнего я думаю бустинг, дип лернинг, кернел методы.
User avatar
Kolbasoff
Уже с Приветом
Posts: 3481
Joined: 02 Jan 2005 22:10

Re: Machine Learning again

Post by Kolbasoff »

А как звучат типичные бизнес-задачи, где используется биг-дата стэк и машинное обучение?
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Machine Learning again

Post by Deckel »

Kolbasoff wrote:А как звучат типичные бизнес-задачи, где используется биг-дата стэк и машинное обучение?
Fraud Protection
Crosselling
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

Deckel wrote:
Kolbasoff wrote:А как звучат типичные бизнес-задачи, где используется биг-дата стэк и машинное обучение?
Fraud Protection
Crosselling
Я думаю, что любые бизнес-задачи. Рекомендации, например. Всякого рода счета, риски, онлайн коммерция (и не только), всякие страховки, медицина, финансы.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

Kolbasoff wrote:А как звучат типичные бизнес-задачи, где используется биг-дата стэк и машинное обучение?
Самый простой способ выяснить - это пойти на сайт работ и набрать ключевое слово "машинное обучение". Выпадет куча позиций. Посмотрите по описаниям и индустриям. Все, что я упомянул, будет там. На мой взгляд, сейчас быстро расцветают стартапы, особенно в Кали, где машинное обучение хотят поставить на поток.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

DropAndDrag wrote:мы вроде бы начинали, что бывают 5 минутные интервалы, когда стоимость электричества подскакивает. надеюсь понятно, никого не волнует ни 5 минутная задержка, да и минутная расхлябанность тоже. надо ведь говорить о slope ;-)

если уж говорить про биг дата, то эксперимент Алиса - это классический пример!
платформенная компонента (не знаю, что это такое) с 5000 message per second - это какое-то недоразумение - это около 1% от 1 Gbps сети ... я не ошибся :wink:
У вас имеет место быть непонимание термина Big data . Очень советую почитать на эту тему, это очень давно уже весьма конкретное понятие и это необязятально "скорость света" или Gbps сети. Я уже вам дала подсказку - обьем и скорость (bytes per second). А одни мой знакомый описал это кратко так "когда одна машина уже не может, а много еще не умеют данные из не-Big становятся Big"
https://www.youtube.com/watch?v=wOwblaKmyVw
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Machine Learning again

Post by Deckel »

Сабина wrote:
DropAndDrag wrote:мы вроде бы начинали, что бывают 5 минутные интервалы, когда стоимость электричества подскакивает. надеюсь понятно, никого не волнует ни 5 минутная задержка, да и минутная расхлябанность тоже. надо ведь говорить о slope ;-)

если уж говорить про биг дата, то эксперимент Алиса - это классический пример!
платформенная компонента (не знаю, что это такое) с 5000 message per second - это какое-то недоразумение - это около 1% от 1 Gbps сети ... я не ошибся :wink:
У вас имеет место быть непонимание термина Big data . Очень советую почитать на эту тему, это очень давно уже весьма конкретное понятие и это необязятально "скорость света" или Gbps сети. Я уже вам дала подсказку - обьем и скорость (bytes per second). А одни мой знакомый описал это кратко так "когда одна машина уже не может, а много еще не умеют данные из не-Big становятся Big"
хорошее определение. deep :-)
User avatar
Rumba
Уже с Приветом
Posts: 1211
Joined: 12 Mar 2006 08:49

Re: Machine Learning again

Post by Rumba »

Kolbasoff wrote:А как звучат типичные бизнес-задачи, где используется биг-дата стэк и машинное обучение?
https://www.kaggle.com" onclick="window.open(this.href);return false;
вот интересныи саит для желающих поиграться с реальными примерами
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Machine Learning again

Post by Deckel »

Rumba wrote:
Kolbasoff wrote:А как звучат типичные бизнес-задачи, где используется биг-дата стэк и машинное обучение?
https://www.kaggle.com" onclick="window.open(this.href);return false;
вот интересныи саит для желающих поиграться с реальными примерами
Это не биг дата :-)
User avatar
Rumba
Уже с Приветом
Posts: 1211
Joined: 12 Mar 2006 08:49

Re: Machine Learning again

Post by Rumba »

Deckel wrote:
Rumba wrote:
Kolbasoff wrote:А как звучат типичные бизнес-задачи, где используется биг-дата стэк и машинное обучение?
https://www.kaggle.com" onclick="window.open(this.href);return false;
вот интересныи саит для желающих поиграться с реальными примерами
Это не биг дата :-)
про машинное обучение автором вопроса тоже спрашивалось :-)
User avatar
fruit6
Уже с Приветом
Posts: 4205
Joined: 10 Jan 2004 01:22
Location: n-sk -> MD -> VA

Re: RE: Re: Machine Learning again

Post by fruit6 »

Deckel wrote: хорошее определение. deep :-)
Ага! Big Data - то что не помещается в кластер.
DropAndDrag
Уже с Приветом
Posts: 5992
Joined: 11 Mar 2011 05:36

Re: RE: Re: Machine Learning again

Post by DropAndDrag »

fruit6 wrote:
Deckel wrote: хорошее определение. deep :-)
Ага! Big Data - то что не помещается в кластер.
приколоться и не жить :ROFL:
послушаешь биг дата people - биг дата это ВСЕ вокруг. когда спрашиваешь - а на х*я, то начинается такое :ROFL: :ROFL: :ROFL:
когда система не вмещается в один компьютер, то это distributed. и это понятие устойчивое уже полвека. ну ладно лично не буду за полвека отвечать, но лет 35+ (помню попалась мне классная конференция от 1987 года, а потом уже перестали печатать) - это точняк! для самых пре самых биг датаистов вот тут https://en.wikipedia.org/wiki/Distributed_computing.
реально бывало сложно растащить сложную систему на 2 и больше компьютеров, как и то что до сих нету единственного, ладно двух или трех устоявшихся протоколов для всего и всех (понятно, что я не про UDP и TCP уровень). когда компьютеры еще распиханы по топологии, скажем от одного до другого сотня метров, то это создает дополнительные прелести.
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: RE: Re: Machine Learning again

Post by Deckel »

fruit6 wrote:
Deckel wrote: хорошее определение. deep :-)
Ага! Big Data - то что не помещается в кластер.
нет, даже наоборот.
User avatar
fruit6
Уже с Приветом
Posts: 4205
Joined: 10 Jan 2004 01:22
Location: n-sk -> MD -> VA

Re: RE: Re: RE: Re: Machine Learning again

Post by fruit6 »

Deckel wrote:
fruit6 wrote:
Deckel wrote: хорошее определение. deep :-)
Ага! Big Data - то что не помещается в кластер.
нет, даже наоборот.
Девушка написала что не помещается. Она наверняка спец по биг дате.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

fruit6 wrote:
Deckel wrote:
fruit6 wrote:
Deckel wrote: хорошее определение. deep :-)
Ага! Big Data - то что не помещается в кластер.
нет, даже наоборот.
Девушка написала что не помещается. Она наверняка спец по биг дате.
Если Биг Дейта не умещаются в кластер, то это называется очень большие Биг Дейта. :D
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

один другого занятнее :). Где это я написала что не помещается ? Я написала много машин еще не справляются. Причем привела цитату которую вы вывернули как вам хотелось. Имелось в виду что само понятие Big data возникло потому что даже имеющееся на тот момент программное обеспечение для дистрибутивных систем не могло справится с обработкой. Оттого и появились HDFS , хадупы, а дальше спарки и иже с ними. Это только потом набежали драг'н'дропы которым Big Data недостаточно биг если это не гигабитные сети и прочие экстримы
https://www.youtube.com/watch?v=wOwblaKmyVw
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

Спец не спец, а учу матчасть, не игнорирую историю и люблю четкие определения:
"Big data is data sets so large or complex that traditional data processing applications are inadequate. Challenges include analysis, capture, data curation, search, sharing, storage, transfer, visualization, querying and information privacy.".

PS. Хинт для невнимательных - обратите внимание на слово традиционные. То есть если ваша система ваши данные по вашим requirements традиционными средствами не может больше процессить и вы перешли на HDFS, хадуп, спарк - ваши data big, можете не сомневаться
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
fruit6
Уже с Приветом
Posts: 4205
Joined: 10 Jan 2004 01:22
Location: n-sk -> MD -> VA

Re: Machine Learning again

Post by fruit6 »

а если, скажем, я перешел на "HDFS, хадуп, спарк", но данных не залил, это все равно Big Data?

и чтобы два раза не вставать, скрам-мастеров нужно больше или меньше для Big Data?

Return to “Работа и Карьера в IT”