Я так и не понял, как это все использовать...

User avatar
perasperaadastra
Уже с Приветом
Posts: 20128
Joined: 21 Feb 2009 22:55
Location: Лох Онтарио

Я так и не понял, как это все использовать...

Post by perasperaadastra »

Взял на корсере курс введения в Большие Данные. У меня интерес в этом исключительно с точки зрения бизнеса. В курсе рассказали, какой хороший Hadoop, и как важно понимать, что такое Большие Данные. Забыли рассказать только одну вещь: а как это все использовать? :D

Ладно, я хоть бесплатно взял этот курс. А кто-то ведь заплатил! Честно говоря, на википедии статья и то больше полезной информации содержит. В связи с этим вопрос к тем, кто понимает Большие Данные. Вот, допустим, я VP стратегии в какой-нибудь компании, и мне нужно придумать, как увеличить продажи и уменьшить расходы. Я снимаю трубку циско-фона и набираю номер отдела, где работают Ученые Данных. Что мне у них спрашивать? Мне в общем-то все равно, что у них там кластеры и Hadoop с mapreduce. Мне важно только две вещи: чтобы они знали, как собрать нужную информацию, и чтобы они могли ее проанализировать на предмет корреляций.
User avatar
shokoladnitsaa
Уже с Приветом
Posts: 7935
Joined: 08 Oct 2008 01:02
Location: usa

Re: Я так и не понял, как это все использовать...

Post by shokoladnitsaa »

А для этого разве обязательны товариши учёные , сведушие в Big Data?
viewbelle
Уже с Приветом
Posts: 558
Joined: 11 Aug 2015 00:57

Re: Я так и не понял, как это все использовать...

Post by viewbelle »

Менеджер поднимает трубку, а вы ему: "Вася, донеси до своих мысль, что кто придумает способ увеличения продаж на 1%, тому промоушн, а кто не придумает ничего - тому розовый листок". Они дальше сами все сделают и вам объяснят, недаром пхд получали.
User avatar
geek7
Уже с Приветом
Posts: 20297
Joined: 01 Dec 2003 23:16
Location: Russia->USA

Re: Я так и не понял, как это все использовать...

Post by geek7 »

perasperaadastra wrote: Мне важно только две вещи:
1.чтобы они знали, как собрать нужную информацию, и
2.чтобы они могли ее проанализировать на предмет корреляций.
я это понимаю так
1. все что генерит пользователь надо хранить с маниакальностью плюшкина. место становится все дешевле, а информация все полезней такчто в длительной перспективе точно не прогадать
тут кроме мапредюса помогают всякие стрим (типа кинесис у AWS)
так прикарманиваются все данные без разбора дабы потом как придет светлая идея деланья на них денег (проанализировать на предмет корреляций) хадупом и добывать
2. если идеи уже есть и данные по чему-то уже корелируются, то не обязательно хадуп будет для этого лучшим решением.. можно стримать сразу во что-нибудь более структуированное - есть и релейшенал биг дата Redshift\Greenplum есть всякие кей-велью dynamodb и прочие mongodb гибриды OrientDB
короче для кучи спецефичных требований можно найти спецефичное решение
чтобы получить впечатление о зоопарке - глянте на
http://kkovacs.eu/cassandra-vs-mongodb- ... b-vs-redis" onclick="window.open(this.href);return false;
- описаны специфика и область применения 10-ка
для полной картины (не только биг дата)
http://db-engines.com/en/ranking_categories" onclick="window.open(this.href);return false;
http://db-engines.com/en/ranking" onclick="window.open(this.href);return false;
Говори что думаешь, думай что говоришь!
Маразм крепчал и скрепы гнулись
mskmel
Уже с Приветом
Posts: 946
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: Я так и не понял, как это все использовать...

Post by mskmel »

perasperaadastra wrote:Вот, допустим, я VP стратегии в какой-нибудь компании, и мне нужно придумать, как увеличить продажи и уменьшить расходы. Я снимаю трубку циско-фона и набираю номер отдела, где работают Ученые Данных. Что мне у них спрашивать?
Сразу просить поменять Оракл на МонгоДБ\эластиксёрч, это модно ща.
iDesperado
Уже с Приветом
Posts: 1349
Joined: 28 Nov 2008 17:50

Re: Я так и не понял, как это все использовать...

Post by iDesperado »

perasperaadastra wrote: Мне важно только две вещи: чтобы они знали, как собрать нужную информацию, и чтобы они могли ее проанализировать на предмет корреляций.
hadoop не хранит данные, hadoop хранит мусор. ученым надо ставить задачу найти способ вытащить из этого мусора хоть что-то полезное. у нас пока это задача не решена, хотя уже 2 года пытаются построить прототип для замены DWH и аналитки на оракле. пока результат -мусор вместо данных и необходимость хранить копию всех данных для импалы
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Я так и не понял, как это все использовать...

Post by Deckel »

Hadoop хорош в дополнение, а не в заместо. Туда надо складывать все, на что у модельеров данных времени не было создать схему для реляционной базы данных или просто не влезает, или пока не понятно как использовать.
Ну, или если вы какой-нибудь продукт на основе хадупа забабахали - т.е. он не для анализа используется, а как основное производтвенное средство. Но тогда не нам вам рассказывать, что и как.

Вообще БигДата это как секс у подростков, мало у кого он есть, но все обсуждают.
Devops Borat: I am final understand NoSQL: is 1 value for 1 key, is scale infinite. I am have only 1 question: how I do join? :lol:
User avatar
geek7
Уже с Приветом
Posts: 20297
Joined: 01 Dec 2003 23:16
Location: Russia->USA

Re: Я так и не понял, как это все использовать...

Post by geek7 »

Deckel wrote:Hadoop хорош в дополнение, а не в заместо. Туда надо складывать все, на что у модельеров данных времени не было создать схему для реляционной базы данных или просто не влезает, или пока не понятно как использовать.
Когда "просто не влезает" но данные реляцеонные есть варианты гораздо ближе к идиалу
те-же Redshift\Greenplum которые я приводил - это шардинг+постгрес = не то чтобы RDBMS но и не аморфная помойка
Говори что думаешь, думай что говоришь!
Маразм крепчал и скрепы гнулись
User avatar
stenking
Уже с Приветом
Posts: 14455
Joined: 26 May 2006 02:39

Re: Я так и не понял, как это все использовать...

Post by stenking »

perasperaadastra wrote:Я снимаю трубку циско-фона и набираю номер отдела, где работают Ученые Данных. Что мне у них спрашивать? Мне в общем-то все равно, что у них там кластеры и Hadoop с mapreduce. Мне важно только две вещи: чтобы они знали, как собрать нужную информацию, и чтобы они могли ее проанализировать на предмет корреляций.

Ну да. Традиционно данные делились на важные и неважные. Например форум не хранит таймстемпы и локейшины всех юзер логинов вместе с просмотром постов. Потому что это это считалось мусором да и занимает немало места. Но сегодня есть теория что это конкурентное преимущество и если его проанализировать ( например классифицировать посты ) то можно определять всякие хитрые взаимосвязи - например что значительная часть москвичей являются латентными гомосексуалистами так как очень активно обсуждают посты про геев :)

Соответственно это дату можно использовать - например Айсбергу показать рекламу гей клаба, вам новый телескоп а Комми спамить форекложерами в КА.
Бога нет.
Palych
Уже с Приветом
Posts: 13682
Joined: 16 Jan 2001 10:01

Re: Я так и не понял, как это все использовать...

Post by Palych »

А как правильно охранять большие данные?
В структурированных базах пожно определить: этому даём, тому не даём в зависимости что просит. Понятное дело ошибёмся, но тут можно опереться на исследования, опыт старших...
А если кто-то хочет покопаться в мусоре?
Или порядочным людям нечего скрывать?
User avatar
Komissar
Уже с Приветом
Posts: 64875
Joined: 12 Jul 2002 16:38
Location: г.Москва, ул. Б. Лубянка, д.2

Re: Я так и не понял, как это все использовать...

Post by Komissar »

geek7 wrote: место становится все дешевле, а информация все полезней
с первым согласен, а откуда дровишки, что инфа все полезней?
User avatar
Komissar
Уже с Приветом
Posts: 64875
Joined: 12 Jul 2002 16:38
Location: г.Москва, ул. Б. Лубянка, д.2

Re: Я так и не понял, как это все использовать...

Post by Komissar »

stenking wrote: Соответственно это дату можно использовать - например Айсбергу показать рекламу гей клаба, вам новый телескоп а Комми спамить форекложерами в КА.
И сколько форекложеров должен скупить Комми, чтобы окупить всю эту братию со 150К+ окладами, кто данные проанализировал?
User avatar
Komissar
Уже с Приветом
Posts: 64875
Joined: 12 Jul 2002 16:38
Location: г.Москва, ул. Б. Лубянка, д.2

Re: Я так и не понял, как это все использовать...

Post by Komissar »

хранить мусор, где потенциально есть золото и алмазы, как раз не трудно. BLOB об'екты давно существуют, знай засасывай файлы. Если слишком долго сосать, просто храни линк к файлу в сторадже. Как-то было дело, манагерил я систему LIMS: данные в лабе считывались с приборов, самые главные данные распарсовывались и распихивались по таблицам, а все raw data ховались в блобы - во-1-х, на случай legal/patent issue, во-2-х "а вдруг" потребуется доп. анализ.

Так вот, очень редко кто хотел дополнительного анализа, а те, кто хотел, обычно требовали очень специфичные действия, типа найди мне измерения прибора ХХХ модели ЫЫЫ, сделанные в декабре 2001 года, с химикатом таким то. Обычно мы сочиняли ad hock SQL, высасывали из ДБ блобы для этих параметров и скидывали их юзверю на файл-шер, со словами "вот файлО, сам разбирайся". Как-то все справлялись.
User avatar
stenking
Уже с Приветом
Posts: 14455
Joined: 26 May 2006 02:39

Re: Я так и не понял, как это все использовать...

Post by stenking »

Komissar wrote:
stenking wrote: Соответственно это дату можно использовать - например Айсбергу показать рекламу гей клаба, вам новый телескоп а Комми спамить форекложерами в КА.
И сколько форекложеров должен скупить Комми, чтобы окупить всю эту братию со 150К+ окладами, кто данные проанализировал?

Нуна щитать.
Xerox used big data to reduce the attrition rate in its call centers by 20%. To do that, it had to understand what was causing the turnover, and determine ways to improve employee engagement....

A recent partnership between The Weather Company and IBM will allow companies to better manage the impact of weather on business performance. According to The Weather Company, weather has an economic impact of half a trillion dollars annually in the US alone.....


Pratt & Whitney, a unit of United Technologies Corp., is attempting to reduce unplanned aircraft engine maintenance. According to AirInsight.com, today's engines collect about 100 parameters in multiple snapshots while a plane is in flight. By comparison, a new-generation engine is able to collect about 5,000 parameters continuously in flight. The process generates about 2 petabytes of data. Using the data, Pratt & Whitney and its partner IBM are trying to enable proactive maintenance....
Бога нет.
User avatar
Komissar
Уже с Приветом
Posts: 64875
Joined: 12 Jul 2002 16:38
Location: г.Москва, ул. Б. Лубянка, д.2

Re: Я так и не понял, как это все использовать...

Post by Komissar »

stenking wrote:
Xerox used big data to reduce the attrition rate in its call centers by 20%. To do that, it had to understand what was causing the turnover, and determine ways to improve employee engagement....
а кто реально считал? Скорее всего, очередной ВП наврал в презентации, "и понеслось".
User avatar
stenking
Уже с Приветом
Posts: 14455
Joined: 26 May 2006 02:39

Re: Я так и не понял, как это все использовать...

Post by stenking »

Komissar wrote:
stenking wrote:
Xerox used big data to reduce the attrition rate in its call centers by 20%. To do that, it had to understand what was causing the turnover, and determine ways to improve employee engagement....
а кто реально считал? Скорее всего, очередной ВП наврал в презентации, "и понеслось".
Может и наврал. Но биг дата этим и отличается от просто датыSQL что она биг :) Т.е. петабайты на которые SQL с джоинами натравить неполучится. И что бы аналитика параллельно в облаке считалась. Ну тут ничего особенного не придумали ( хотя по Твиттеру уже научились социальные конфликты предсказывать ) кроме вот корреляций. Например если связать телефонные звонки в 911 с погодой и пульсом собираемым аппл ватч то может быть можно научится предсказывать heart attacks.
Бога нет.
OtecFedor
Уже с Приветом
Posts: 8378
Joined: 17 Oct 2001 09:01
Location: Уездный город N

Re: Я так и не понял, как это все использовать...

Post by OtecFedor »

perasperaadastra wrote:Взял на корсере курс введения в Большие Данные. У меня интерес в этом исключительно с точки зрения бизнеса. В курсе рассказали, какой хороший Hadoop, и как важно понимать, что такое Большие Данные. Забыли рассказать только одну вещь: а как это все использовать? :D
Ето придумали асоциальные IT нерды которым недоученыи менежмент дает задания по маркетингу. Т.е. вместо того чтобы поговорить с кастомерами и понять чего они хотят, мы скоррелируем частоту посешения туалета с частотои посешения феисбука....

А по сути ничего кроме оптимизации/корреляции которыми пользовался Госплан там нет.
User avatar
geek7
Уже с Приветом
Posts: 20297
Joined: 01 Dec 2003 23:16
Location: Russia->USA

Re: Я так и не понял, как это все использовать...

Post by geek7 »

Komissar wrote:
geek7 wrote: место становится все дешевле, а информация все полезней
с первым согласен, а откуда дровишки, что инфа все полезней?
ну во 1-х %% жизни людей в сети увеличивается. чем больше тем точнее и полнее картина.
2х обработка совершенствуется.. пошли всякие ватсоны картаны. там где сейчас сажают в меканикал турка толпу студентов и пенсионеров завтра можно будет обойтись силиконом
Говори что думаешь, думай что говоришь!
Маразм крепчал и скрепы гнулись
User avatar
geek7
Уже с Приветом
Posts: 20297
Joined: 01 Dec 2003 23:16
Location: Russia->USA

Re: Я так и не понял, как это все использовать...

Post by geek7 »

Komissar wrote: Так вот, очень редко кто хотел дополнительного анализа, а те, кто хотел, обычно требовали очень специфичные действия, типа найди мне измерения прибора ХХХ модели ЫЫЫ, сделанные в декабре 2001 года, с химикатом таким то. Обычно мы сочиняли ad hock SQL, высасывали из ДБ блобы для этих параметров и скидывали их юзверю на файл-шер, со словами "вот файлО, сам разбирайся". Как-то все справлялись.
Так фишка в том что предложение сначала должно минимум появится (узнать о нем и понять на самом деле) а уж там спрос подтягиваеся. В Вашей системе никто бы и не стао простить сделать сравнительный анализ точности\надежности приборов за Н лет
Говори что думаешь, думай что говоришь!
Маразм крепчал и скрепы гнулись
User avatar
perasperaadastra
Уже с Приветом
Posts: 20128
Joined: 21 Feb 2009 22:55
Location: Лох Онтарио

Re: Я так и не понял, как это все использовать...

Post by perasperaadastra »

Спасибо всем за участие в дискуссии! :fr:

У меня появился еще один вопрос. Допустим, компания накопила всевозможные данные за последние 2 года. Про них будет знать главный по ИТ. Но он не будет знать, что в них искать. Зато это будет знать главный по маркетингу. Но он не будет знать, какие данные есть у компании. Конечно, главный по маркетингу может наудачу придти к главному по ИТ и спросить про корреляцию между длиной пальцев и счетом в банке, но таких данных, конечно же, не окажется. А спрашивать про корреляцию между, например, маркой обуви и ценностью покупателя слишком очевидно — такие вещи давно делаются и без всяких Больших Данных. И как быть в такой ситуации? Как соединить ИТ и маркетинг воедино? Хотя, на самом деле, не следует ограничиваться маркетингом — наверняка у главного по производству есть свои вопросы про улучшение эффективности. Как научить всех этих людей общаться между собой? Или же решение проблемы заключается в том, чтобы собрать команду ученых данных, которые будут выдавать произвольную аналитику, и надеятся на то, что в какой-то момент в этой аналитике появится жемчужина?
User avatar
Rumba
Уже с Приветом
Posts: 1211
Joined: 12 Mar 2006 08:49

Re: Я так и не понял, как это все использовать...

Post by Rumba »

perasperaadastra wrote:Спасибо всем за участие в дискуссии! :fr:

У меня появился еще один вопрос. Допустим, компания накопила всевозможные данные за последние 2 года. Про них будет знать главный по ИТ. Но он не будет знать, что в них искать. Зато это будет знать главный по маркетингу. Но он не будет знать, какие данные есть у компании. Конечно, главный по маркетингу может наудачу придти к главному по ИТ и спросить про корреляцию между длиной пальцев и счетом в банке, но таких данных, конечно же, не окажется. А спрашивать про корреляцию между, например, маркой обуви и ценностью покупателя слишком очевидно — такие вещи давно делаются и без всяких Больших Данных. И как быть в такой ситуации? Как соединить ИТ и маркетинг воедино? Хотя, на самом деле, не следует ограничиваться маркетингом — наверняка у главного по производству есть свои вопросы про улучшение эффективности. Как научить всех этих людей общаться между собой? Или же решение проблемы заключается в том, чтобы собрать команду ученых данных, которые будут выдавать произвольную аналитику, и надеятся на то, что в какой-то момент в этой аналитике появится жемчужина?
за несколько лет работы в финансовом консалтинге , мне краине редко встречались варианты где общение между ИТ и операшенс/ маркетингом/ финансами было деиствительно эффективным напрямую, разве что в не-аитишном департменте оказивался кто- то с аитишным/ математическом бэкграундом, в основном в тех компаниях где аналитике уделялось внимание, были переводчики в лице business analysts.
у преподов по биг дата есть поговорка- "data doesn't talk, data respond" , именно в том смысле что идеи/ гипотезы должны исходить со стороны бизнеса, phds работают по заданнои задаче, хотя вполне вероятно они могут в процессе нарыть то о чем бизнес и не подозревал
User avatar
geek7
Уже с Приветом
Posts: 20297
Joined: 01 Dec 2003 23:16
Location: Russia->USA

Re: Я так и не понял, как это все использовать...

Post by geek7 »

perasperaadastra wrote:Спасибо всем за участие в дискуссии! :fr:

У меня появился еще один вопрос. Допустим, компания накопила всевозможные данные за последние 2 года. Про них будет знать главный по ИТ. Но он не будет знать, что в них искать. Зато это будет знать главный по маркетингу. Но он не будет знать, какие данные есть у компании. Конечно, главный по маркетингу может наудачу придти к главному по ИТ и спросить про корреляцию между длиной пальцев и счетом в банке, но таких данных, конечно же, не окажется.
Ну главное правильно поставить задачу - он не знает что за данные, но знает что он хочет
значит вместо найдите мне всех кто ездит на велосипеде без скоростей и фоткает пленочной камерой
нужно сообщить что-то типа: собираемся делать рекламную компанию для хипстеров. о них знаем следующее:
- ореал обитания
- манера одеватся
- ...

а там уже ИТ-шник посмотрит, что можно выжать из данных
Говори что думаешь, думай что говоришь!
Маразм крепчал и скрепы гнулись
iDesperado
Уже с Приветом
Posts: 1349
Joined: 28 Nov 2008 17:50

Re: Я так и не понял, как это все использовать...

Post by iDesperado »

perasperaadastra wrote:Спасибо всем за участие в дискуссии! :fr:

У меня появился еще один вопрос. Допустим, компания накопила всевозможные данные за последние 2 года. Про них будет знать главный по ИТ. Но он не будет знать, что в них искать. Зато это будет знать главный по маркетингу. Но он не будет знать, какие данные есть у компании. Конечно, главный по маркетингу может наудачу придти к главному по ИТ и спросить про корреляцию между длиной пальцев и счетом в банке, но таких данных, конечно же, не окажется. А спрашивать про корреляцию между, например, маркой обуви и ценностью покупателя слишком очевидно — такие вещи давно делаются и без всяких Больших Данных. И как быть в такой ситуации? Как соединить ИТ и маркетинг воедино? Хотя, на самом деле, не следует ограничиваться маркетингом — наверняка у главного по производству есть свои вопросы про улучшение эффективности. Как научить всех этих людей общаться между собой? Или же решение проблемы заключается в том, чтобы собрать команду ученых данных, которые будут выдавать произвольную аналитику, и надеятся на то, что в какой-то момент в этой аналитике появится жемчужина?
в случае с биг дата наверно никак не решается, а для реляционных баз есть специализированные тулзы, думаю datamining называются. например у нас SAS enterprise miner юзают к ораклу. ему скармливают данные, а он вроде как вычисляет, какие переменные стоит построить для скоринг модели.
User avatar
Dmitry67
Уже с Приветом
Posts: 28294
Joined: 29 Aug 2000 09:01
Location: SPB --> Gloucester, MA, US --> SPB --> Paris

Re: Я так и не понял, как это все использовать...

Post by Dmitry67 »

А какие есть success stories для big data?

P.S.
Data mining, я считаю, тоже лженаукв
Единственный пример работающего data mining - это велосипеды в демо базе AdventureWorks )
Зарегистрированный нацпредатель, удостоверение N 19719876044787 от 22.09.2014
User avatar
Мальчик-Одуванчик
Уже с Приветом
Posts: 15526
Joined: 27 Sep 2007 22:53

Re: Я так и не понял, как это все использовать...

Post by Мальчик-Одуванчик »

На мой взгляд - это новая парадигма в обработке данных.
Если коротко - то ранее данные обрабатывались как правило "не отходя от кассы" и на хранение складывались лишь жестко отфильтрованная и структурированная информация. Это позволяло быть бизнесу предельно эффективным в настоящем, но сильно ограничивало адаптивность в будущем.
Новый подход, наоборот расчитан на хранение всей доступной иеформации в расчете на построение новых бизнес-моделей на ее основе.

Return to “Вопросы и новости IT”