Я так и не понял, как это все использовать...
-
- Уже с Приветом
- Posts: 20128
- Joined: 21 Feb 2009 22:55
- Location: Лох Онтарио
Я так и не понял, как это все использовать...
Взял на корсере курс введения в Большие Данные. У меня интерес в этом исключительно с точки зрения бизнеса. В курсе рассказали, какой хороший Hadoop, и как важно понимать, что такое Большие Данные. Забыли рассказать только одну вещь: а как это все использовать?
Ладно, я хоть бесплатно взял этот курс. А кто-то ведь заплатил! Честно говоря, на википедии статья и то больше полезной информации содержит. В связи с этим вопрос к тем, кто понимает Большие Данные. Вот, допустим, я VP стратегии в какой-нибудь компании, и мне нужно придумать, как увеличить продажи и уменьшить расходы. Я снимаю трубку циско-фона и набираю номер отдела, где работают Ученые Данных. Что мне у них спрашивать? Мне в общем-то все равно, что у них там кластеры и Hadoop с mapreduce. Мне важно только две вещи: чтобы они знали, как собрать нужную информацию, и чтобы они могли ее проанализировать на предмет корреляций.
Ладно, я хоть бесплатно взял этот курс. А кто-то ведь заплатил! Честно говоря, на википедии статья и то больше полезной информации содержит. В связи с этим вопрос к тем, кто понимает Большие Данные. Вот, допустим, я VP стратегии в какой-нибудь компании, и мне нужно придумать, как увеличить продажи и уменьшить расходы. Я снимаю трубку циско-фона и набираю номер отдела, где работают Ученые Данных. Что мне у них спрашивать? Мне в общем-то все равно, что у них там кластеры и Hadoop с mapreduce. Мне важно только две вещи: чтобы они знали, как собрать нужную информацию, и чтобы они могли ее проанализировать на предмет корреляций.
-
- Уже с Приветом
- Posts: 7935
- Joined: 08 Oct 2008 01:02
- Location: usa
Re: Я так и не понял, как это все использовать...
А для этого разве обязательны товариши учёные , сведушие в Big Data?
-
- Уже с Приветом
- Posts: 558
- Joined: 11 Aug 2015 00:57
Re: Я так и не понял, как это все использовать...
Менеджер поднимает трубку, а вы ему: "Вася, донеси до своих мысль, что кто придумает способ увеличения продаж на 1%, тому промоушн, а кто не придумает ничего - тому розовый листок". Они дальше сами все сделают и вам объяснят, недаром пхд получали.
-
- Уже с Приветом
- Posts: 20297
- Joined: 01 Dec 2003 23:16
- Location: Russia->USA
Re: Я так и не понял, как это все использовать...
я это понимаю такperasperaadastra wrote: Мне важно только две вещи:
1.чтобы они знали, как собрать нужную информацию, и
2.чтобы они могли ее проанализировать на предмет корреляций.
1. все что генерит пользователь надо хранить с маниакальностью плюшкина. место становится все дешевле, а информация все полезней такчто в длительной перспективе точно не прогадать
тут кроме мапредюса помогают всякие стрим (типа кинесис у AWS)
так прикарманиваются все данные без разбора дабы потом как придет светлая идея деланья на них денег (проанализировать на предмет корреляций) хадупом и добывать
2. если идеи уже есть и данные по чему-то уже корелируются, то не обязательно хадуп будет для этого лучшим решением.. можно стримать сразу во что-нибудь более структуированное - есть и релейшенал биг дата Redshift\Greenplum есть всякие кей-велью dynamodb и прочие mongodb гибриды OrientDB
короче для кучи спецефичных требований можно найти спецефичное решение
чтобы получить впечатление о зоопарке - глянте на
http://kkovacs.eu/cassandra-vs-mongodb- ... b-vs-redis" onclick="window.open(this.href);return false;
- описаны специфика и область применения 10-ка
для полной картины (не только биг дата)
http://db-engines.com/en/ranking_categories" onclick="window.open(this.href);return false;
http://db-engines.com/en/ranking" onclick="window.open(this.href);return false;
Говори что думаешь, думай что говоришь!
Маразм крепчал и скрепы гнулись
Маразм крепчал и скрепы гнулись
-
- Уже с Приветом
- Posts: 946
- Joined: 24 Sep 2013 05:58
- Location: US\GA
Re: Я так и не понял, как это все использовать...
Сразу просить поменять Оракл на МонгоДБ\эластиксёрч, это модно ща.perasperaadastra wrote:Вот, допустим, я VP стратегии в какой-нибудь компании, и мне нужно придумать, как увеличить продажи и уменьшить расходы. Я снимаю трубку циско-фона и набираю номер отдела, где работают Ученые Данных. Что мне у них спрашивать?
-
- Уже с Приветом
- Posts: 1349
- Joined: 28 Nov 2008 17:50
Re: Я так и не понял, как это все использовать...
hadoop не хранит данные, hadoop хранит мусор. ученым надо ставить задачу найти способ вытащить из этого мусора хоть что-то полезное. у нас пока это задача не решена, хотя уже 2 года пытаются построить прототип для замены DWH и аналитки на оракле. пока результат -мусор вместо данных и необходимость хранить копию всех данных для импалыperasperaadastra wrote: Мне важно только две вещи: чтобы они знали, как собрать нужную информацию, и чтобы они могли ее проанализировать на предмет корреляций.
-
- Ник закрыт за хамство.
- Posts: 357
- Joined: 16 Feb 2014 18:34
Re: Я так и не понял, как это все использовать...
Hadoop хорош в дополнение, а не в заместо. Туда надо складывать все, на что у модельеров данных времени не было создать схему для реляционной базы данных или просто не влезает, или пока не понятно как использовать.
Ну, или если вы какой-нибудь продукт на основе хадупа забабахали - т.е. он не для анализа используется, а как основное производтвенное средство. Но тогда не нам вам рассказывать, что и как.
Вообще БигДата это как секс у подростков, мало у кого он есть, но все обсуждают.
Devops Borat: I am final understand NoSQL: is 1 value for 1 key, is scale infinite. I am have only 1 question: how I do join?
Ну, или если вы какой-нибудь продукт на основе хадупа забабахали - т.е. он не для анализа используется, а как основное производтвенное средство. Но тогда не нам вам рассказывать, что и как.
Вообще БигДата это как секс у подростков, мало у кого он есть, но все обсуждают.
Devops Borat: I am final understand NoSQL: is 1 value for 1 key, is scale infinite. I am have only 1 question: how I do join?
-
- Уже с Приветом
- Posts: 20297
- Joined: 01 Dec 2003 23:16
- Location: Russia->USA
Re: Я так и не понял, как это все использовать...
Когда "просто не влезает" но данные реляцеонные есть варианты гораздо ближе к идиалуDeckel wrote:Hadoop хорош в дополнение, а не в заместо. Туда надо складывать все, на что у модельеров данных времени не было создать схему для реляционной базы данных или просто не влезает, или пока не понятно как использовать.
те-же Redshift\Greenplum которые я приводил - это шардинг+постгрес = не то чтобы RDBMS но и не аморфная помойка
Говори что думаешь, думай что говоришь!
Маразм крепчал и скрепы гнулись
Маразм крепчал и скрепы гнулись
-
- Уже с Приветом
- Posts: 14455
- Joined: 26 May 2006 02:39
Re: Я так и не понял, как это все использовать...
perasperaadastra wrote:Я снимаю трубку циско-фона и набираю номер отдела, где работают Ученые Данных. Что мне у них спрашивать? Мне в общем-то все равно, что у них там кластеры и Hadoop с mapreduce. Мне важно только две вещи: чтобы они знали, как собрать нужную информацию, и чтобы они могли ее проанализировать на предмет корреляций.
Ну да. Традиционно данные делились на важные и неважные. Например форум не хранит таймстемпы и локейшины всех юзер логинов вместе с просмотром постов. Потому что это это считалось мусором да и занимает немало места. Но сегодня есть теория что это конкурентное преимущество и если его проанализировать ( например классифицировать посты ) то можно определять всякие хитрые взаимосвязи - например что значительная часть москвичей являются латентными гомосексуалистами так как очень активно обсуждают посты про геев
Соответственно это дату можно использовать - например Айсбергу показать рекламу гей клаба, вам новый телескоп а Комми спамить форекложерами в КА.
Бога нет.
-
- Уже с Приветом
- Posts: 13682
- Joined: 16 Jan 2001 10:01
Re: Я так и не понял, как это все использовать...
А как правильно охранять большие данные?
В структурированных базах пожно определить: этому даём, тому не даём в зависимости что просит. Понятное дело ошибёмся, но тут можно опереться на исследования, опыт старших...
А если кто-то хочет покопаться в мусоре?
Или порядочным людям нечего скрывать?
В структурированных базах пожно определить: этому даём, тому не даём в зависимости что просит. Понятное дело ошибёмся, но тут можно опереться на исследования, опыт старших...
А если кто-то хочет покопаться в мусоре?
Или порядочным людям нечего скрывать?
-
- Уже с Приветом
- Posts: 64875
- Joined: 12 Jul 2002 16:38
- Location: г.Москва, ул. Б. Лубянка, д.2
Re: Я так и не понял, как это все использовать...
с первым согласен, а откуда дровишки, что инфа все полезней?geek7 wrote: место становится все дешевле, а информация все полезней
-
- Уже с Приветом
- Posts: 64875
- Joined: 12 Jul 2002 16:38
- Location: г.Москва, ул. Б. Лубянка, д.2
Re: Я так и не понял, как это все использовать...
И сколько форекложеров должен скупить Комми, чтобы окупить всю эту братию со 150К+ окладами, кто данные проанализировал?stenking wrote: Соответственно это дату можно использовать - например Айсбергу показать рекламу гей клаба, вам новый телескоп а Комми спамить форекложерами в КА.
-
- Уже с Приветом
- Posts: 64875
- Joined: 12 Jul 2002 16:38
- Location: г.Москва, ул. Б. Лубянка, д.2
Re: Я так и не понял, как это все использовать...
хранить мусор, где потенциально есть золото и алмазы, как раз не трудно. BLOB об'екты давно существуют, знай засасывай файлы. Если слишком долго сосать, просто храни линк к файлу в сторадже. Как-то было дело, манагерил я систему LIMS: данные в лабе считывались с приборов, самые главные данные распарсовывались и распихивались по таблицам, а все raw data ховались в блобы - во-1-х, на случай legal/patent issue, во-2-х "а вдруг" потребуется доп. анализ.
Так вот, очень редко кто хотел дополнительного анализа, а те, кто хотел, обычно требовали очень специфичные действия, типа найди мне измерения прибора ХХХ модели ЫЫЫ, сделанные в декабре 2001 года, с химикатом таким то. Обычно мы сочиняли ad hock SQL, высасывали из ДБ блобы для этих параметров и скидывали их юзверю на файл-шер, со словами "вот файлО, сам разбирайся". Как-то все справлялись.
Так вот, очень редко кто хотел дополнительного анализа, а те, кто хотел, обычно требовали очень специфичные действия, типа найди мне измерения прибора ХХХ модели ЫЫЫ, сделанные в декабре 2001 года, с химикатом таким то. Обычно мы сочиняли ad hock SQL, высасывали из ДБ блобы для этих параметров и скидывали их юзверю на файл-шер, со словами "вот файлО, сам разбирайся". Как-то все справлялись.
-
- Уже с Приветом
- Posts: 14455
- Joined: 26 May 2006 02:39
Re: Я так и не понял, как это все использовать...
Komissar wrote:И сколько форекложеров должен скупить Комми, чтобы окупить всю эту братию со 150К+ окладами, кто данные проанализировал?stenking wrote: Соответственно это дату можно использовать - например Айсбергу показать рекламу гей клаба, вам новый телескоп а Комми спамить форекложерами в КА.
Нуна щитать.
Xerox used big data to reduce the attrition rate in its call centers by 20%. To do that, it had to understand what was causing the turnover, and determine ways to improve employee engagement....
A recent partnership between The Weather Company and IBM will allow companies to better manage the impact of weather on business performance. According to The Weather Company, weather has an economic impact of half a trillion dollars annually in the US alone.....
Pratt & Whitney, a unit of United Technologies Corp., is attempting to reduce unplanned aircraft engine maintenance. According to AirInsight.com, today's engines collect about 100 parameters in multiple snapshots while a plane is in flight. By comparison, a new-generation engine is able to collect about 5,000 parameters continuously in flight. The process generates about 2 petabytes of data. Using the data, Pratt & Whitney and its partner IBM are trying to enable proactive maintenance....
Бога нет.
-
- Уже с Приветом
- Posts: 64875
- Joined: 12 Jul 2002 16:38
- Location: г.Москва, ул. Б. Лубянка, д.2
Re: Я так и не понял, как это все использовать...
а кто реально считал? Скорее всего, очередной ВП наврал в презентации, "и понеслось".stenking wrote:Xerox used big data to reduce the attrition rate in its call centers by 20%. To do that, it had to understand what was causing the turnover, and determine ways to improve employee engagement....
-
- Уже с Приветом
- Posts: 14455
- Joined: 26 May 2006 02:39
Re: Я так и не понял, как это все использовать...
Может и наврал. Но биг дата этим и отличается от просто датыSQL что она биг Т.е. петабайты на которые SQL с джоинами натравить неполучится. И что бы аналитика параллельно в облаке считалась. Ну тут ничего особенного не придумали ( хотя по Твиттеру уже научились социальные конфликты предсказывать ) кроме вот корреляций. Например если связать телефонные звонки в 911 с погодой и пульсом собираемым аппл ватч то может быть можно научится предсказывать heart attacks.Komissar wrote:а кто реально считал? Скорее всего, очередной ВП наврал в презентации, "и понеслось".stenking wrote:Xerox used big data to reduce the attrition rate in its call centers by 20%. To do that, it had to understand what was causing the turnover, and determine ways to improve employee engagement....
Бога нет.
-
- Уже с Приветом
- Posts: 8378
- Joined: 17 Oct 2001 09:01
- Location: Уездный город N
Re: Я так и не понял, как это все использовать...
Ето придумали асоциальные IT нерды которым недоученыи менежмент дает задания по маркетингу. Т.е. вместо того чтобы поговорить с кастомерами и понять чего они хотят, мы скоррелируем частоту посешения туалета с частотои посешения феисбука....perasperaadastra wrote:Взял на корсере курс введения в Большие Данные. У меня интерес в этом исключительно с точки зрения бизнеса. В курсе рассказали, какой хороший Hadoop, и как важно понимать, что такое Большие Данные. Забыли рассказать только одну вещь: а как это все использовать?
А по сути ничего кроме оптимизации/корреляции которыми пользовался Госплан там нет.
-
- Уже с Приветом
- Posts: 20297
- Joined: 01 Dec 2003 23:16
- Location: Russia->USA
Re: Я так и не понял, как это все использовать...
ну во 1-х %% жизни людей в сети увеличивается. чем больше тем точнее и полнее картина.Komissar wrote:с первым согласен, а откуда дровишки, что инфа все полезней?geek7 wrote: место становится все дешевле, а информация все полезней
2х обработка совершенствуется.. пошли всякие ватсоны картаны. там где сейчас сажают в меканикал турка толпу студентов и пенсионеров завтра можно будет обойтись силиконом
Говори что думаешь, думай что говоришь!
Маразм крепчал и скрепы гнулись
Маразм крепчал и скрепы гнулись
-
- Уже с Приветом
- Posts: 20297
- Joined: 01 Dec 2003 23:16
- Location: Russia->USA
Re: Я так и не понял, как это все использовать...
Так фишка в том что предложение сначала должно минимум появится (узнать о нем и понять на самом деле) а уж там спрос подтягиваеся. В Вашей системе никто бы и не стао простить сделать сравнительный анализ точности\надежности приборов за Н летKomissar wrote: Так вот, очень редко кто хотел дополнительного анализа, а те, кто хотел, обычно требовали очень специфичные действия, типа найди мне измерения прибора ХХХ модели ЫЫЫ, сделанные в декабре 2001 года, с химикатом таким то. Обычно мы сочиняли ad hock SQL, высасывали из ДБ блобы для этих параметров и скидывали их юзверю на файл-шер, со словами "вот файлО, сам разбирайся". Как-то все справлялись.
Говори что думаешь, думай что говоришь!
Маразм крепчал и скрепы гнулись
Маразм крепчал и скрепы гнулись
-
- Уже с Приветом
- Posts: 20128
- Joined: 21 Feb 2009 22:55
- Location: Лох Онтарио
Re: Я так и не понял, как это все использовать...
Спасибо всем за участие в дискуссии!
У меня появился еще один вопрос. Допустим, компания накопила всевозможные данные за последние 2 года. Про них будет знать главный по ИТ. Но он не будет знать, что в них искать. Зато это будет знать главный по маркетингу. Но он не будет знать, какие данные есть у компании. Конечно, главный по маркетингу может наудачу придти к главному по ИТ и спросить про корреляцию между длиной пальцев и счетом в банке, но таких данных, конечно же, не окажется. А спрашивать про корреляцию между, например, маркой обуви и ценностью покупателя слишком очевидно — такие вещи давно делаются и без всяких Больших Данных. И как быть в такой ситуации? Как соединить ИТ и маркетинг воедино? Хотя, на самом деле, не следует ограничиваться маркетингом — наверняка у главного по производству есть свои вопросы про улучшение эффективности. Как научить всех этих людей общаться между собой? Или же решение проблемы заключается в том, чтобы собрать команду ученых данных, которые будут выдавать произвольную аналитику, и надеятся на то, что в какой-то момент в этой аналитике появится жемчужина?
У меня появился еще один вопрос. Допустим, компания накопила всевозможные данные за последние 2 года. Про них будет знать главный по ИТ. Но он не будет знать, что в них искать. Зато это будет знать главный по маркетингу. Но он не будет знать, какие данные есть у компании. Конечно, главный по маркетингу может наудачу придти к главному по ИТ и спросить про корреляцию между длиной пальцев и счетом в банке, но таких данных, конечно же, не окажется. А спрашивать про корреляцию между, например, маркой обуви и ценностью покупателя слишком очевидно — такие вещи давно делаются и без всяких Больших Данных. И как быть в такой ситуации? Как соединить ИТ и маркетинг воедино? Хотя, на самом деле, не следует ограничиваться маркетингом — наверняка у главного по производству есть свои вопросы про улучшение эффективности. Как научить всех этих людей общаться между собой? Или же решение проблемы заключается в том, чтобы собрать команду ученых данных, которые будут выдавать произвольную аналитику, и надеятся на то, что в какой-то момент в этой аналитике появится жемчужина?
-
- Уже с Приветом
- Posts: 1211
- Joined: 12 Mar 2006 08:49
Re: Я так и не понял, как это все использовать...
за несколько лет работы в финансовом консалтинге , мне краине редко встречались варианты где общение между ИТ и операшенс/ маркетингом/ финансами было деиствительно эффективным напрямую, разве что в не-аитишном департменте оказивался кто- то с аитишным/ математическом бэкграундом, в основном в тех компаниях где аналитике уделялось внимание, были переводчики в лице business analysts.perasperaadastra wrote:Спасибо всем за участие в дискуссии!
У меня появился еще один вопрос. Допустим, компания накопила всевозможные данные за последние 2 года. Про них будет знать главный по ИТ. Но он не будет знать, что в них искать. Зато это будет знать главный по маркетингу. Но он не будет знать, какие данные есть у компании. Конечно, главный по маркетингу может наудачу придти к главному по ИТ и спросить про корреляцию между длиной пальцев и счетом в банке, но таких данных, конечно же, не окажется. А спрашивать про корреляцию между, например, маркой обуви и ценностью покупателя слишком очевидно — такие вещи давно делаются и без всяких Больших Данных. И как быть в такой ситуации? Как соединить ИТ и маркетинг воедино? Хотя, на самом деле, не следует ограничиваться маркетингом — наверняка у главного по производству есть свои вопросы про улучшение эффективности. Как научить всех этих людей общаться между собой? Или же решение проблемы заключается в том, чтобы собрать команду ученых данных, которые будут выдавать произвольную аналитику, и надеятся на то, что в какой-то момент в этой аналитике появится жемчужина?
у преподов по биг дата есть поговорка- "data doesn't talk, data respond" , именно в том смысле что идеи/ гипотезы должны исходить со стороны бизнеса, phds работают по заданнои задаче, хотя вполне вероятно они могут в процессе нарыть то о чем бизнес и не подозревал
-
- Уже с Приветом
- Posts: 20297
- Joined: 01 Dec 2003 23:16
- Location: Russia->USA
Re: Я так и не понял, как это все использовать...
Ну главное правильно поставить задачу - он не знает что за данные, но знает что он хочетperasperaadastra wrote:Спасибо всем за участие в дискуссии!
У меня появился еще один вопрос. Допустим, компания накопила всевозможные данные за последние 2 года. Про них будет знать главный по ИТ. Но он не будет знать, что в них искать. Зато это будет знать главный по маркетингу. Но он не будет знать, какие данные есть у компании. Конечно, главный по маркетингу может наудачу придти к главному по ИТ и спросить про корреляцию между длиной пальцев и счетом в банке, но таких данных, конечно же, не окажется.
значит вместо найдите мне всех кто ездит на велосипеде без скоростей и фоткает пленочной камерой
нужно сообщить что-то типа: собираемся делать рекламную компанию для хипстеров. о них знаем следующее:
- ореал обитания
- манера одеватся
- ...
а там уже ИТ-шник посмотрит, что можно выжать из данных
Говори что думаешь, думай что говоришь!
Маразм крепчал и скрепы гнулись
Маразм крепчал и скрепы гнулись
-
- Уже с Приветом
- Posts: 1349
- Joined: 28 Nov 2008 17:50
Re: Я так и не понял, как это все использовать...
в случае с биг дата наверно никак не решается, а для реляционных баз есть специализированные тулзы, думаю datamining называются. например у нас SAS enterprise miner юзают к ораклу. ему скармливают данные, а он вроде как вычисляет, какие переменные стоит построить для скоринг модели.perasperaadastra wrote:Спасибо всем за участие в дискуссии!
У меня появился еще один вопрос. Допустим, компания накопила всевозможные данные за последние 2 года. Про них будет знать главный по ИТ. Но он не будет знать, что в них искать. Зато это будет знать главный по маркетингу. Но он не будет знать, какие данные есть у компании. Конечно, главный по маркетингу может наудачу придти к главному по ИТ и спросить про корреляцию между длиной пальцев и счетом в банке, но таких данных, конечно же, не окажется. А спрашивать про корреляцию между, например, маркой обуви и ценностью покупателя слишком очевидно — такие вещи давно делаются и без всяких Больших Данных. И как быть в такой ситуации? Как соединить ИТ и маркетинг воедино? Хотя, на самом деле, не следует ограничиваться маркетингом — наверняка у главного по производству есть свои вопросы про улучшение эффективности. Как научить всех этих людей общаться между собой? Или же решение проблемы заключается в том, чтобы собрать команду ученых данных, которые будут выдавать произвольную аналитику, и надеятся на то, что в какой-то момент в этой аналитике появится жемчужина?
-
- Уже с Приветом
- Posts: 28294
- Joined: 29 Aug 2000 09:01
- Location: SPB --> Gloucester, MA, US --> SPB --> Paris
Re: Я так и не понял, как это все использовать...
А какие есть success stories для big data?
P.S.
Data mining, я считаю, тоже лженаукв
Единственный пример работающего data mining - это велосипеды в демо базе AdventureWorks )
P.S.
Data mining, я считаю, тоже лженаукв
Единственный пример работающего data mining - это велосипеды в демо базе AdventureWorks )
Зарегистрированный нацпредатель, удостоверение N 19719876044787 от 22.09.2014
-
- Уже с Приветом
- Posts: 15526
- Joined: 27 Sep 2007 22:53
Re: Я так и не понял, как это все использовать...
На мой взгляд - это новая парадигма в обработке данных.
Если коротко - то ранее данные обрабатывались как правило "не отходя от кассы" и на хранение складывались лишь жестко отфильтрованная и структурированная информация. Это позволяло быть бизнесу предельно эффективным в настоящем, но сильно ограничивало адаптивность в будущем.
Новый подход, наоборот расчитан на хранение всей доступной иеформации в расчете на построение новых бизнес-моделей на ее основе.
Если коротко - то ранее данные обрабатывались как правило "не отходя от кассы" и на хранение складывались лишь жестко отфильтрованная и структурированная информация. Это позволяло быть бизнесу предельно эффективным в настоящем, но сильно ограничивало адаптивность в будущем.
Новый подход, наоборот расчитан на хранение всей доступной иеформации в расчете на построение новых бизнес-моделей на ее основе.