Я так и не понял, как это все использовать...

Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Я так и не понял, как это все использовать...

Post by Deckel »

Palych wrote:Кстати, а как дебажить, траблшутить большие данные?
Есть ли там понятие тестов, QA, etc.?
Как узнать/убедиться что получили верный результат прежде чем выдавать его на гора?
Вообще в результате обработки должны получаться упорядоченые данные небольшого размера. Иначе зачем вообще обрабатывать?
А дальше как обычно.
User avatar
Dmitry67
Уже с Приветом
Posts: 28294
Joined: 29 Aug 2000 09:01
Location: SPB --> Gloucester, MA, US --> SPB --> Paris

Re: Я так и не понял, как это все использовать...

Post by Dmitry67 »

Ви таки будете очень смеяться
Но у нас один клиент генерит PDF о 5M строчек - то есть 100K страниц
Что он с этим делает ума не приложу
И еще возмущаются что это генерится три часа
Зарегистрированный нацпредатель, удостоверение N 19719876044787 от 22.09.2014
User avatar
ALV00
Уже с Приветом
Posts: 1494
Joined: 08 Mar 2002 10:01
Location: NJ

Re: Я так и не понял, как это все использовать...

Post by ALV00 »

Мне кажется, вопрос полезности больших данных не проработан не теоретическом уровне. Есть универсальный принцип "garbage in, garbage out". Почему то эти ребята считают, что если взять очень много гарбиджа и обработать его нейронной сеткой, то выходе получится конфета. Насколько это реально, есть определенные сомнения. И так ли работает человеческий интеллект, тоже непонятно.
User avatar
fruit6
Уже с Приветом
Posts: 4207
Joined: 10 Jan 2004 01:22
Location: n-sk -> MD -> VA

Re: Я так и не понял, как это все использовать...

Post by fruit6 »

Этот процесс ещё Маркс описал. Берётся сырьё, потом пассы руками или с помощью орудий производства добавляется прибавочная стоимость, причём он подчеркивал что руками пасовать очень невыгодно, при использовании сложной техники органическое строение капитала выше и прибавить можно гораздо больше.
Теперь конкретно пример. Если взять случайный набор байтов и прикрепить стикер - processed by big data, $32 per barrel, сорри, 1GB. Ну в общем может кто и купит в развивающихся странах, или на переработку байтов в кластерах за дискаунт вагонами. А если организовать llc, поднять шумиху в прессе, IPO, agile, scale in, out, inside out, побольше непонятных бессмысленных терминов, etc, то байтики перетасовав можно и по 200/за пучок стримать.
User avatar
perasperaadastra
Уже с Приветом
Posts: 20128
Joined: 21 Feb 2009 22:55
Location: Лох Онтарио

Re: Я так и не понял, как это все использовать...

Post by perasperaadastra »

Мне начинает казаться, что БД (исключая медиа архивы) являются такими большими только потому, что они не имеют практической ценности. Если какие-то данные имеют ценность, то им никто не дает возможность становиться БД. Взять, например, Tesco и Target. Их бизнес модели преподносятся как примеры успехов БД. Только, имхо, там БД и не пахнет — самые обычные ДБ, которые очкарики проверили на предмет довольно очевидных (!) корреляций.
blanko27
Уже с Приветом
Posts: 2264
Joined: 17 Jun 2003 04:41
Location: Just like US

Re: Я так и не понял, как это все использовать...

Post by blanko27 »

perasperaadastra wrote:... Взять, например, Tesco и Target. Их бизнес модели преподносятся как примеры успехов БД...
Ох, да, Target, припоминаю - пустые полки и потеря $5-ти с лишним млрд. перед декларацией банкротства в Канаде. Так во-от, что оно такое биг дата! :D
...а мы такой компанией, возьмем, да и припремся к Элис!
User avatar
kyk
Уже с Приветом
Posts: 31589
Joined: 21 Nov 2004 05:12
Location: камбуз на кампусе

Re: Я так и не понял, как это все использовать...

Post by kyk »

perasperaadastra wrote: очкарики проверили на предмет довольно очевидных (!) корреляций.
Вы очки носите?
Last edited by kyk on 10 Feb 2016 05:43, edited 1 time in total.
Лучше переесть, чем недоспать! © Обратное тоже верно :umnik1:
DropAndDrag
Уже с Приветом
Posts: 6018
Joined: 11 Mar 2011 05:36

Re: Я так и не понял, как это все использовать...

Post by DropAndDrag »

Rumba wrote:за несколько лет работы в финансовом консалтинге , мне краине редко встречались варианты где общение между ИТ и операшенс/ маркетингом/ финансами было деиствительно эффективным напрямую, разве что в не-аитишном департменте оказивался кто- то с аитишным/ математическом бэкграундом, в основном в тех компаниях где аналитике уделялось внимание, были переводчики в лице business analysts.
+10(0)
чем дальше, тем больше убеждаюсь, что Bid Data живут для Bid Data, так же как IT живет для IT 8)
с Big Data пока не будет блестящей идеи, как использовать каждую конкретную мусорку, никакой прибыли не получить.
Сколько я не пытался разговаривать с отделом, через который проходит все proposal в ASCR http://science.energy.gov/ascr/, на меня либо тупо смотрят - что тебе надо, либо клянчат денег - дай и мы щас забабахаем. я им говорю, ребята - вот гора данных - давайте займитесь, а в ответ тишина, почти тишина, какое-то блеяние иногда слышно.
А IT, и cloud, и virtual serverа, и high performance computing - реально процент народа который это использует - мне кажется единицы. а остальные до сих пор бегают с USB флешками и шлют друг другу статьи по е-майлы и потом как-то автор синхронизует, кто чего подправил :ROFL:
да что там про продвинутый IT говорить - простой не работает.
User avatar
perasperaadastra
Уже с Приветом
Posts: 20128
Joined: 21 Feb 2009 22:55
Location: Лох Онтарио

Re: Я так и не понял, как это все использовать...

Post by perasperaadastra »

А как исправить такую ситуацию? Отправить всех на перевоспитание изучение ИТ дисциплин? Или просто забыть о громких словах типа БД и жить по-старинке?
kyk wrote:
perasperaadastra wrote: очкарики проверили на предмет довольно очевидных (!) корреляций.
Вы очки носите?
Конечно.
User avatar
x.angie
Уже с Приветом
Posts: 191
Joined: 13 Mar 2006 19:01
Location: Earth -> Moon -> Mars

Re: Я так и не понял, как это все использовать...

Post by x.angie »

ALV00 wrote:Почему то эти ребята считают, что если взять очень много гарбиджа и обработать его нейронной сеткой, то выходе получится конфета.
Наверное, потому что они знают о принципе "garbage in, garbage out", и не подают garbage на вход их систем. Нет?
User avatar
x.angie
Уже с Приветом
Posts: 191
Joined: 13 Mar 2006 19:01
Location: Earth -> Moon -> Mars

Re: Я так и не понял, как это все использовать...

Post by x.angie »

DropAndDrag wrote:Сколько я не пытался разговаривать с отделом, через который проходит все proposal в ASCR http://science.energy.gov/ascr/, на меня либо тупо смотрят - что тебе надо, либо клянчат денег - дай и мы щас забабахаем. я им говорю, ребята - вот гора данных - давайте займитесь, а в ответ тишина, почти тишина, какое-то блеяние иногда слышно.
Так а что вы от них хотели то? Что вам нужно было сделать с этими proposal в ASCR? Может, вам нужен было простейший ETL-скрипт на пару строк, а биг-датой здесь и рядом не стояла?
User avatar
Dmitry67
Уже с Приветом
Posts: 28294
Joined: 29 Aug 2000 09:01
Location: SPB --> Gloucester, MA, US --> SPB --> Paris

Re: Я так и не понял, как это все использовать...

Post by Dmitry67 »

perasperaadastra wrote:А как исправить такую ситуацию? Отправить всех на перевоспитание изучение ИТ дисциплин? Или просто забыть о громких словах типа БД и жить по-старинке?
kyk wrote:
perasperaadastra wrote: очкарики проверили на предмет довольно очевидных (!) корреляций.
Вы очки носите?
Конечно.
А еще в очках! (С)
Зарегистрированный нацпредатель, удостоверение N 19719876044787 от 22.09.2014
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Я так и не понял, как это все использовать...

Post by Deckel »

ALV00 wrote:Мне кажется, вопрос полезности больших данных не проработан не теоретическом уровне. Есть универсальный принцип "garbage in, garbage out". Почему то эти ребята считают, что если взять очень много гарбиджа и обработать его нейронной сеткой, то выходе получится конфета. Насколько это реально, есть определенные сомнения. И так ли работает человеческий интеллект, тоже непонятно.
Есть работы, которые показывают, что некоторые модели работают только после того как съели миллиарды объектов. Зато они потом очень полезны. Это по поводу нейронны сетей.
А вообще биг дата это не только просто много данных, но и много разрозненных данных, так что вопрос шире чем какие-то конкретные модели и их польза.
DropAndDrag
Уже с Приветом
Posts: 6018
Joined: 11 Mar 2011 05:36

Re: Я так и не понял, как это все использовать...

Post by DropAndDrag »

x.angie wrote:
DropAndDrag wrote:Сколько я не пытался разговаривать с отделом, через который проходит все proposal в ASCR http://science.energy.gov/ascr/, на меня либо тупо смотрят - что тебе надо, либо клянчат денег - дай и мы щас забабахаем. я им говорю, ребята - вот гора данных - давайте займитесь, а в ответ тишина, почти тишина, какое-то блеяние иногда слышно.
Так а что вы от них хотели то? Что вам нужно было сделать с этими proposal в ASCR? Может, вам нужен было простейший ETL-скрипт на пару строк, а биг-датой здесь и рядом не стояла?
что хотел ...
от скуки пытаюсь упростить жизнь окружающих в компании. с одной стороны, в среднем у них очень низкий уровень IT. с другой стороны, IT решает свои задачи для себя. с третье стороны, была надежда, что специальный отдел заинтересуется уже собранными данными, так как решение задач по Big Data это как бы их дело, так выясняется, что там тоже сидят и решают свои задачи :ROFL: на самом деле выяснилось, что систематически суются в атмосферные и телескопные данные, а также данные больших экспериментов на ускорителях, так как эти данные хорошо структурированы и задачи очевидны. в остальные данные они хотят, но не знают что делать. ну иногда суются case by case, то бишь для какого-то частного случая.
User avatar
ALV00
Уже с Приветом
Posts: 1494
Joined: 08 Mar 2002 10:01
Location: NJ

Re: Я так и не понял, как это все использовать...

Post by ALV00 »

http://www.datasciencecentral.com/profi ... w-revenues" onclick="window.open(this.href);return false;

Начинаю нехорошо думать про биг дату... Ох, скоро начнется. Надо отключать в браузере все куки-шмуки.
User avatar
ALV00
Уже с Приветом
Posts: 1494
Joined: 08 Mar 2002 10:01
Location: NJ

Re: Я так и не понял, как это все использовать...

Post by ALV00 »

Это просто счастье какое-то. Заходите вы на сайт резервировать отель. Они вас узнают, встречают как родного, лезут в свою биг дату, находят ваш профиль, кумекают: ага этот лошок в прошлый раз переплатил за номер, значит можно с него содрать побольше и в этот раз. Написал про нас положительный отзыв в соцсетях - значит ему у нас понравилось, можно рискнуть еще чуть поднять. Получил новую кредитку – тоже хороший знак. Бесконфликтный – можно подсунуть худшие условия за те же деньги. И с крючка он вряд ли сорвется – мы знаем паттерны его поведения, все вероятности заранее просчитаны. Офигеть.
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Я так и не понял, как это все использовать...

Post by Deckel »

Глюпые, обратная сторона цены это предложение. Если отели стоят пустые, они так и так не будут особо цену задирать. А если заполнены, так это даже хорошо, что про вас знают, что вы хороший клиент и готовы заплатить больше- эта цена отсечёт остальных и вам не придётся селиться в другом зачуханном отеле за те же (чуть меньшие) деньги.
User avatar
perasperaadastra
Уже с Приветом
Posts: 20128
Joined: 21 Feb 2009 22:55
Location: Лох Онтарио

Re: Я так и не понял, как это все использовать...

Post by perasperaadastra »

ALV00 wrote:http://www.datasciencecentral.com/profi ... w-revenues

Начинаю нехорошо думать про биг дату... Ох, скоро начнется. Надо отключать в браузере все куки-шмуки.
На практике все это не будет работать. То есть будет, но криво. Достаточно просто не указывать номер мембершипа, и все! Хотя если оставить фейсбуковое приложение, как единственный способ сделать резервацию, то будет ппц. К счастью, фейсбук уже непопулярен у молодежи, и это не произойдет.

Кстати, вот интересная статья про ценовую дискриминацию авиалиниями. Как видно, не так все и страшно.

https://www.petsymposium.org/2014/papers/Vissers.pdf" onclick="window.open(this.href);return false;
User avatar
ALV00
Уже с Приветом
Posts: 1494
Joined: 08 Mar 2002 10:01
Location: NJ

Re: Я так и не понял, как это все использовать...

Post by ALV00 »

Ну это они пока не доросли до биг дата технологий :D

Может так получиться, что все продавцы перейдут на это дело, потому что иначе они проиграют конкуренцию из-за своей неэффективности.

Можно порассуждать, что биг дата дает в плане экономики. Допустим, есть некий товар, его равновесная рыночная цена равна 50. Есть покупатель Вася, который может заплатить за этот товар максимум 60. Есть покупатель Петя, который может заплатить максимум 40. При старых рыночных отношениях продавец продал бы одну штуку товара Васе за 50, Вася сэкономил бы 10. Петя не купил бы этот товар. Теперь применяем индивидуальный прайсинг. Вася поставили цену 60, он купил так как заранее был согласен с такой ценой. Пете выставили цену 40, он тоже смог купить. В результате все довольны, продавец тоже, потому что он продал две штуки товара вместо одной и получил в среднем по 50 за штуку.

Правда, на первых порах конкуренция между продавцами будет ломать эту идиллию. Может найтись другой продавец, который согласится продать аналогичный товар Васе за 50. Но через какое-то время все продавцы поймут преимущества данной технологии. Богатые будут покупать дороже, бедные дешевле, производители больше производить. Наступит всеобщее счастье :good:
User avatar
perasperaadastra
Уже с Приветом
Posts: 20128
Joined: 21 Feb 2009 22:55
Location: Лох Онтарио

Re: Я так и не понял, как это все использовать...

Post by perasperaadastra »

Это если бы технология работала. А технология будет работать только при одном важном допущении — если в интернете будет доступная информация про всех. В действительности удел ценовой дискриминации это скидки студентам-енсионерам и различия в ценах между разными странами. БД сейчас любят рекламировать как какой-то мистический черный ящик, в который кладут кал, а достают конфетку. Только почему-то во всех маркетинговых саксес-сториз в ящик кладут не кал, а как минимум карамель.

Теперь с точи зрения микроэкономики и статистики: полная ценовая дискриминация невозможна, так как нельзя четко определить индивидуальную функцию спроса. Можно (на базе имеющейся информации) оценить ее статистически, но точность будет невысокая, поскольку эта функция может сильно меняться в зависимости от обстоятельств, которые невозможно знать. (Например, человек раньше резервировал комнаты для деловых поездок, а сейчас решил поехать в отпуск.) Система должна учитывать эту погрешность и уменьшать индивидуальный price premium, чтобы поддерживать требуемую вероятность совершения сделки. В результате ценовая дискриминация получится копеечная из-за недостатка информации. А информации всегда будет не хватать — privacy пока никто не отменял. :)

> Может найтись другой продавец, который согласится продать аналогичный товар Васе за 50. Но через какое-то время все продавцы поймут преимущества данной технологии.

Это не произойдет. Другой продавец всегда предпочтет продать Васе товар за 50, чем остаться совсем без сделки. Это краеугольный камень микроэкономики.

В общем, пока можно жить спокойно (до тех пор, пока не начнут массово внедрять электроды в мозг). :-)
Palych
Уже с Приветом
Posts: 13682
Joined: 16 Jan 2001 10:01

Re: Я так и не понял, как это все использовать...

Post by Palych »

А главное КМК - тот кто не будет платить за эту систему получает конкурентное преимущество.
Правда её может оплатить правительство, возможно не совсем добровольно...
User avatar
geek7
Уже с Приветом
Posts: 20297
Joined: 01 Dec 2003 23:16
Location: Russia->USA

Re: Я так и не понял, как это все использовать...

Post by geek7 »

ALV00 wrote: Можно порассуждать, что биг дата дает в плане экономики. Допустим, есть некий товар, его равновесная рыночная цена равна 50. Есть покупатель Вася, который может заплатить за этот товар максимум 60. Есть покупатель Петя, который может заплатить максимум 40. При старых рыночных отношениях продавец продал бы одну штуку товара Васе за 50, Вася сэкономил бы 10. Петя не купил бы этот товар. Теперь применяем индивидуальный прайсинг. Вася поставили цену 60, он купил так как заранее был согласен с такой ценой. Пете выставили цену 40, он тоже смог купить. В результате все довольны, продавец тоже, потому что он продал две штуки товара вместо одной и получил в среднем по 50 за штуку.
Это все мы и без биг даты наблюдали давно - делается сегментацией рынка. Ярче всего видно на примере видеокарточек: выпускаем премиум - которая впереди планеты всей для Васи за 600, тот-же чип обрезаем по шине и впариваем Пете за 400, режем чип уменьшая конвееры итд и загоним Ване за 200 ну и еще более обрезанную версию Маше за 79.99 . В норме Петя с Васей бы вщяли за 400, а Вяня бы купил у них б\у... Маша бы вообше встроенной обошлась
Говори что думаешь, думай что говоришь!
Маразм крепчал и скрепы гнулись
User avatar
perasperaadastra
Уже с Приветом
Posts: 20128
Joined: 21 Feb 2009 22:55
Location: Лох Онтарио

Re: Я так и не понял, как это все использовать...

Post by perasperaadastra »

Самый интересный пример был с осцилографами Rigol. Там сменой прошивки дешевый девайс апгрейдился до профессионального! Прикол был в том, что те, кто умеют пользоваться осцилографом, как правило умеют обновлять прошивки. Еще был интересный момент с Intel Q6600, где заклейка одного контакта разгоняла девайс с 2.4 до 3 Гц.
Wolverene
Уже с Приветом
Posts: 192
Joined: 01 Jul 2005 08:56
Location: Нск, РФ -> Riverside, CA

Re: Я так и не понял, как это все использовать...

Post by Wolverene »

Ну на самом деле большие данные иногда используются. В чем фишка? Данных много, и надо иметь средства чтобы их сохранить, и средства чтобы их обработать. Вот в этом и есть явление Big Data. В частности в Убер сохраняют инфомрацию с гироскопа и GPS для того чтобы определить водителей, которые водят небезопасно. Сколько у них водителей? Много. А сколько из них водятлов?

Второй вариант - как найти наиболее оптимальное распределение машин в зависимости от сезона, погоды, времени суток, дорожной обстановки? Тоже данных по поездкам много. Плюс так как они отслеживают персональные записи, то могут давать и персональный прогноз, когда пользователь воспользуется такси. Можно ли это сохранить в БД? Может быть да. Можно ли обработать на одной машине? Нет, нужен большой кластер. Сможет ли БД выдержать нагрузку с большого кластера? Нет, надо шардинг делать, который ограничен в возможностях и размере. Так может сразу на большие данные перейти?

В общем-то да, большие данные не имеет смысла собирать в компании если она не может поставить бизнес-задачу. Но как только бизнес задача появляется, то чтобы ее решить, бывает (не всегда) надо собрать кучу данных. И тогда уже большие данные вступают в роль, как модель хранения и обработки данных.
User avatar
perasperaadastra
Уже с Приветом
Posts: 20128
Joined: 21 Feb 2009 22:55
Location: Лох Онтарио

Re: Я так и не понял, как это все использовать...

Post by perasperaadastra »

Wolverene wrote:Ну на самом деле большие данные иногда используются. В чем фишка? Данных много, и надо иметь средства чтобы их сохранить, и средства чтобы их обработать. Вот в этом и есть явление Big Data. В частности в Убер сохраняют инфомрацию с гироскопа и GPS для того чтобы определить водителей, которые водят небезопасно. Сколько у них водителей? Много. А сколько из них водятлов?
Но ведь проще обрабатывать эти данные в реальном времени на смартфоне того же водителя. Зачем хранить raw data? На каждого водителя будет агрегированная информация в конце рабочего дня (превышение скорости + % резких торможений). Это в общем-то тоже форма БД, но без специальной инфраструктуры.

А про анализ трафика с целью тайминга светофоров я бы согласился, но до сих пор я не видел удачного примера. Не знаю, может быть после подкрутки ситуация чуть-чуть улучшается, но как-то это совсем незаметно. Может, просто модели плохие...

Return to “Вопросы и новости IT”