kaggle.com - competitions
-
- Уже с Приветом
- Posts: 64661
- Joined: 12 Jul 2002 16:38
- Location: г.Москва, ул. Б. Лубянка, д.2
Re: kaggle.com - competitions
нам тут один вендор показывал "ML", что они привинтили к своей приблуда (приблуда - очередная итерация прослойки над реляционными базами). "МЛ" заключался в том, что приблуда сочиняет более "человеческие" имена полям базы, вместо дбадминских сокращений. У них аж словарь из 5000 значений загружен для этого дела. Но приблуда не наглеет: как придумает название, так его надо хьюману "утвердить". Причем, если хьюман поправил предложенное приблудой название, скажем, с "temper" на "temperature", то через 5 (пять!) раз таких поправлений, приблуда затрет в своем словаре "temper" и навечно заменит на "temperature".
-
- Уже с Приветом
- Posts: 64661
- Joined: 12 Jul 2002 16:38
- Location: г.Москва, ул. Б. Лубянка, д.2
Re: kaggle.com - competitions
увидев тему, подумал, что речь идет об упражнениях Кегеля... разочарован.
-
- Уже с Приветом
- Posts: 545
- Joined: 07 Jan 2016 13:04
Re: kaggle.com - competitions
У OpenCV, мне кажется, более простой API. В конце концов вы просто пытаетесь ‘раздуть’ свой датасет. Вы можете спокойно применять любые трансформации и их комбинации к вашим изображениям до тех пор, пока сами способны отнести изображение к некоторому классу. Хорошо себя показывает вращение градусов на 15, равномерное и неравномерное заблюривание, изменение контраста как во всех, так и в отдельных цветовых каналах. Ваши ограничения — только ваша фантазия и объём диска.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: kaggle.com - competitions
Я не знаю, что вы хотели написать, но написали то, что написали, а именно ... извиняюсь ... ну как бы помягче сказать, чтобы не обидеть.tessob wrote: ↑16 Sep 2018 16:38Я писал про то, что принцип семплирования давно нашел применение там и там. Не нужно занудствовать.Физик-Лирик wrote: ↑15 Sep 2018 19:56Я, конечно, извиняюсь, но бутстрапы и крос-валидация - разные вещи.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: kaggle.com - competitions
Это вам что, консалтеры очередной продукт впендюрить хотят? Мой вам совет. Когда слушаете презентации консалтеров, обязательно пригласите дейта сайнтиста, того,что поумнее и который не боится высказывать свое мнение перед начальством. Много интересного о продукте узнаете. Нет, я, конечно, не утверждаю, что все продукты гнильем пахнут. Бывают даже очень.Komissar wrote: ↑17 Sep 2018 03:00 нам тут один вендор показывал "ML", что они привинтили к своей приблуда (приблуда - очередная итерация прослойки над реляционными базами). "МЛ" заключался в том, что приблуда сочиняет более "человеческие" имена полям базы, вместо дбадминских сокращений. У них аж словарь из 5000 значений загружен для этого дела. Но приблуда не наглеет: как придумает название, так его надо хьюману "утвердить". Причем, если хьюман поправил предложенное приблудой название, скажем, с "temper" на "temperature", то через 5 (пять!) раз таких поправлений, приблуда затрет в своем словаре "temper" и навечно заменит на "temperature".
-
- Уже с Приветом
- Posts: 34124
- Joined: 03 Dec 2000 10:01
- Location: Vladivostok->San Francisco->Los Angeles->San Francisco
Re: kaggle.com - competitions
Ага, спасибо за детали - в особенности за поворот, я все это читал, но в голове пока очень тупо укладывается Поворот похоже очень подходит так как в геодезии там явно бардак с этим деломtessob wrote: ↑17 Sep 2018 06:31У OpenCV, мне кажется, более простой API. В конце концов вы просто пытаетесь ‘раздуть’ свой датасет. Вы можете спокойно применять любые трансформации и их комбинации к вашим изображениям до тех пор, пока сами способны отнести изображение к некоторому классу. Хорошо себя показывает вращение градусов на 15, равномерное и неравномерное заблюривание, изменение контраста как во всех, так и в отдельных цветовых каналах. Ваши ограничения — только ваша фантазия и объём диска.
Update: за воскресенье прогнал раза три и обнаружил тренд когда эпохи растут в модели не ограниченно без ранней остановки, что позволило улучшить результат до 0.815 в общем я пока плотно сижу между топ 10%-20%
"A patriot must always be ready to defend his country against his government." Edward Abbey
-
- Уже с Приветом
- Posts: 34124
- Joined: 03 Dec 2000 10:01
- Location: Vladivostok->San Francisco->Los Angeles->San Francisco
Re: kaggle.com - competitions
Да где из взять умных да еще ко всему прочему и смелых?!Физик-Лирик wrote: ↑17 Sep 2018 14:42 пригласите дейта сайнтиста, того,что поумнее и который не боится высказывать свое мнение перед начальством.
"A patriot must always be ready to defend his country against his government." Edward Abbey
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: kaggle.com - competitions
Да встречаются ...Sergunka wrote: ↑17 Sep 2018 16:32Да где из взять умных да еще ко всему прочему и смелых?!Физик-Лирик wrote: ↑17 Sep 2018 14:42 пригласите дейта сайнтиста, того,что поумнее и который не боится высказывать свое мнение перед начальством.
А вообще, у меня к консалтерам особое расположение, которое я при любом удобном случае обязательно выскажу. Вот такая у нас большая любовь.
Я думаю общий сценарий такой. Сидит группа приближенных к сонному состоянию "приемщиков" - местных менедеров и продукт-онеров, а им какой-нибудь языкастый "докладчик", типа ВП консалтеров, соловиьиные трели распевает. Здесь самый прикол - это неожиданное появление местного и очень любознательного дейта сайнтиста. Он начинает задавать наивные вопросы, используя простую терминологию, половину из которой "докладчик" просто в первый раз слишит. Тут докладчику ничего не остается, как про себя матерясь, отвечать. (Ответы рекомендуется записывать и потом показать другим ученым во время "счастливых часов". Тогда ответы вспринимаются еще прикольнее.) Местная аудитория постепенно просыпается и начинает следить, как голосистый докладчик переходит в состояние, сходное с размазыванием по стенке. Появляется действительно неподдельный интерес . В итоге всплывает местный босс, который и привел этого консальтера, и предлагает перенести технические вопросы на потом. Да и вообще, какой хрен пригласил сюда дейта сайнтиста? Ведь было же сказано, презентация только для менеджеров и продукт-оунеров. Что за фигня?
Угадал со сценарием?
-
- Уже с Приветом
- Posts: 34124
- Joined: 03 Dec 2000 10:01
- Location: Vladivostok->San Francisco->Los Angeles->San Francisco
Re: kaggle.com - competitions
Да ладно, классика жанра был бы умный (дата саентист) не выступал бы а рубил бабло.
Но на самом деле нельзя смешивать презентацию pre-sales и научный доклад То же самое произойдет если пресейла притащить на научный доклад дс - и он начнет задавать вопросы по ROI, market share и там на закуску походя добавит, что в гугле все это давно работает и стоит копейки
"A patriot must always be ready to defend his country against his government." Edward Abbey
-
- Уже с Приветом
- Posts: 545
- Joined: 07 Jan 2016 13:04
Re: kaggle.com - competitions
Попрошу не давать определения аккуратности моих высказываний, пока вы там у себя там в математике не определитесь с единой нотацией записи скалярного произведения векторов. Какую книжку не откроешь - кто во что горазд.Физик-Лирик wrote: ↑17 Sep 2018 14:36Я не знаю, что вы хотели написать, но написали то, что написали, а именно ... извиняюсь ... ну как бы помягче сказать, чтобы не обидеть.
Мне в свое время это хорошо и быстро оъяснили через метафору, может и вам поможет. Представьте, что вас и вашего друга отправили добывать классы собак и кошек. Вы пошли сегодня фотографировать кошек, а ваш друг собак, но завтра. У вас была хорошая погода, а у вашего друга лил дождь. Камеры у вас так же сильно отличались по рисунку.
Понятно, что алгоритм учтет не только различия между собаками и кошками, но и между камерами и погодой, однако мы не знаем в какой мере. Вот все ваши аугментации нужны для того, чтобы снизить влияние вторичных для задачи факторов, относительно кошек и собак. Если вы сможете модифицировать плохую погоду в хорошую, и имитировать снимок с других камер, а так же имитировать разные ракурсы, сохраняя распознаваемость собак и кошек, то это как бы должно поднять качество обучения.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: kaggle.com - competitions
Нужен не ум, а умение всучить "продукт". Ум - это когда при шестизначной некалифорнийской зарплате ты делаешь то, что тебе интересно. Причем все вокруг в этом абсолютно убеждены.Sergunka wrote: ↑17 Sep 2018 19:05
Да ладно, классика жанра был бы умный (дата саентист) не выступал бы а рубил бабло.
Но на самом деле нельзя смешивать презентацию pre-sales и научный доклад То же самое произойдет если пресейла притащить на научный доклад дс - и он начнет задавать вопросы по ROI, market share и там на закуску походя добавит, что в гугле все это давно работает и стоит копейки
А никто и не смешивает при-сейл и научный доклад. Просто на практике при-сейл, ака впендюривание продукта, - это продажа кота в мешке. Типа есть нечто, "мешок", который вас всех осчастливит. Возникает естественное желание понять, а что же там за кот такой. А вот здесь приколы и начинаются. К научному докладу отношение не имеет. Подчеркну, что я говорю про продукты, связанные с дейта сайнсом.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: kaggle.com - competitions
А вы уверены, что читаете правильные книжки? Если вы уж вводите понятия, тогда хотя бы определяйте их, а то вас не поймут в научном сообществе. В любой статье, когда вводятся обозначения, они всегда "комментируются". Например, в метаматике, стандартное обозначение скалярного произведения - скобки, в механике и геометрии - "точка", в квантовой механике - треугольные скобки.tessob wrote: ↑17 Sep 2018 19:32Попрошу не давать определения аккуратности моих высказываний, пока вы там у себя там в математике не определитесь с единой нотацией записи скалярного произведения векторов. Какую книжку не откроешь - кто во что горазд.Физик-Лирик wrote: ↑17 Sep 2018 14:36Я не знаю, что вы хотели написать, но написали то, что написали, а именно ... извиняюсь ... ну как бы помягче сказать, чтобы не обидеть.
-
- Уже с Приветом
- Posts: 545
- Joined: 07 Jan 2016 13:04
Re: kaggle.com - competitions
Ага:Физик-Лирик wrote: ↑17 Sep 2018 19:46Например, в метаматике, стандартное обозначение скалярного произведения - скобки
1) (u,v)
2) |u,v|
3) <u,v>
Я за долгое время работы в индустрии уже привык уходить от аккуратных высказываний, к понятных обывателю. Вы просто не представляете чего стоит иногда объяснить, что такое симплекс для задачи производственного планирования, размахивая комком мятой бумаги перед носом у менеджера. Или то, что бухгалтерские проводки, благодаря стараниям Луки Пачолли, могут быть представленны как случайный направленный граф. Под случайным, в данном случае, я понимаю вероятность возникновения ребра с определенным весом (мат ожидание веса ребра). Мне кажется, что я скоро буду возить конструктор Lego на встречи с бизнесом.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: kaggle.com - competitions
Если автор статьи объясняет обозначения вначале - тогда нормально. Будет хуже, если под скалярным произведением автор подразумевает нечто другое Вот тогда действительно караул.tessob wrote: ↑17 Sep 2018 20:11Ага:Физик-Лирик wrote: ↑17 Sep 2018 19:46Например, в метаматике, стандартное обозначение скалярного произведения - скобки
1) (u,v)
2) |u,v|
3) <u,v>
Я за долгое время работы в индустрии уже привык уходить от аккуратных высказываний, к понятных обывателю. Вы просто не представляете чего стоит иногда объяснить, что такое симплекс для задачи производственного планирования, размахивая комком мятой бумаги перед носом у менеджера. Или то, что бухгалтерские проводки, благодаря стараниям Луки Пачолли, могут быть представленны как случайный направленный граф. Под случайным, в данном случае, я понимаю вероятность возникновения ребра с определенным весом (мат ожидание веса ребра). Мне кажется, что я скоро буду возить конструктор Lego на встречи с бизнесом.
На самом деле, я вас понимаю. Вы все правильно делаете. Другое дело, что возможно менеджеру детали и не надо объяснять, если у них свои ученые есть. Что меня всегда забавляет - это когда пытаются впендюрить товар, автоматически предполагая, что все разом все съедят.
-
- Уже с Приветом
- Posts: 34124
- Joined: 03 Dec 2000 10:01
- Location: Vladivostok->San Francisco->Los Angeles->San Francisco
Re: kaggle.com - competitions
На самом деле и это будет сложно для бизнеса. Если вы не можете объяснить свою проблему бизнесу используя пальцы рук, значит скорее всего вы в ней недостаточно хорошо разобрались.
"A patriot must always be ready to defend his country against his government." Edward Abbey
-
- Уже с Приветом
- Posts: 34124
- Joined: 03 Dec 2000 10:01
- Location: Vladivostok->San Francisco->Los Angeles->San Francisco
Re: kaggle.com - competitions
Обычно всеж продукт имеет какой никакой трайл и можно без нарезания пантов и актерского мастерства легко обойтись... у Вас всеж как-то получается, что "умный" датасаентист должен писануться перед начальством больше похоже на сублимацию, чем на бизнес решение - покупать или не покупать продуктФизик-Лирик wrote: ↑17 Sep 2018 19:37Нужен не ум, а умение всучить "продукт". Ум - это когда при шестизначной некалифорнийской зарплате ты делаешь то, что тебе интересно. Причем все вокруг в этом абсолютно убеждены.Sergunka wrote: ↑17 Sep 2018 19:05
Да ладно, классика жанра был бы умный (дата саентист) не выступал бы а рубил бабло.
Но на самом деле нельзя смешивать презентацию pre-sales и научный доклад То же самое произойдет если пресейла притащить на научный доклад дс - и он начнет задавать вопросы по ROI, market share и там на закуску походя добавит, что в гугле все это давно работает и стоит копейки
А никто и не смешивает при-сейл и научный доклад. Просто на практике при-сейл, ака впендюривание продукта, - это продажа кота в мешке. Типа есть нечто, "мешок", который вас всех осчастливит. Возникает естественное желание понять, а что же там за кот такой. А вот здесь приколы и начинаются. К научному докладу отношение не имеет. Подчеркну, что я говорю про продукты, связанные с дейта сайнсом.
"A patriot must always be ready to defend his country against his government." Edward Abbey
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: kaggle.com - competitions
Ваши замечания скорее к софтвеерному продукту относятся. В дейта сайнсе продукты - это в основом сервисы.Sergunka wrote: ↑17 Sep 2018 20:49
Обычно всеж продукт имеет какой никакой трайл и можно без нарезания пантов и актерского мастерства легко обойтись... у Вас всеж как-то получается, что "умный" датасаентист должен писануться перед начальством больше похоже на сублимацию, чем на бизнес решение - покупать или не покупать продукт
Проблема в том, что в дейта сайнс трудно сделать универсальный продукт. Допустим, разработал метод. Сделал из него продукт. А как показать, что он о-го-го? Ведь все от самой задачи и данных зависит. На одних данных будет о-го-го, а на других - шишок. Что продавать то? Вот и продают сервисы. Типа мы вам тут все бизнес-задачи перерешаем.
-
- Уже с Приветом
- Posts: 545
- Joined: 07 Jan 2016 13:04
Re: kaggle.com - competitions
К сожалению, подавляющее большинство статей, выходящих в последние, годы - караул и без упоминания о скалярах. Одни только эмоциональные и маркетинговые доказательства лемм чего стоят. Реально уже несколько раз встречал, что приводят лемму, доказывают ее примером из практики и ссылкой на какой-нибудь Gartner.Физик-Лирик wrote: ↑17 Sep 2018 20:21Если автор статьи объясняет обозначения вначале - тогда нормально. Будет хуже, если под скалярным произведением автор подразумевает нечто другое Вот тогда действительно караул.
Это у вас в биотехе свои ученые есть. Понятно, что в таком случае не приходится объяснять очевидные вещи всем подряд. У меня же самый лучший расклад - это маленький фарм заводик, где ЛПР - это кто-то с дипломом по вычислительной химии или чему-то вроде этого. Там хоть после непродолжительного меряния факториалами говорят или идите делайте, или давайте пилить скоп на следующий год. Хуже когда приходится иметь дело с AI менеджером. AI тут - arrogance & ignorance, а не то, что Вы подумали. В этом случае события могут развиваться абсолютно нетривиально. По-сути, начав объяснять ему сложные вещи понятным языком вы разрушаете его представление о мире. Возможно вы удивитесь, но большинство с кем я общаюсь начинают плыть уже с момента того, что оптимизация счетная и результат это число. Не все интуитивно понимают, что оптимизация - есть последовательное улучшение результата, а для этого результаты должны быть сравнимы. Вот так вот...Физик-Лирик wrote: ↑17 Sep 2018 20:21Другое дело, что возможно менеджеру детали и не надо объяснять, если у них свои ученые есть.
Кто-то из писателей фантастов сказал, что "любая достаточно зрелая технология в конечном итоге начинает восприниматься обывателем как магия", а кто-то другой, что "начав спорить с идиотом, вам придется опуститься до его уровня, где он вас задавит своим опытом". Вот эти две цитаты в полной мере отражают мое текущее восприятие ситуации. Вот подумайте как вы будете подходить к задаче, если вас попросят написать спеку в индийский аутсорс, где нужно перемножать две разреженные матрицы, но имея представление о том, как именно они разрежены, т.е. зная где 100% стоят нули. При этом, эти нули каждый раз могут быть в разном месте, но всегда известно в каком. Вариант "написать самому" не канает, т.к. индус "отвечает за качество и сопровождаемость кода".
Я бы конечно хотел сказать, что я стараюсь равняться на Ричарда Фейнмана с его объяснением физики, но и ему нужны были подручные приспособления, чтоб объяснять предмет более качественной аудитории. Хотя, конечно, до способности Фейнмана к объяснению мне еще копать и копать... Кстати недавно получил большее удовольствие от другой книжки "Матанализ с человеческим лицом", интересное чтение и много отсылок к истории предмета, о которых я не знал и которые некоторые вещи для меня поставили на свои места, хотя книжка больше научпоп.
-
- Уже с Приветом
- Posts: 64661
- Joined: 12 Jul 2002 16:38
- Location: г.Москва, ул. Б. Лубянка, д.2
Re: kaggle.com - competitions
я и так знаю, что индус накрутит прослойки из 3 фреймворков, чтобы в самую глубь запихать дубовое перемножение матриц, плюя на разреженность. Потом 100 лет будет дебаггить. Даже если его монстросити и взлетит, то сервер под ней ляжет надолго.tessob wrote: ↑17 Sep 2018 21:46 Вот подумайте как вы будете подходить к задаче, если вас попросят написать спеку в индийский аутсорс, где нужно перемножать две разреженные матрицы, но имея представление о том, как именно они разрежены, т.е. зная где 100% стоят нули. При этом, эти нули каждый раз могут быть в разном месте, но всегда известно в каком. Вариант "написать самому" не канает, т.к. индус "отвечает за качество и сопровождаемость кода".
а вы хотели поэффективнее? Этого в Индии не производят.
-
- Уже с Приветом
- Posts: 545
- Joined: 07 Jan 2016 13:04
Re: kaggle.com - competitions
Я тут много раз писал уже, что в случае ДС продают обычно консалт или платформу для расчетов (типа API к библиотеке ML). Сентимент уже не в сторону ML так что, если вы этим реально горите и понимаете, что можете принести гарантированное бизнес-велью, то для вас в долгосрочной перспективе будет все не плохо. Только с "гарантированностью" у ДС все тоскливо обычно, и именно это основная проблема того, что ДС хреново продается. Просто любой адекватный менеджер стремится включить в контракт измеримые деливерис.Физик-Лирик wrote: ↑17 Sep 2018 21:18Что продавать то? Вот и продают сервисы. Типа мы вам тут все бизнес-задачи перерешаем.
-
- Уже с Приветом
- Posts: 545
- Joined: 07 Jan 2016 13:04
Re: kaggle.com - competitions
Но вы же понимаете, что следующее ТЗ вы будете писать про ускорение работы предыдущего и тогда вам еще предстоит погрузится в весь тот говнокод, чтоб от чего-то оттталкиваться. Очевидно же, что аргумент "все говно" встретит аргумент "нужно писать нормальные ТЗ".
-
- Уже с Приветом
- Posts: 64661
- Joined: 12 Jul 2002 16:38
- Location: г.Москва, ул. Б. Лубянка, д.2
Re: kaggle.com - competitions
зачем мне погружаться? Пишу короткое ТЗ "Need to improve performance, time <to perform operation such and such> should be under <xxx> seconds on current hardware".
Теперь пусть индус не спит.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: kaggle.com - competitions
На мой взгляд, ДС сейчас очень неплохо продается. Просто надо правильно акценты расставлять по поводу, что можно сделать, а что нельзя. Другое дело, что бизнес далеко не всегда знает, что он конкретно хочет. А посему зачастую формулировка задач выглядит очень каряво. Я уже добавил к своему научному амплуа (которая может и испугать бизнес) новую роль - этакого спасителя бизнеса от своего же (бизнеса) невежества. Очень хорошо на интервью проходит (при правильной подаче, естественно) и позволяет быстро показать свое "я" при начале новой работы. На митингах начинаешь яростно допрашать бизнес в смысле, да как вы тут до меня вообще существовали. Вставишь ключевые слова, и роль спасителя бизнеса уже за тобой. После этого главное не переиграть. Вот такой театр получается.tessob wrote: ↑17 Sep 2018 21:58Я тут много раз писал уже, что в случае ДС продают обычно консалт или платформу для расчетов (типа API к библиотеке ML). Сентимент уже не в сторону ML так что, если вы этим реально горите и понимаете, что можете принести гарантированное бизнес-велью, то для вас в долгосрочной перспективе будет все не плохо. Только с "гарантированностью" у ДС все тоскливо обычно, и именно это основная проблема того, что ДС хреново продается. Просто любой адекватный менеджер стремится включить в контракт измеримые деливерис.Физик-Лирик wrote: ↑17 Sep 2018 21:18Что продавать то? Вот и продают сервисы. Типа мы вам тут все бизнес-задачи перерешаем.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: kaggle.com - competitions
Для железа и софта такое ТЗ то, что надо. А когда такое видишь в дейта сайнсе, типа "улучшить" - хочется бизнесу сказать все, что о нем думаешь.
-
- Новичок
- Posts: 57
- Joined: 11 Oct 2015 17:03