IT горячка в Сиэттле, эпизод 2

Notghin · Post by **Notghin** » 13 Mar 2020 17:25

Нет смысла брать старье. Берите RTX2060/RTX2070/RTX2080 в зависимости от бюджета.

Chessplayer · Post by **Chessplayer** » 13 Mar 2020 17:41

Notghin wrote: ↑13 Mar 2020 17:25 Нет смысла брать старье. Берите RTX2060/RTX2070/RTX2080 в зависимости от бюджета.

вы бы хоть на их спеки посмотрели, прежде чем советы давать

Dweller · Post by **Dweller** » 13 Mar 2020 18:58

blak_box wrote: ↑13 Mar 2020 16:23 Топикстартер, Вы на работу-то вышли?

конечно! все ок, сегодня первый пейчек, работаю из дома

удалось съесть наш классный компанейский обед только один раз в первый день ориентации

потом отменили завтраки, потом запаковали обеды в нефотогеничные take-out boxes, а потом уже и обеды отменили и перевели всех на дом

сибас.jpeg

поркбелли.jpeg

ystar · Post by **ystar** » 14 Mar 2020 05:01

это так в амазоне кормят?

Dweller · Post by **Dweller** » 14 Mar 2020 06:26

ystar wrote: ↑14 Mar 2020 05:01 это так в амазоне кормят?

я бы сфотографировал как кормят в амазоне, но у меня там во время интервью не было времени на это, во-первых небольшая очередь, во-вторых банально не возникало такого желания

IvanGrozniy · Post by **IvanGrozniy** » 18 Mar 2020 20:32

Dweller wrote: ↑14 Mar 2020 06:26 ...

Хотелось бы спросить что этот график значит с точки зрения моделирования для машинного программирования.
Андрей Нг при начале какого-либо проекта советует быстренько сляпать простую модель в течении 24 часов. А потом уже смотреть в каком направлении работать и улучшать.
Поэтому я выбрал самую простейшую модель. Сделал пару скриптов на Питоне, которые собирают бесплатные данные с биржи Насдак за последние 10+ лет. Выбрал всего лишь одномерные входные данные для начала (понятно что будет бесполезная для практического использования модель). Сделал в Октаве нормализацию параметров и подсчеты. Потом буду усложнять систему добавлением других входных параметров.
На данный момент входная переменная Х - это разница в значениях Насдака между вчерашними значениями при закрытии биржы и позавчерашними. Значение Y которое буду предсказывать - это сегодняшний показатель сентиментального индекса IEE (грубо - соотношение быков и медведей на рынке). Конечная цель: Забить данные за вчера и позавчера, модель должна предсказать поведение на сегодня.
Получилось таких 2 инетерсных графика.
Соотвественно, есть вопрос, что рассказывает график с красными крестиками. Прямая линия модели - это понятный косяк, показывает, что надо полиномы делать с такими параметрами. Но если добавить другие параметры, то картина может измениться в корне. Соотвественно диагностирование модели на второй картинке бесполезно на данных для кросс валидации, так как модель негодная.

Но вот что значит, если так кучно крестики в кучку сбились в форме носа (напоминает гауссовское распределние)? Значит ли это, что параметры совсем левые? Андрей в лекциях про такое поведение совсем ничего не говорит.

Dweller · Post by **Dweller** » 18 Mar 2020 21:31

а хор его знает, график похож на шапочку для рождественского гномика

Мне первое задание дали на новой работе поковыряться в говне автоматизировать пайплайн, так что пока не до дата саенса

welcome to ML ops

Chessplayer · Post by **Chessplayer** » 18 Mar 2020 22:23

А в каком диапазоне ISEE может меняться? Диапазон изменения индекса Nasdaq как-то маловат. Или тут уже все отнормировано? Выглядит как будто одна переменная слабо зависит от другой. Корреляцию между ними считали?

IvanGrozniy · Post by **IvanGrozniy** » 18 Mar 2020 22:34

Chessplayer wrote: ↑18 Mar 2020 22:23 А в каком диапазоне ISEE может меняться? Диапазон изменения индекса Nasdaq как-то маловат. Или тут уже все отнормировано? Выглядит как будто одна переменная слабо зависит от другой. Корреляцию между ними считали?

Все векторы отнормированны таким образом:

Code: Select all

mu = mean(X);
X_norm = bsxfun(@minus, X, mu);
sigma = std(X_norm);
X_norm = bsxfun(@rdivide, X_norm, sigma);

Кстати, на второй картинке я забыл отнормировать набор данных для кросс-валидации

Вот исправленная картинка ниже. Зависимость ошибки от увеличения количества примеров из набора для тренировки. Ошибка большая и почти одинакова при добавлении элементов в train set. Согласно лекциям Андрюшки это у нас high bias, то есть, слишком простая модель. Нужно усложнять.
Насчет корреляции, я не считал. Интуитивно, она есть, но слабенькая. Похоже параболой предскажет хоть что-то.
Буду добавлять параметры постепенно. Жаль, что первая картинка уже не получится в многомерном варианте.

alex_127 · Post by **alex_127** » 19 Mar 2020 07:39

ystar wrote: ↑14 Mar 2020 05:01 это так в амазоне кормят?

в амазоне есть бесплатый чай и кофе. да, и ёще - кофе без кофеина.
и воды сколько влезет - никто не ограничивает. еды нет.

IvanGrozniy · Post by **IvanGrozniy** » 19 Mar 2020 12:52

Dweller wrote: ↑18 Mar 2020 21:31 а хор его знает, график похож на шапочку для рождественского гномика

Мне первое задание дали на новой работе поковыряться в говне автоматизировать пайплайн, так что пока не до дата саенса welcome to ML ops

Понятно. Почитал про ML Ops. Написали что только 22% компаний успешную модель выпускают. У остальных не получается… Кстати, к летнему релизу буду ML модель делать в своей компании с автоматизированным пайплайном. Тоже буду Ops со строчкой в резюме

IvanGrozniy · Post by **IvanGrozniy** » 19 Mar 2020 19:34

Вопрос тем, кто использует научную библиотеку для Питона под названием "sympy".
Цель - получить части полинома заданной степени (в данном случае 3), когда в уравнении больше одной переменной. Нашел билиотеку sympy, но хотелось бы все-таки динамически задавать количество переменных/размерность. На данный момент приходится оперировать странным для нас программистов изобретением из модуля sympy.abc, когда хардкодишь x, y, z и т.д. В общем хочу функцию написать, которая принимает размерность, степень уравнения и значения для всех перменных. На выходе массив со значениями от каждого токена полиномного уравнения.
Вот трехмерный пример, который я запрогроммировал:

Code: Select all

from sympy import symbols
from sympy.polys.monomials import itermonomials
from sympy.polys.orderings import monomial_key
from sympy.abc import x, y, z, h
import numpy

t = sorted(itermonomials([x, y, z], 2), key=monomial_key('grlex', [y, x, z]))
print(t)
for i in range(len(t)):
    expr = t[i]
    v = expr.evalf(subs={x: 1, y:2, z:3})
    str1 = 'expr = %s, computed value = %1.2f' % (expr, v)
    print(str1)

Вот что выводит на экран:

Code: Select all

[1, z, x, y, z**2, x*z, x**2, y*z, x*y, y**2]
expr = 1, computed value = 1.00
expr = z, computed value = 3.00
expr = x, computed value = 1.00
expr = y, computed value = 2.00
expr = z**2, computed value = 9.00
expr = x*z, computed value = 3.00
expr = x**2, computed value = 1.00
expr = y*z, computed value = 6.00
expr = x*y, computed value = 2.00
expr = y**2, computed value = 4.00

Соотвественно нужно вызывать функцию itermonomials с массивом переменных и сделать так, чтобы expr.evalf принимала значения переменных динамически (как массив?).
Это мне нужно затем, чтобы уйти от линейной регрессии, используя полную автоматизацию по увеличению/уменьшения размерности. Типа, захотел дополнительный параметр добавить в модель, добавил и компьютер новые параметры сгенерировал для полинома нужной степени.

IvanGrozniy · Post by **IvanGrozniy** » 21 Mar 2020 12:57

Я почти закончил курс ML. Осталось всего лишь 3 недели обучения из 11. В связи с этим смотрю как правильней применить вновь приобретенные знания. Зашел на сайт фрилансеров апворк и смотрю есть предложения коротких контрактов для удаленки по этой теме. Даже по $100 в час предлагают для работы по 10 часов в неделю! В связи с этим хочу спросить.
Уважаемые «машинисты», не могли бы подкинуть примеры профайлов и образцов из резюме как правильно себя преподать потенциальному работодателю. С правильным набором слов, чтобы заказчик сильно не зависал от незнакомых терминов. Буду благодарен любой информации. Спасибо.

IvanGrozniy · Post by **IvanGrozniy** » 29 Mar 2020 00:42

Ну вот я и эксперт, как утверждает Андрей Нг

Chessplayer · Post by **Chessplayer** » 29 Mar 2020 06:34

Поздравляю! Не останавливайтесь на достигнутом - вгрызайтесь в Deep Learning !

IvanGrozniy · Post by **IvanGrozniy** » 29 Mar 2020 11:02

Спасибо!

IvanGrozniy · Post by **IvanGrozniy** » 29 Mar 2020 13:39

Chessplayer wrote: ↑29 Mar 2020 06:34 Поздравляю! Не останавливайтесь на достигнутом - вгрызайтесь в Deep Learning !

Спасибо!
Deep Learning курс хочется поучить, но после этого ML курса мне хочется закрепить изученное и сделать 3-4 модели относительно рынка ценных бумаг для своих нужд инвестирования. А именно, linear regression с полиномами для предсказания больших процентов прибыли, потом сделать logistical regression модель и закрепить нейронной сетью предсказания поведения бирж. Также зарождаются идеи монетизации знаний через ML путем сканирования вебсайтов, типа, Амазона. Но в последнем случае одному будет тяжеловато реализовывать этот пайплайн. На все свободное время тратить буду. А через пару месяцев можно и за DL взяться.

Физик-Лирик · Post by **Физик-Лирик** » 29 Mar 2020 16:09

IvanGrozniy wrote: ↑19 Mar 2020 19:34 Вопрос тем, кто использует научную библиотеку для Питона под названием "sympy".
Цель - получить части полинома заданной степени (в данном случае 3), когда в уравнении больше одной переменной. Нашел билиотеку sympy, но хотелось бы все-таки динамически задавать количество переменных/размерность. На данный момент приходится оперировать странным для нас программистов изобретением из модуля sympy.abc, когда хардкодишь x, y, z и т.д. В общем хочу функцию написать, которая принимает размерность, степень уравнения и значения для всех перменных. На выходе массив со значениями от каждого токена полиномного уравнения.

Извиняюсь, но не понятно, в чем состоит задача. Я с библиотекой не знаком, но сама постановка задачи не ясна.

Физик-Лирик · Post by **Физик-Лирик** » 29 Mar 2020 16:13

Chessplayer wrote: ↑29 Mar 2020 06:34 Поздравляю! Не останавливайтесь на достигнутом - вгрызайтесь в Deep Learning !

И в чем состоит это "вгрызание"? В качестве десерта пред основным блюдом вопрос, а почему он вообще работает? В случае одного слоя - теорема об универсальной аппроксимации. А в многослойном случае? Каково теоретическое обоснование?

Физик-Лирик · Post by **Физик-Лирик** » 29 Mar 2020 16:18

IvanGrozniy wrote: ↑29 Mar 2020 13:39
Chessplayer wrote: ↑29 Mar 2020 06:34 Поздравляю! Не останавливайтесь на достигнутом - вгрызайтесь в Deep Learning !
Спасибо!
Deep Learning курс хочется поучить, но после этого ML курса мне хочется закрепить изученное и сделать 3-4 модели относительно рынка ценных бумаг для своих нужд инвестирования. А именно, linear regression с полиномами для предсказания больших процентов прибыли, потом сделать logistical regression модель и закрепить нейронной сетью предсказания поведения бирж.

Основная математическая модель рынка - геометрическое Броуновское движение. Оно является эмпирическим следствием того, что логарифм отношения цен акций дву дней - белый шум. Вопрос, как исходя из вышеприведенных данных кае будите моделировать да еще и ленейными моделями?

tessob · Post by **tessob** » 29 Mar 2020 17:14

Физик-Лирик wrote: ↑29 Mar 2020 16:18логарифм отношения цен акций дву дней - белый шум

Чо сразу с козырей-то!?

Вообще, если интересно, то можете глянуть на Elliott Wave Theory. Если не в курсе, то там апологеты опираются на предположение о том, что рынок имеет фрактальную циклическую природу. При этом не смотря на сугубую псевдонаучность теории, она ничем не уступает любой другой, в том числе и сугубо математическим алгоритмическим моделям, что уже интересно.

IvanGrozniy · Post by **IvanGrozniy** » 29 Mar 2020 17:24

Физик-Лирик wrote: ↑29 Mar 2020 16:18
IvanGrozniy wrote: ↑29 Mar 2020 13:39
Chessplayer wrote: ↑29 Mar 2020 06:34 Поздравляю! Не останавливайтесь на достигнутом - вгрызайтесь в Deep Learning !
Спасибо!
Deep Learning курс хочется поучить, но после этого ML курса мне хочется закрепить изученное и сделать 3-4 модели относительно рынка ценных бумаг для своих нужд инвестирования. А именно, linear regression с полиномами для предсказания больших процентов прибыли, потом сделать logistical regression модель и закрепить нейронной сетью предсказания поведения бирж.
Основная математическая модель рынка - геометрическое Броуновское движение. Оно является эмпирическим следствием того, что логарифм отношения цен акций дву дней - белый шум. Вопрос, как исходя из вышеприведенных данных кае будите моделировать да еще и ленейными моделями?

Если опытный инвестор может предсказать за месяц-два падение рынка базируясь на доступных индикаторах, которое мы наблюдаем сейчас, то приближенная модель тоже самое может сделать. Я не пытаюсь «основную модель» рынка создать. Это работа для хэджфандов, в которых крутятся миллиарды долларов. Дейтрейдерством я не занимаюсь и мне достаточно того, чтобы предсказать грядущую через месяц коррекцию или обвал.

IvanGrozniy · Post by **IvanGrozniy** » 29 Mar 2020 17:37

Физик-Лирик wrote: ↑29 Mar 2020 16:09
IvanGrozniy wrote: ↑19 Mar 2020 19:34 Вопрос тем, кто использует научную библиотеку для Питона под названием "sympy".
Цель - получить части полинома заданной степени (в данном случае 3), когда в уравнении больше одной переменной. Нашел билиотеку sympy, но хотелось бы все-таки динамически задавать количество переменных/размерность. На данный момент приходится оперировать странным для нас программистов изобретением из модуля sympy.abc, когда хардкодишь x, y, z и т.д. В общем хочу функцию написать, которая принимает размерность, степень уравнения и значения для всех перменных. На выходе массив со значениями от каждого токена полиномного уравнения.
Извиняюсь, но не понятно, в чем состоит задача. Я с библиотекой не знаком, но сама постановка задачи не ясна.

В машинном обучение есть такая методика, как искусственное наращивание степени полинома многих переменных, чтобы линейная модель превращалась в квадратичную и выше. Для этого нужно добавления переменных в степенях. Затем можно оценить, какая степень лучше подойдет. Например, смоделировали уравнение зависимости цены дома от площади. Получилось уравнение y = a*x + b. Смотрим график. Слишком большие дома уже не растут в цене линейно, а допустим растут в цене полиномом второй степени. Что делаем? Добавляем вторую переменную x2 = x* x. Теперь можно найти другое линейное уравнение, которое будет продуктом переменой х второй и первой степени. Получится y = c * x1 + d*X2 + w, где x1 эта переменная площади, x2 - это квадрат площади. Таким образом можно натягивать модели под определенные нужды. Кстати, в моем простом примере на пред странице можно модель улучшить параболой, вместо указанной прямой. Теперь если представить, что я собрал не одну переменную, а 2-3, а то и больше, то чтобы увеличить степень полинома, нужно все пермножать очень долго. Как раз на помощь и приходит библиотечка. Только мне бы хотелось задавать количество входных переменных динамически и получать ответ в таком же стиле. То есть зада 3-х мерную переменную на входе и желаемую степень на выходе, то алгоритм выдал уже не три колонки, а, скажем 9 с уже перемноженными числами. Следом прошу 3-ую степень. Потом могу добавить дополнительную колонку-размерность. Теперь нужно 4 переменных в степени производить. И т.д. Кстати , я снимаю свой вопрос - нашел исходники указанной библиотеки на Питоне и разобрался как самому все запрограммировать в циклах.

Chessplayer · Post by **Chessplayer** » 29 Mar 2020 18:49

Физик-Лирик wrote: ↑29 Mar 2020 16:13 И в чем состоит это "вгрызание"? В качестве десерта пред основным блюдом вопрос, а почему он вообще работает? В случае одного слоя - теорема об универсальной аппроксимации. А в многослойном случае? Каково теоретическое обоснование?

За теоретическим обоснованием это вы к Владимиру Вапнику обращайтесь. Он за это deep learning как раз критикует. Но эмпирически методы хорошо работают для большого ряда задач компьютерного зрения, распознавания текстов и аудио.

Dweller · Post by **Dweller** » 29 Mar 2020 18:57

Я че скажу вам.
Возьмите бесплатный аккаунт на aws, и основываясь на тех блоге какой нибудь солидной компании, сделайте похожий model training pipeline с участием как можно большего числа технологий. Sagemaker, s3, Hdfs, Kafka, spark, etc.
Доложите о результатах через полгода

Привет

IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2