Яндекс Лабс в Palo Alto набирает С++ developers

crypto5 · Post by **crypto5** » 23 Jan 2014 07:47

Ljolja wrote:
crypto5 wrote: А алгоритмически - посортировать, пройтись по сортированному списку, посчитать каунты, потом еще раз пройтись и найти десять самых больших каунтов, потом еще раз пройтись, и найти запросы для этих каунтов.
дорогое решение, даже если в процессе сортировки повторения убирать и счетчик увеличивать. имхо лучше сначала кластеризовать по некот. признаку подобия. потом отсортировать только кластер с наименьшей дисперсией, если там в итоге окажется < 10 запросов, отсортировать следуюший. Так же подход будет хорош, если соответствие 2-х (одинаковых) запросов не 100%

Осталось узнать хороший принцип подобия, и хороший алгоритм кластеризации, а там может и тунели сойдутся.
Именно поэтому в гугле просят на доске код написать, что-бы туман мудрости развеять.

stenking · Post by **stenking** » 23 Jan 2014 07:48

crypto5 wrote:
stenking wrote:
crypto5 wrote:
stenking wrote:Ну если это яндекс то памяти много и нужно быстро. Можно такое дерево например составить.

А => 1000 => АА => 500
Б => 9999 АБ => 4
С => 100
А как именно это дерево строится?
Если это http://en.wikipedia.org/wiki/Trie то тоже может быть одной из оптимизаций.
Ну берём например запрос "Почему путин краб" http://www.youtube.com/watch?v=2ZFCXV7w9NM

"П" => 1
"ПО" => 1
"ПОЧ" => 1
И что дальше?

Ну берём например запрос "Почему путин краб" http://www.youtube.com/watch?v=2ZFCXV7w9NM

"П" => 1
"ПО" => 1
"ПОЧ" => 1

Потом второй запрос "Почему нужны трусы"

"П" => 2
"ПО" => 2
"ПОЧ" => 2
...

"ПОЧЕМУ" => 2

ПОЧЕМУНУЖНЫТРУСЫ => 1

Зачем сохранять части а не сразу использовать хеш поиска как ключ? Для последующего поиска самых больших запросов например что бы не искать весь миллиард а скорее пройтись по П => "ПО" => "ПОЧЕМУ" нет?

Post by **dotcom** » 23 Jan 2014 07:51

Я бы все-таки дождался точного вопроса. А то диапазон решений может быть от подсчета частоты появления слова из словаря до теории, как делать map-reduce. А, может, и все сразу.

crypto5 · Post by **crypto5** » 23 Jan 2014 07:52

stenking wrote:
crypto5 wrote:
stenking wrote:
crypto5 wrote:
stenking wrote:Ну если это яндекс то памяти много и нужно быстро. Можно такое дерево например составить.

А => 1000 => АА => 500
Б => 9999 АБ => 4
С => 100
А как именно это дерево строится?
Если это http://en.wikipedia.org/wiki/Trie то тоже может быть одной из оптимизаций.
Ну берём например запрос "Почему путин краб" http://www.youtube.com/watch?v=2ZFCXV7w9NM

"П" => 1
"ПО" => 1
"ПОЧ" => 1
И что дальше?

Ну берём например запрос "Почему путин краб" http://www.youtube.com/watch?v=2ZFCXV7w9NM

"П" => 1
"ПО" => 1
"ПОЧ" => 1

Потом второй запрос "Почему нужны трусы"

"П" => 2
"ПО" => 2
"ПОЧ" => 2
...

"ПОЧЕМУ" => 2

ПОЧЕМУНУЖНЫТРУСЫ => 1

Зачем сохранять части а не сразу использовать хеш поиска как ключ? Для последующего поиска самых больших запросов например что бы не искать весь миллиард а скорее пройтись по П => "ПО" => "ПОЧЕМУ" нет?

Я совершенно не понял мысли, что означает "хеш поиска" в частности, и как именно предлагается найти 10 самых часто встречающихся запросов вообще.
Т.е. я согласен, что если заюзать trie вместо сортировки в моем алгоритме, то оно бусет работать. Вы это предлагаете?

Komissar · Post by **Komissar** » 23 Jan 2014 07:53

если подразумевается "точная" (буква к букве, пробел к пробелу) идентичность 2х запросов, то кластеризуем по длине строки сначала, а там уже делаем субкластеризацию самого большого кластера.

Post by **Berlaga** » 23 Jan 2014 07:55

dotcom wrote:Я бы все-таки дождался точного вопроса.

А это и был точный вопрос. Ну еще в качестве разъяснения добавили, что это массив реальных запросов к поисковой системе Яндекса за некоторый период времени, допустим одну неделю. Все.

crypto5 · Post by **crypto5** » 23 Jan 2014 07:56

Komissar wrote:если подразумевается "точная" (буква к букве, пробел к пробелу) идентичность 2х запросов, то кластеризуем по длине строки сначала, а там уже делаем субкластеризацию самого большого кластера.

Ну можно по многим разным признакам покластеризовать, только вы никак не сможете прикинуть какая окуратность вашего решения в конце концов получится.

Post by **dotcom** » 23 Jan 2014 07:57

Berlaga wrote:
dotcom wrote:Я бы все-таки дождался точного вопроса.
А это и был точный вопрос. Ну еще в качестве разъяснения добавили, что это массив реальных запросов к поисковой системе Яндекса за некоторый период времени, допустим одну неделю. Все.

Ну тогда это открытый вопрос на смекалку и общие знания.

Ljolja · Post by **Ljolja** » 23 Jan 2014 08:01

crypto5 wrote: Осталось узнать хороший принцип подобия, и хороший алгоритм кластеризации, а там может и тунели сойдутся.
Именно поэтому в гугле просят на доске код написать, что-бы туман мудрости развеять.

на вскидку параметры: количество символов в запросе, их распределение (частота встречаемости символа), символы рассматривать не все, ограничится например "a", "t", etc. (based on prior knowledge regarding what symbols discriminate better)

crypto5 · Post by **crypto5** » 23 Jan 2014 08:04

Ljolja wrote:
crypto5 wrote: Осталось узнать хороший принцип подобия, и хороший алгоритм кластеризации, а там может и тунели сойдутся.
Именно поэтому в гугле просят на доске код написать, что-бы туман мудрости развеять.
на вскидку параметры: количество символов в запросе, их распределение (частота встречаемости символа), символы рассматривать не все, ограничится например "a", "t", etc. (based on prior knowledge regarding what symbols discriminate better)

А откуда вы узнали что это именно хорошие признаки подобия? и алгоритм выдаст хорошую точность?
И не могли бы вы как то оценить, почему все ваши манипуляции будут работать быстрее моего алгоритма? Я тоже могу наповыдумывать много необычных штук, но это все будет пальцем в небо.

scorpion · Post by **scorpion** » 23 Jan 2014 08:05

crypto5 wrote:Задача не очень точно поставлена...

Задача, если мне не изменяет склероз, модификация "стандартной", удалите(найдите) дубликаты строк из ну очень большого и несортированного массива. И в зависимости от положения звезд на небе, сделать это надо с имеющимися ограничениями по объему используемой памяти или времени, или того и другого одновременно, или как-нибудь, но с "изюминкой", например, в одну строчку.

stenking · Post by **stenking** » 23 Jan 2014 08:08

А если случайно взять скажем миллион samples?

Post by **Интеррапт** » 23 Jan 2014 08:08

А еще вопрос - список хоть отсортирован, уже хеширован и т.п.? Как-то ведь слабо верится, что они просто тупо скидывают все запросы в один, условно говоря файл, без того, чтобы проделывать все эти манипуляции по мере поступления данных?

crypto5 · Post by **crypto5** » 23 Jan 2014 08:09

stenking wrote:А если случайно взять скажем миллион samples?

Ну тогда можно и случайный результат получить

Komissar · Post by **Komissar** » 23 Jan 2014 08:09

good question

crypto5 · Post by **crypto5** » 23 Jan 2014 08:10

Интеррапт wrote:А еще вопрос - список хоть отсортирован, уже хеширован и т.п.? Как-то ведь слабо верится, что они просто тупо скидывают все запросы в один, условно говоря файл, без того, чтобы проделывать все эти манипуляции по мере поступления данных?

А что такое - хешированный список?

stenking · Post by **stenking** » 23 Jan 2014 08:12

crypto5 wrote:
stenking wrote:А если случайно взять скажем миллион samples?
Ну тогда можно и случайный результат получить

А там теория вероятности говорить по этому поводу?)

crypto5 · Post by **crypto5** » 23 Jan 2014 08:12

stenking wrote:
crypto5 wrote:
stenking wrote:А если случайно взять скажем миллион samples?
Ну тогда можно и случайный результат получить
А там теория вероятности говорить по этому поводу?)

Говорит что можно

Post by **Интеррапт** » 23 Jan 2014 08:14

crypto5 wrote:
Интеррапт wrote:А еще вопрос - список хоть отсортирован, уже хеширован и т.п.? Как-то ведь слабо верится, что они просто тупо скидывают все запросы в один, условно говоря файл, без того, чтобы проделывать все эти манипуляции по мере поступления данных?
А что такое - хешированный список?

Не список хеширован, а элементы в нем. По большому счету, должны же как минимум сразу хеш запроса (записи) калькулировать, как это делают обычные базы данных при индексации, а не просто тупо сохранять миллиарды записей в файл, а потом с ними манипулировать.

Komissar · Post by **Komissar** » 23 Jan 2014 08:15

во-во.

crypto5 · Post by **crypto5** » 23 Jan 2014 08:15

Интеррапт wrote:
crypto5 wrote:
Интеррапт wrote:А еще вопрос - список хоть отсортирован, уже хеширован и т.п.? Как-то ведь слабо верится, что они просто тупо скидывают все запросы в один, условно говоря файл, без того, чтобы проделывать все эти манипуляции по мере поступления данных?
А что такое - хешированный список?
Не список хеширован, а элементы в нем. По большому счету, должны же они сразу хеш запроса (записи) калькулировать, как это делают обычные базы данных при индексации, а не просто тупо сохранять миллиарды записей в файл, а потом с ними манипулировать.

Ну вот в разных хадупах так и делают, просто сохраняют записи в файлах, и потом их мепредьюсят, без всяких хешей.

Post by **Интеррапт** » 23 Jan 2014 08:16

crypto5 wrote:Ну вот в разных хадупах так и делают, просто сохраняют записи в файлах, и потом их мепредьюсят, без всяких хешей.

Начал уже было про mapreduce писать, но вы опеределили. Все-равно массу прекалькуляций наверняка можно сделать на этапе получения данных.

scorpion · Post by **scorpion** » 23 Jan 2014 08:16

Интеррапт wrote:Как-то ведь слабо верится, что они просто тупо скидывают все запросы в один, условно говоря файл, без того, чтобы проделывать все эти манипуляции по мере поступления данных?

Манипуляции проделываются, но не совсем в реальном времени, т.е. можно считать, что все валится в кучу.

Komissar · Post by **Komissar** » 23 Jan 2014 08:18

ну тут, как всегда, вопрос в востребованности хешированных данных. На этом вся БЫГ ДАТА и построена, что, как оказалось, вся data integrity, indexing, etc - в 99% никому не нужны, потому все проще сваливать в одну помойку, а уж если потребуется, потом в той помойке что-то конкретное искать. Я вот все хочу такое же применить к моим tax-supporting documents.

Post by **Интеррапт** » 23 Jan 2014 08:20

scorpion wrote:
Интеррапт wrote:Как-то ведь слабо верится, что они просто тупо скидывают все запросы в один, условно говоря файл, без того, чтобы проделывать все эти манипуляции по мере поступления данных?
Манипуляции проделываются, но не совсем в реальном времени, т.е. можно считать, что все валится в кучу.

Да понятное дело, что можно манипулировать как угодно, пусть даже не в реальном времени. Но определенный препроцессинг можно делать уже на этапе получения данных (пусть даже определенными бакетами). Ну вот вряд-ли просто тупо выкатят тебе миллиарды записей и скажут, а ну посчитай что тут и как. Умнее же должно это быть.

Привет

Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Re: Яндекс Лабс в Palo Alto набирает С++ developers