Большому начальству захотелось побыть большим братом и получать алерты когда определённый абзац текста в системе не меняется _существенно_ от месяца к месяцу. Естественно что такое существенно не было сказано и не будет. Определить изменения в общем не проблема. Сейчас сижу играюсь с Levenstein, cosine и т.п. алгоритмами.
Вопрос как определить что существенно и что нет.
Expected return $100MM.
Expected return $10MM.
Количественно изменения маленькие но по сути очень существенные. AI или ML знаний нет поэтому теплится слабая надежда что кто-то посоветует что-то что можно использовать прямо из коробки.
Sentences similarity
-
- Уже с Приветом
- Posts: 549
- Joined: 07 Jan 2016 13:04
Re: Sentences similarity
Самое простое, на мой взгляд - это просто описать все векторами 2-грамм или 3-грамм и измерять расстояние между ними, например евклидово (пофигу в вашем случае). Так получится отсортировать все это хозяйство. Манагеры просто пальцем проведут там где граница и все.
В случае n-грамм, чем больше n, тем лучше качество сравнения, но дороже все это хранить и обрабатывать. Если у вас тексты осмысленные, а не CSV дампы из СУБД, то и 1-грамм будет достаточно.
В случае n-грамм, чем больше n, тем лучше качество сравнения, но дороже все это хранить и обрабатывать. Если у вас тексты осмысленные, а не CSV дампы из СУБД, то и 1-грамм будет достаточно.
-
- Уже с Приветом
- Posts: 5347
- Joined: 03 Feb 1999 10:01
- Location: NJ, USA
-
- Уже с Приветом
- Posts: 549
- Joined: 07 Jan 2016 13:04
Re: Sentences similarity
Вектор n-грамм - это некий массив, который просто содержит число данных n-грамм в документе. Например:
1) у нас алфавит из 3х букв: A, B, C.
2) и есть слово AABCBC
Соответственно вектор:
1) 1-грамм = { A:2, B:2, C:2 }
2) 2-грамм = { AA:1, AB:1, BC:2, CB:1 }
Ну и дальше вы просто считаете расстояние.
1) у нас алфавит из 3х букв: A, B, C.
2) и есть слово AABCBC
Соответственно вектор:
1) 1-грамм = { A:2, B:2, C:2 }
2) 2-грамм = { AA:1, AB:1, BC:2, CB:1 }
Ну и дальше вы просто считаете расстояние.
-
- Уже с Приветом
- Posts: 5347
- Joined: 03 Feb 1999 10:01
- Location: NJ, USA
Re: Sentences similarity
Т.е. 1-грамм это тупо количество вхождения каждой буквы в слово?