выбор технологии

Гоша Хороший · Post by **Гоша Хороший** » 14 Oct 2021 20:33

в компании отсканировали газету за 50-100 лет. сделали tiff-, pdf-, mdf- (not sql, text) files и это архив, который никогда не будет обновляться. теперь ставится задачка поиска информации в этих файлах. файлов думаю порядка 50 000

какие новые технологии можно использовать для поиска слова?

1-е, что пришло в голову - проиндексировать все пдф или текст файлы, создать каталог, и выплевывать юзеру ссылку на этот пдф. юзер может найти это слово внутри пдф (ctrl+f)

2-е, запихнуть текст инфо в базу данных (sql) и использовать full text search. в текске нельзя отличить, где заголовок статьи, а где ее содержание. но есть координаты параграфа и все, что внутри. все координаты на каждой странице разные. по мне, лучше бы это была сетка - 3 колонки, 20 рядов. эти координаты нужны, чтобы выделить прямоугольник на картинке с найденным словом, если показывать юзеру скан газеты

может это прошлый век и лучше использовать solr, ealstic search или еще что-то? подскажите плз

вот пример, mdf/txt файла и pdf, но в пдф не все ищется (не смог найти pockety)

1081 ^ 1443 ^ 955 ^ 125 ^ The ore is very pockety, but one or two pockets a tenth as rich as this will pay for years of development to make a mine. ^

Iirdna · Post by **Iirdna** » 14 Oct 2021 20:52

попробовать загрузить в какойнить Google.docs - там по картинке даже текст ищет вроде - pdf и подавно
потом чере api искать и в фрейм документ прогружать
наверняка что-то похожее есть в sharepoint и прочих soho/smartsheets/etc

короче - найти готовый сервис или сервер для этого
для статичного набора «газет» должно быть довольно дёшево

AndrI-Oxa · Post by **AndrI-Oxa** » 14 Oct 2021 20:53

Гоша Хороший wrote: ↑14 Oct 2021 20:33 в компании отсканировали газету за 50-100 лет. сделали tiff-, pdf-, mdf- (not sql, text) files и это архив, который никогда не будет обновляться. теперь ставится задачка поиска информации в этих файлах. файлов думаю порядка 50 000

какие новые технологии можно использовать для поиска слова?

1-е, что пришло в голову - проиндексировать все пдф или текст файлы, создать каталог, и выплевывать юзеру ссылку на этот пдф. юзер может найти это слово внутри пдф (ctrl+f)

2-е, запихнуть текст инфо в базу данных (sql) и использовать full text search. в текске нельзя отличить, где заголовок статьи, а где ее содержание. но есть координаты параграфа и все, что внутри. все координаты на каждой странице разные. по мне, лучше бы это была сетка - 3 колонки, 20 рядов. эти координаты нужны, чтобы выделить прямоугольник на картинке с найденным словом, если показывать юзеру скан газеты

может это прошлый век и лучше использовать solr, ealstic search или еще что-то? подскажите плз

вот пример, mdf/txt файла и pdf, но в пдф не все ищется (не смог найти pockety)

1081 ^ 1443 ^ 955 ^ 125 ^ The ore is very pockety, but one or two pockets a tenth as rich as this will pay for years of development to make a mine. ^

яндекс переводчик просто офигенен для OCR и переводов.... Только как туда 50 тыс файлов запихать я не знаю... Может какие-то скрипты можно использовать

Lisa · Post by **Lisa** » 14 Oct 2021 23:24

Lucene?

Boriskin · Post by **Boriskin** » 15 Oct 2021 16:11

В первом приближении - прогнать все сканы через OCR и слинковать распознанный текст и сканы. Модель связи может быть на разном уровне детализации - от текста до страницы и от текста до статьи/фрагмента - это надо решать исходя из поддерживаемых use cases, самое простое - все распознанное на скан страницы.
Где и как это все хранить - упирается в вопросы частоты использования, сохранности данных, безопасности/платности доступа и бюджета на решение. Big data тут врядли нужна, разве что в планах сканировать все газеты из какой нить библиотеки конгресса за 200 лет.

Такие мысли за 5 минут.

Гоша Хороший · Post by **Гоша Хороший** » 15 Oct 2021 19:46

спасибо за идеи. у нас уже вроде бы все отсканировано и сделаны картинки, пдф и текст файлы (думаю, все уже проплачено), но мне их качество не нравится: в пдф файлах я не могу найти (Ctrl+F) некоторые слова, может быть потому, что одна буква выше другой. думаю, что если я не могу найти это слова, то это слово не проиндексируется.

текстовые файлы тоже не произвели должного впечатления:

332 ^ 4260 ^ 101 ^ 12 ^ oe ^
513 ^ 4172 ^ 161 ^ 57 ^ Store in ^
752 ^ 4171 ^ 118 ^ 58 ^ North ^
676 ^ 4172 ^ 75 ^ 56 ^ the ^
353 ^ 3950 ^ 133 ^ 78 ^ FOR ^

по-моему, это - полный бардак. зачем выделять 5 прямоугольников?' это же не параграф.

Iirdna wrote: ↑14 Oct 2021 20:52 попробовать загрузить в какойнить Google.docs - там по картинке даже текст ищет вроде - pdf и подавно

я посмотрел https://drive.google.com/, но еще не все понял как использовать

AndrI-Oxa wrote: ↑14 Oct 2021 20:53 яндекс переводчик просто офигенен для OCR и переводов....

попробовал, но они переводят. у нас уже pdf есть, но если yandex делает более качественные файлы, то это вариант. надо сравнить, но я пока тоже не нашел как загрузить картинку и сделать из него пдф (бесплатно и без создания аккаунта)

Lisa wrote: ↑14 Oct 2021 23:24Lucene?

solr & lucene - близнецы братья. тоже пока скланяюсь к этому поиску. думаю сделать базу данных и прогнать все газеты через прогу, которая будет лайкать статью, если там есть ключевые слова из наших баз данных. затем -> solr

Boriskin wrote: ↑15 Oct 2021 16:11 Big data тут врядли нужна, разве что в планах сканировать все газеты из какой нить библиотеки конгресса за 200 лет.

тоже так подумал. файлов не так много, но параграфов - куча. думаю может, свои параграфы сделать по ширине колонки (из всего 3), чтобы текст выделить на рисунке. хотя они могут вообще быть не нужны.

думал, может в AWS забросить? S3? или базы данных каки-то новые использовать? но похоже, что hadoop точно не нужен (интересно поинграться было бы за казенные деньги)

AndrI-Oxa · Post by **AndrI-Oxa** » 15 Oct 2021 19:58

Гоша Хороший wrote: ↑15 Oct 2021 19:46
AndrI-Oxa wrote: ↑14 Oct 2021 20:53 яндекс переводчик просто офигенен для OCR и переводов....
попробовал, но они переводят. у нас уже pdf есть, но если yandex делает более качественные файлы, то это вариант. надо сравнить, но я пока тоже не нашел как загрузить картинку и сделать из него пдф (бесплатно и без создания аккаунта)

Мне просто надо было какой-то китайский документ в виде картинки перевести, знакомых китайцев под рукой как назло не оказалось, сунулся в гугльпереводчик, а тот обделался ещё на этапе распознавания текста. Кто-то посоветовал яндекс. Я просто обалдел, как чётко он работает. Аж гордость взяла за российских программистов

Потом рекомандовал его другим людям. Народу нравится! (С)

valchkou · Post by **valchkou** » 19 Oct 2021 03:47

Гоша Хороший wrote: ↑14 Oct 2021 20:33 в компании отсканировали газету за 50-100 лет. сделали tiff-, pdf-, mdf- (not sql, text) files и это архив, который никогда не будет обновляться. теперь ставится задачка поиска информации в этих файлах. файлов думаю порядка 50 000

какие новые технологии можно использовать для поиска слова?

1-е, что пришло в голову - проиндексировать все пдф или текст файлы, создать каталог, и выплевывать юзеру ссылку на этот пдф. юзер может найти это слово внутри пдф (ctrl+f)

2-е, запихнуть текст инфо в базу данных (sql) и использовать full text search. в текске нельзя отличить, где заголовок статьи, а где ее содержание. но есть координаты параграфа и все, что внутри. все координаты на каждой странице разные. по мне, лучше бы это была сетка - 3 колонки, 20 рядов. эти координаты нужны, чтобы выделить прямоугольник на картинке с найденным словом, если показывать юзеру скан газеты

может это прошлый век и лучше использовать solr, ealstic search или еще что-то? подскажите плз

вот пример, mdf/txt файла и pdf, но в пдф не все ищется (не смог найти pockety)

1081 ^ 1443 ^ 955 ^ 125 ^ The ore is very pockety, but one or two pockets a tenth as rich as this will pay for years of development to make a mine. ^

https://help.accusoft.com/PrizmDoc/v13. ... conversion

для построение индекса, solr, ealstic search подходящие решения, все стальное скорее всего будет поверх этих.

kyk · Post by **kyk** » 19 Oct 2021 05:01

AndrI-Oxa wrote: ↑15 Oct 2021 19:58Кто-то посоветовал яндекс. Я просто обалдел, как чётко он работает.

ссылку дай. Куда китайский тест в Яндексе вставлять

AndrI-Oxa · Post by **AndrI-Oxa** » 19 Oct 2021 14:00

kyk wrote: ↑19 Oct 2021 05:01
AndrI-Oxa wrote: ↑15 Oct 2021 19:58Кто-то посоветовал яндекс. Я просто обалдел, как чётко он работает.
ссылку дай. Куда китайский тест в Яндексе вставлять

Странный вопрос, ну да ладно...
https://translate.yandex.com/
Там сверху менюшка для сайтов, документов и картинок.
Очень надеюсь, что дальше сам справишься

...

Привет

выбор технологии

выбор технологии

Re: выбор технологии

Re: выбор технологии

Re: выбор технологии

Re: выбор технологии

Re: выбор технологии

Re: выбор технологии

Re: выбор технологии

Re: выбор технологии

Re: выбор технологии