выбор технологии

User avatar
Гоша Хороший
Мистер Привет 2018
Posts: 1853
Joined: 03 Dec 2017 20:31
Location: 3.14ter -> 1qver

выбор технологии

Post by Гоша Хороший »

в компании отсканировали газету за 50-100 лет. сделали tiff-, pdf-, mdf- (not sql, text) files и это архив, который никогда не будет обновляться. теперь ставится задачка поиска информации в этих файлах. файлов думаю порядка 50 000

какие новые технологии можно использовать для поиска слова?

1-е, что пришло в голову - проиндексировать все пдф или текст файлы, создать каталог, и выплевывать юзеру ссылку на этот пдф. юзер может найти это слово внутри пдф (ctrl+f)

2-е, запихнуть текст инфо в базу данных (sql) и использовать full text search. в текске нельзя отличить, где заголовок статьи, а где ее содержание. но есть координаты параграфа и все, что внутри. все координаты на каждой странице разные. по мне, лучше бы это была сетка - 3 колонки, 20 рядов. эти координаты нужны, чтобы выделить прямоугольник на картинке с найденным словом, если показывать юзеру скан газеты

может это прошлый век и лучше использовать solr, ealstic search или еще что-то? подскажите плз

вот пример, mdf/txt файла и pdf, но в пдф не все ищется (не смог найти pockety)

1081 ^ 1443 ^ 955 ^ 125 ^ The ore is very pockety, but one or two pockets a tenth as rich as this will pay for years of development to make a mine. ^
You do not have the required permissions to view the files attached to this post.
Гоша хороший, а Маша еще лучше
Iirdna
Новичок
Posts: 21
Joined: 18 Aug 2013 02:23

Re: выбор технологии

Post by Iirdna »

попробовать загрузить в какойнить Google.docs - там по картинке даже текст ищет вроде - pdf и подавно
потом чере api искать и в фрейм документ прогружать
наверняка что-то похожее есть в sharepoint и прочих soho/smartsheets/etc

короче - найти готовый сервис или сервер для этого
для статичного набора «газет» должно быть довольно дёшево
User avatar
AndrI-Oxa
Уже с Приветом
Posts: 3837
Joined: 18 Oct 2003 04:51
Location: Umbala-Umbala

Re: выбор технологии

Post by AndrI-Oxa »

Гоша Хороший wrote: 14 Oct 2021 20:33 в компании отсканировали газету за 50-100 лет. сделали tiff-, pdf-, mdf- (not sql, text) files и это архив, который никогда не будет обновляться. теперь ставится задачка поиска информации в этих файлах. файлов думаю порядка 50 000

какие новые технологии можно использовать для поиска слова?

1-е, что пришло в голову - проиндексировать все пдф или текст файлы, создать каталог, и выплевывать юзеру ссылку на этот пдф. юзер может найти это слово внутри пдф (ctrl+f)

2-е, запихнуть текст инфо в базу данных (sql) и использовать full text search. в текске нельзя отличить, где заголовок статьи, а где ее содержание. но есть координаты параграфа и все, что внутри. все координаты на каждой странице разные. по мне, лучше бы это была сетка - 3 колонки, 20 рядов. эти координаты нужны, чтобы выделить прямоугольник на картинке с найденным словом, если показывать юзеру скан газеты

может это прошлый век и лучше использовать solr, ealstic search или еще что-то? подскажите плз

вот пример, mdf/txt файла и pdf, но в пдф не все ищется (не смог найти pockety)

1081 ^ 1443 ^ 955 ^ 125 ^ The ore is very pockety, but one or two pockets a tenth as rich as this will pay for years of development to make a mine. ^
яндекс переводчик просто офигенен для OCR и переводов.... Только как туда 50 тыс файлов запихать я не знаю... Может какие-то скрипты можно использовать :)
СКЛЮЮ ЛАСТЫ
Lisa
Уже с Приветом
Posts: 3208
Joined: 25 Jul 2000 09:01

Re: выбор технологии

Post by Lisa »

Lucene?
User avatar
Boriskin
Уже с Приветом
Posts: 18862
Joined: 30 Aug 2001 09:01
Location: 3rd planet

Re: выбор технологии

Post by Boriskin »

В первом приближении - прогнать все сканы через OCR и слинковать распознанный текст и сканы. Модель связи может быть на разном уровне детализации - от текста до страницы и от текста до статьи/фрагмента - это надо решать исходя из поддерживаемых use cases, самое простое - все распознанное на скан страницы.
Где и как это все хранить - упирается в вопросы частоты использования, сохранности данных, безопасности/платности доступа и бюджета на решение. Big data тут врядли нужна, разве что в планах сканировать все газеты из какой нить библиотеки конгресса за 200 лет.

Такие мысли за 5 минут.
Тупизна как Энтропия. Неумолимо растет.
User avatar
Гоша Хороший
Мистер Привет 2018
Posts: 1853
Joined: 03 Dec 2017 20:31
Location: 3.14ter -> 1qver

Re: выбор технологии

Post by Гоша Хороший »

спасибо за идеи. у нас уже вроде бы все отсканировано и сделаны картинки, пдф и текст файлы (думаю, все уже проплачено), но мне их качество не нравится: в пдф файлах я не могу найти (Ctrl+F) некоторые слова, может быть потому, что одна буква выше другой. думаю, что если я не могу найти это слова, то это слово не проиндексируется.

текстовые файлы тоже не произвели должного впечатления:

332 ^ 4260 ^ 101 ^ 12 ^ oe ^
513 ^ 4172 ^ 161 ^ 57 ^ Store in ^
752 ^ 4171 ^ 118 ^ 58 ^ North ^
676 ^ 4172 ^ 75 ^ 56 ^ the ^
353 ^ 3950 ^ 133 ^ 78 ^ FOR ^

по-моему, это - полный бардак. зачем выделять 5 прямоугольников?' это же не параграф.
Iirdna wrote: 14 Oct 2021 20:52 попробовать загрузить в какойнить Google.docs - там по картинке даже текст ищет вроде - pdf и подавно
я посмотрел https://drive.google.com/, но еще не все понял как использовать
AndrI-Oxa wrote: 14 Oct 2021 20:53 яндекс переводчик просто офигенен для OCR и переводов....
попробовал, но они переводят. у нас уже pdf есть, но если yandex делает более качественные файлы, то это вариант. надо сравнить, но я пока тоже не нашел как загрузить картинку и сделать из него пдф (бесплатно и без создания аккаунта)
Lisa wrote: 14 Oct 2021 23:24Lucene?
solr & lucene - близнецы братья. тоже пока скланяюсь к этому поиску. думаю сделать базу данных и прогнать все газеты через прогу, которая будет лайкать статью, если там есть ключевые слова из наших баз данных. затем -> solr
Boriskin wrote: 15 Oct 2021 16:11 Big data тут врядли нужна, разве что в планах сканировать все газеты из какой нить библиотеки конгресса за 200 лет.
тоже так подумал. файлов не так много, но параграфов - куча. думаю может, свои параграфы сделать по ширине колонки (из всего 3), чтобы текст выделить на рисунке. хотя они могут вообще быть не нужны.

думал, может в AWS забросить? S3? или базы данных каки-то новые использовать? но похоже, что hadoop точно не нужен (интересно поинграться было бы за казенные деньги)
Гоша хороший, а Маша еще лучше
User avatar
AndrI-Oxa
Уже с Приветом
Posts: 3837
Joined: 18 Oct 2003 04:51
Location: Umbala-Umbala

Re: выбор технологии

Post by AndrI-Oxa »

Гоша Хороший wrote: 15 Oct 2021 19:46
AndrI-Oxa wrote: 14 Oct 2021 20:53 яндекс переводчик просто офигенен для OCR и переводов....
попробовал, но они переводят. у нас уже pdf есть, но если yandex делает более качественные файлы, то это вариант. надо сравнить, но я пока тоже не нашел как загрузить картинку и сделать из него пдф (бесплатно и без создания аккаунта)
Мне просто надо было какой-то китайский документ в виде картинки перевести, знакомых китайцев под рукой как назло не оказалось, сунулся в гугльпереводчик, а тот обделался ещё на этапе распознавания текста. Кто-то посоветовал яндекс. Я просто обалдел, как чётко он работает. Аж гордость взяла за российских программистов :-)
Потом рекомандовал его другим людям. Народу нравится! (С)
СКЛЮЮ ЛАСТЫ
User avatar
valchkou
Уже с Приветом
Posts: 4185
Joined: 27 Apr 2011 03:43
Location: Сергели ->Chicago

Re: выбор технологии

Post by valchkou »

Гоша Хороший wrote: 14 Oct 2021 20:33 в компании отсканировали газету за 50-100 лет. сделали tiff-, pdf-, mdf- (not sql, text) files и это архив, который никогда не будет обновляться. теперь ставится задачка поиска информации в этих файлах. файлов думаю порядка 50 000

какие новые технологии можно использовать для поиска слова?

1-е, что пришло в голову - проиндексировать все пдф или текст файлы, создать каталог, и выплевывать юзеру ссылку на этот пдф. юзер может найти это слово внутри пдф (ctrl+f)

2-е, запихнуть текст инфо в базу данных (sql) и использовать full text search. в текске нельзя отличить, где заголовок статьи, а где ее содержание. но есть координаты параграфа и все, что внутри. все координаты на каждой странице разные. по мне, лучше бы это была сетка - 3 колонки, 20 рядов. эти координаты нужны, чтобы выделить прямоугольник на картинке с найденным словом, если показывать юзеру скан газеты

может это прошлый век и лучше использовать solr, ealstic search или еще что-то? подскажите плз

вот пример, mdf/txt файла и pdf, но в пдф не все ищется (не смог найти pockety)

1081 ^ 1443 ^ 955 ^ 125 ^ The ore is very pockety, but one or two pockets a tenth as rich as this will pay for years of development to make a mine. ^
https://help.accusoft.com/PrizmDoc/v13. ... conversion

для построение индекса, solr, ealstic search подходящие решения, все стальное скорее всего будет поверх этих.
User avatar
kyk
Уже с Приветом
Posts: 31438
Joined: 21 Nov 2004 05:12
Location: камбуз на кампусе

Re: выбор технологии

Post by kyk »

AndrI-Oxa wrote: 15 Oct 2021 19:58Кто-то посоветовал яндекс. Я просто обалдел, как чётко он работает.
ссылку дай. Куда китайский тест в Яндексе вставлять
Лучше переесть, чем недоспать! © Обратное тоже верно :umnik1:
User avatar
AndrI-Oxa
Уже с Приветом
Posts: 3837
Joined: 18 Oct 2003 04:51
Location: Umbala-Umbala

Re: выбор технологии

Post by AndrI-Oxa »

kyk wrote: 19 Oct 2021 05:01
AndrI-Oxa wrote: 15 Oct 2021 19:58Кто-то посоветовал яндекс. Я просто обалдел, как чётко он работает.
ссылку дай. Куда китайский тест в Яндексе вставлять
Странный вопрос, ну да ладно...
https://translate.yandex.com/
Там сверху менюшка для сайтов, документов и картинок.
Очень надеюсь, что дальше сам справишься :ROFL: ...
СКЛЮЮ ЛАСТЫ

Return to “Работа и Карьера в IT”