в компании отсканировали газету за 50-100 лет. сделали tiff-, pdf-, mdf- (not sql, text) files и это архив, который никогда не будет обновляться. теперь ставится задачка поиска информации в этих файлах. файлов думаю порядка 50 000
какие новые технологии можно использовать для поиска слова?
1-е, что пришло в голову - проиндексировать все пдф или текст файлы, создать каталог, и выплевывать юзеру ссылку на этот пдф. юзер может найти это слово внутри пдф (ctrl+f)
2-е, запихнуть текст инфо в базу данных (sql) и использовать full text search. в текске нельзя отличить, где заголовок статьи, а где ее содержание. но есть координаты параграфа и все, что внутри. все координаты на каждой странице разные. по мне, лучше бы это была сетка - 3 колонки, 20 рядов. эти координаты нужны, чтобы выделить прямоугольник на картинке с найденным словом, если показывать юзеру скан газеты
может это прошлый век и лучше использовать solr, ealstic search или еще что-то? подскажите плз
вот пример, mdf/txt файла и pdf, но в пдф не все ищется (не смог найти pockety)
1081 ^ 1443 ^ 955 ^ 125 ^ The ore is very pockety, but one or two pockets a tenth as rich as this will pay for years of development to make a mine. ^
выбор технологии
-
- Мистер Привет 2018
- Posts: 1853
- Joined: 03 Dec 2017 20:31
- Location: 3.14ter -> 1qver
выбор технологии
You do not have the required permissions to view the files attached to this post.
Гоша хороший, а Маша еще лучше
-
- Новичок
- Posts: 21
- Joined: 18 Aug 2013 02:23
Re: выбор технологии
попробовать загрузить в какойнить Google.docs - там по картинке даже текст ищет вроде - pdf и подавно
потом чере api искать и в фрейм документ прогружать
наверняка что-то похожее есть в sharepoint и прочих soho/smartsheets/etc
короче - найти готовый сервис или сервер для этого
для статичного набора «газет» должно быть довольно дёшево
потом чере api искать и в фрейм документ прогружать
наверняка что-то похожее есть в sharepoint и прочих soho/smartsheets/etc
короче - найти готовый сервис или сервер для этого
для статичного набора «газет» должно быть довольно дёшево
-
- Уже с Приветом
- Posts: 3837
- Joined: 18 Oct 2003 04:51
- Location: Umbala-Umbala
Re: выбор технологии
яндекс переводчик просто офигенен для OCR и переводов.... Только как туда 50 тыс файлов запихать я не знаю... Может какие-то скрипты можно использоватьГоша Хороший wrote: ↑14 Oct 2021 20:33 в компании отсканировали газету за 50-100 лет. сделали tiff-, pdf-, mdf- (not sql, text) files и это архив, который никогда не будет обновляться. теперь ставится задачка поиска информации в этих файлах. файлов думаю порядка 50 000
какие новые технологии можно использовать для поиска слова?
1-е, что пришло в голову - проиндексировать все пдф или текст файлы, создать каталог, и выплевывать юзеру ссылку на этот пдф. юзер может найти это слово внутри пдф (ctrl+f)
2-е, запихнуть текст инфо в базу данных (sql) и использовать full text search. в текске нельзя отличить, где заголовок статьи, а где ее содержание. но есть координаты параграфа и все, что внутри. все координаты на каждой странице разные. по мне, лучше бы это была сетка - 3 колонки, 20 рядов. эти координаты нужны, чтобы выделить прямоугольник на картинке с найденным словом, если показывать юзеру скан газеты
может это прошлый век и лучше использовать solr, ealstic search или еще что-то? подскажите плз
вот пример, mdf/txt файла и pdf, но в пдф не все ищется (не смог найти pockety)
1081 ^ 1443 ^ 955 ^ 125 ^ The ore is very pockety, but one or two pockets a tenth as rich as this will pay for years of development to make a mine. ^
СКЛЮЮ ЛАСТЫ
-
- Уже с Приветом
- Posts: 18862
- Joined: 30 Aug 2001 09:01
- Location: 3rd planet
Re: выбор технологии
В первом приближении - прогнать все сканы через OCR и слинковать распознанный текст и сканы. Модель связи может быть на разном уровне детализации - от текста до страницы и от текста до статьи/фрагмента - это надо решать исходя из поддерживаемых use cases, самое простое - все распознанное на скан страницы.
Где и как это все хранить - упирается в вопросы частоты использования, сохранности данных, безопасности/платности доступа и бюджета на решение. Big data тут врядли нужна, разве что в планах сканировать все газеты из какой нить библиотеки конгресса за 200 лет.
Такие мысли за 5 минут.
Где и как это все хранить - упирается в вопросы частоты использования, сохранности данных, безопасности/платности доступа и бюджета на решение. Big data тут врядли нужна, разве что в планах сканировать все газеты из какой нить библиотеки конгресса за 200 лет.
Такие мысли за 5 минут.
Тупизна как Энтропия. Неумолимо растет.
-
- Мистер Привет 2018
- Posts: 1853
- Joined: 03 Dec 2017 20:31
- Location: 3.14ter -> 1qver
Re: выбор технологии
спасибо за идеи. у нас уже вроде бы все отсканировано и сделаны картинки, пдф и текст файлы (думаю, все уже проплачено), но мне их качество не нравится: в пдф файлах я не могу найти (Ctrl+F) некоторые слова, может быть потому, что одна буква выше другой. думаю, что если я не могу найти это слова, то это слово не проиндексируется.
текстовые файлы тоже не произвели должного впечатления:
332 ^ 4260 ^ 101 ^ 12 ^ oe ^
513 ^ 4172 ^ 161 ^ 57 ^ Store in ^
752 ^ 4171 ^ 118 ^ 58 ^ North ^
676 ^ 4172 ^ 75 ^ 56 ^ the ^
353 ^ 3950 ^ 133 ^ 78 ^ FOR ^
по-моему, это - полный бардак. зачем выделять 5 прямоугольников?' это же не параграф.
думал, может в AWS забросить? S3? или базы данных каки-то новые использовать? но похоже, что hadoop точно не нужен (интересно поинграться было бы за казенные деньги)
текстовые файлы тоже не произвели должного впечатления:
332 ^ 4260 ^ 101 ^ 12 ^ oe ^
513 ^ 4172 ^ 161 ^ 57 ^ Store in ^
752 ^ 4171 ^ 118 ^ 58 ^ North ^
676 ^ 4172 ^ 75 ^ 56 ^ the ^
353 ^ 3950 ^ 133 ^ 78 ^ FOR ^
по-моему, это - полный бардак. зачем выделять 5 прямоугольников?' это же не параграф.
я посмотрел https://drive.google.com/, но еще не все понял как использовать
попробовал, но они переводят. у нас уже pdf есть, но если yandex делает более качественные файлы, то это вариант. надо сравнить, но я пока тоже не нашел как загрузить картинку и сделать из него пдф (бесплатно и без создания аккаунта)
solr & lucene - близнецы братья. тоже пока скланяюсь к этому поиску. думаю сделать базу данных и прогнать все газеты через прогу, которая будет лайкать статью, если там есть ключевые слова из наших баз данных. затем -> solr
тоже так подумал. файлов не так много, но параграфов - куча. думаю может, свои параграфы сделать по ширине колонки (из всего 3), чтобы текст выделить на рисунке. хотя они могут вообще быть не нужны.
думал, может в AWS забросить? S3? или базы данных каки-то новые использовать? но похоже, что hadoop точно не нужен (интересно поинграться было бы за казенные деньги)
Гоша хороший, а Маша еще лучше
-
- Уже с Приветом
- Posts: 3837
- Joined: 18 Oct 2003 04:51
- Location: Umbala-Umbala
Re: выбор технологии
Мне просто надо было какой-то китайский документ в виде картинки перевести, знакомых китайцев под рукой как назло не оказалось, сунулся в гугльпереводчик, а тот обделался ещё на этапе распознавания текста. Кто-то посоветовал яндекс. Я просто обалдел, как чётко он работает. Аж гордость взяла за российских программистовГоша Хороший wrote: ↑15 Oct 2021 19:46попробовал, но они переводят. у нас уже pdf есть, но если yandex делает более качественные файлы, то это вариант. надо сравнить, но я пока тоже не нашел как загрузить картинку и сделать из него пдф (бесплатно и без создания аккаунта)
Потом рекомандовал его другим людям. Народу нравится! (С)
СКЛЮЮ ЛАСТЫ
-
- Уже с Приветом
- Posts: 4185
- Joined: 27 Apr 2011 03:43
- Location: Сергели ->Chicago
Re: выбор технологии
https://help.accusoft.com/PrizmDoc/v13. ... conversionГоша Хороший wrote: ↑14 Oct 2021 20:33 в компании отсканировали газету за 50-100 лет. сделали tiff-, pdf-, mdf- (not sql, text) files и это архив, который никогда не будет обновляться. теперь ставится задачка поиска информации в этих файлах. файлов думаю порядка 50 000
какие новые технологии можно использовать для поиска слова?
1-е, что пришло в голову - проиндексировать все пдф или текст файлы, создать каталог, и выплевывать юзеру ссылку на этот пдф. юзер может найти это слово внутри пдф (ctrl+f)
2-е, запихнуть текст инфо в базу данных (sql) и использовать full text search. в текске нельзя отличить, где заголовок статьи, а где ее содержание. но есть координаты параграфа и все, что внутри. все координаты на каждой странице разные. по мне, лучше бы это была сетка - 3 колонки, 20 рядов. эти координаты нужны, чтобы выделить прямоугольник на картинке с найденным словом, если показывать юзеру скан газеты
может это прошлый век и лучше использовать solr, ealstic search или еще что-то? подскажите плз
вот пример, mdf/txt файла и pdf, но в пдф не все ищется (не смог найти pockety)
1081 ^ 1443 ^ 955 ^ 125 ^ The ore is very pockety, but one or two pockets a tenth as rich as this will pay for years of development to make a mine. ^
для построение индекса, solr, ealstic search подходящие решения, все стальное скорее всего будет поверх этих.
-
- Уже с Приветом
- Posts: 31438
- Joined: 21 Nov 2004 05:12
- Location: камбуз на кампусе
Re: выбор технологии
ссылку дай. Куда китайский тест в Яндексе вставлять
Лучше переесть, чем недоспать! © Обратное тоже верно
-
- Уже с Приветом
- Posts: 3837
- Joined: 18 Oct 2003 04:51
- Location: Umbala-Umbala
Re: выбор технологии
Странный вопрос, ну да ладно...
https://translate.yandex.com/
Там сверху менюшка для сайтов, документов и картинок.
Очень надеюсь, что дальше сам справишься ...
СКЛЮЮ ЛАСТЫ