Имеется достаточное количество документов для скармливания в нейронную сеть и последующей классификации.
Но все они в лучшем случае в word.
Может кто-то делал подобную задачу? Чем бы сконвертить документы в текст на python?
Конвертация из Word, RTF для классификации документов
-
- Уже с Приветом
- Posts: 607
- Joined: 17 Dec 2009 11:27
-
- Уже с Приветом
- Posts: 56113
- Joined: 06 May 2001 09:01
Re: Конвертация из Word, RTF для классификации документов
В Линуксе просто:
для вордовских файлов: docx2txt
для pdf: pdf2text
если их тут "не стояло": sudo apt install docx2txt
для вордовских файлов: docx2txt
для pdf: pdf2text
если их тут "не стояло": sudo apt install docx2txt
в реале супруги редко бывают друзьями, так как их отношения подпорчены сексом (с)Роза
Плавали-Знаем! (C)
Плавали-Знаем! (C)