[Из песочницы] Автоматизация конвертирования word файлов в другие форматы
|
|
Понедельник, 25 Февраля 2019 г. 22:59
+ в цитатник
Некоторые гос. структуры формируют отчёты в doc файлах. Где-то это делается руками, а где-то автоматически. Представим, что вам поручено обработать тонну таких документов. Это может быть необходимо для вычленения какой-то конкретной информации или просто проверки содержимого. Нам нужно вынуть только неформатированный текст без графиков и картинок. К примеру такие данные проще засовывать в нейронную сеть для дальнейшего анализа.
Вот некоторые варианты для самого обычного человека:
- Ручками перебрать все файлы по одному. Уже после десятого документа к вам придёт мысль о том, что вы делаете что-то не так.
- Попробовать найти в интернете специальную библиотеку (расширение) для работы с doc файлами на языке программирования, которым вы владеете. Потратить часок другой на понимание как работать с этой библиотекой. Также вам ещё предстоит столкнуться с тем, что принципы работы с doc и docx слегка отличаются.
- Попытаться автоматизировано пересохранить все документы в другой формат, с которым будет удобнее работать.
Как раз о последнем варианте и пойдёт речь.
И на помощь к нам спешит vbs скрипт. vbs скрипт можно вызвать из командной строки, что можно сделать в любом языке программирования.
Читать дальше -> https://habr.com/ru/post/441736/?utm_source=habrahabr&utm_medium=rss&utm_campaign=441736
Метки:
wordpress
pdf
word
автоматизация
python
vbscript
vbs
конвертирование
работа с документами
в pdf
в txt
автоматизация рутины
конвертирование в txt
конвертирование в pdf
-
Запись понравилась
-
0
Процитировали
-
0
Сохранили
-