it-swarm-ru.tech

Как скопировать текст из PDF без потери форматирования?

Когда я копирую текст из файла PDF в текстовый редактор, он оказывается искаженным различными способами. Форматирование как жирный шрифт и курсив теряются; мягкие разрывы строк внутри абзаца текста преобразуются в жесткие разрывы строк; черточки, разбивающие Слово на две строки, сохраняются даже тогда, когда их не должно быть; а одинарные и двойные кавычки заменяются на? приметы.

В идеале я хотел бы иметь возможность копировать текст из PDF и ​​преобразовывать форматирование в HTML-коды, "умные кавычки", преобразованные в "и", и разрывы строк делать правильно. Есть ли способ сделай это?

39
Colen

Во-первых, вы должны понять, что такое PDF. PDF-файлы предназначены для имитации печатной страницы, и они предназначены только в качестве выходного формата, а не входного формата. PDF - это, в основном, карта, содержащая точное расположение символов (отдельных букв или знаков препинания и т. д.) или изображений. В большинстве случаев, PDF даже не хранит информацию о том, где Слово заканчивается и начинается другое, гораздо меньше таких вещей, как мягкие разрывы или жесткие разрывы для окончаний абзаца.

(Несколько последних PDF-файлов действительно хранят некоторую информацию об этом материале, но это новая технология, и вам посчастливится найти такие PDF-файлы. Даже если бы вы это сделали, ваш PDF зритель может не знать об этом .)

В любом случае, ваше программное обеспечение должно реализовывать своего рода «искусственный интеллект», чтобы просто извлекать из местоположений отдельных персонажей, что такое Слово, что такое абзац и так далее. Разное программное обеспечение будет делать это лучше, чем другие, и это также будет зависеть от того, как был создан PDF. В любом случае вам следует никогда ожидать идеальных результатов. Выходные данные PDF - это не то же самое, что исходный документ. Гораздо лучше попытаться получить это, если вы можете.

Стандартное решение вашей проблемы - использовать Adobe Acrobat Professional (дорогой, а не бесплатный читатель) для преобразования PDF в HTML. Даже это не даст идеальных результатов.

Существует бесплатное программное обеспечение, которое можно использовать для извлечения текста из PDF-файлов с некоторым сохранением форматирования, но опять же, не ожидайте отличных результатов. См., Например, калибр (который может конвертироваться в формат RTF),pdftohtml/pdfreflow или текстовый процессор AbiWord (со всеми включенными плагинами импорта/экспорта). Есть также PDF плагин импорта для OpenOffice.

Но, пожалуйста, не ожидайте совершенства с любым из этих результатов. Вы идете против зерна здесь. PDF просто не подразумевается как редактируемый формат ввода.

53
frabjous

Другой вариант - скачать и начать использовать бесплатный просмотрщик PDF, Foxit (это хорошо). Затем вы можете «Сохранить как» и выбрать .txt, чтобы преобразовать его в текстовый файл. Это сохранит все форматирование. Не знаю, можете ли вы сделать то же самое в Adobe, потому что я перестал использовать его некоторое время назад, когда я перешел на Foxit.

8
chris

Существует очень хороший онлайн-инструмент под названием Sej-da. Он имеет дело с Advanced PDF Манипулирование. Там нет программного обеспечения для загрузки. Так как это новый онлайн-инструмент, он все еще находится в бета-версии. Он позволяет извлекать текст из PDF-файла, а также предоставляет множество других PDF функций

http://www.sejda.com/

Краткий видеообзор функций Сейда был сделан 14 ноября 2012 года редакцией 3, его можно найти здесь:

http://revision3.com/tzdaily/sejda-online-pdf

5
Simon

Откройте файл PDF в браузере (проверены Google Chrome и Firefox), а затем скопируйте туда свой текст.

4
harsini

Вы можете использовать Adobe Acrobat Pro для этого.

Для таблиц: в Acrobat 9/10 появилась функция выбора таблиц. В Acrobat X вы можете просто нажать «Сохранить как»> «Электронная таблица»> «Excel». Он даже объединяет страницы в одну длинную электронную таблицу. Потрясающая особенность.

Для текста: аналогичная функция существует для экспорта в MS Word. Сохранить как> Word> Word Doc.

Источники:

4
user156787

Я нашел это очень полезным ( Удалить разрывы строк ):

Вот полезный трюк, чтобы быстро решить эту проблему без необходимости удалять все разрывы строк вручную. По сути, все, что он делает, это автоматически заменяет все нежелательные разрывы строк одним пробелом, заставляя весь текст объединяться в один абзац:

1- скопируйте нужный текст из PDF.

2 - вставить в новый документ Word.

3- нажмите «изменить», затем «заменить»

4 - убедитесь, что вы находитесь в поле «найти что»

5- нажмите «больше», затем «специальные»

6- выберите «знак абзаца» (верхняя часть списка)

7- щелкните в поле «заменить на»

8- нажмите пробел один раз

9- нажмите «заменить все»

10 - нажмите «ОК», затем закройте окно «Найти и заменить».

0
sky-light

Foxit будет переключаться между отображением исходного файла в обычном режиме PDF или в виде текста, нажав Ctrl + 6. копирование)

0
Stoatly