Типы PDF-документов. PDF — что это, как работает и как использовать

PDF(Portable Document Format), не просто всем известный и удобный формат, а и единственный, который является стандартом с 2008 года. Он был разработан командой компании Adobe Systems. Разработчики формата поставили перед собой задачу создать такой формат отображения документа, чтобы на любом устройстве документ открывался и выглядел одинаково.

Вкратце PDF мы уже рассматривали в статье , сегодня попробуем выявить достоинства и недостатки этого векторного формата.

Часто PDF ассоциируется с «безбумажным офисом», а в случае с дизайном — с подготовкой к печати и с передачей графических макетов в типографию.

Преимущества и недостатки.

Плюсы:
— стандартизованность и популярность: открывается на любых устройствах с любыми операционными системами ровно в том виде, в котором был создан;
— средство просмотра PDF формата, Adobe Acrobat Reader, часто предустановлено на компьютер, если устройство поставлялось с операционной системой. Если же нет – он доступен для скачивания с сайта разработчика Adobe Systems и это совершенно бесплатно;
— занимает мало места на жестком диске, потому что поддерживает множество алгоритмов компрессии;
— безопасность: пользователь может настроить параметры безопасности для своего PDF файла, например, запрет печати, запрет редактирования, использование электронной подписи для определения подлинности документа и т.д.

Минусы:
редактор PDF файлов – платный;
— редактировать pdf файлы в специализированных программах, сложнее, чем любые другие графические файлы;
— сложно работать с текстом в PDF файлах, он воспринимается как картинка.

Где используется?

PDF формат используется для хранения и передачи текстовой и графической информации в сети, например для передачи фирменного бланка в полиграфию или размещение анкеты на сайте. Отлично подходит для демонстрации наработок: показать легко, отредактировать – сложно. Это усложняет воровство интеллектуальной собственности. Ну и идеи «безбумажного офиса» воспринимаются на ура всеми, кто задумывается об экологии на планете.

Привет, друзья. В это раз я решил написать о формате документов, которым мы пользуемся очень долго, но некоторые ведь и не задумывались узнать, а что это за формат такой – PDF.

Представим такую ситуацию, что вы долго и упорно печатали документ в Word. Версия особо не важна, вы могли писать текст, как в Word 2003 или 2007, так и 360 (Office в Windows 10). Потом вы документ естественно сохранили и отправили, например, другу. Тот его открывает, через какой-либо другой текстовый редактор, а сейчас их очень много. Например, это мог быть LibreOffice или OpenOffice. Каков же итог? Показываться текст в другом редакторе может совершенно иначе, а иногда и с безобразным стилем оформления.

Из выше сказанного вытекает следующее – документ, открытый в разных текстовых редакторах будет выглядеть по-разному. Автор в этом, конечно, не виноват и знакомый или коллега, которому вы перекинули документ естественно тоже. И как тогда быть?

Есть несколько вариантов решения данной проблем и все они актуальны, но у каждого есть какие-то недостатки:
  • Распечатка документа на бумажный носитель. Не всегда разумное решение, если документ имеет не один десяток листов или человек, которому документ должен быть передан живет в другом городе или стране;
  • Отправка информации по факсу. Иногда это может быть невозможно из-за отсутствия факса на той стороне;
  • Сохранение документа в другой формат, например, PDF.

Что такое PDF?

Если вкратце, то формат PDF – универсальный формат для многих текстовых редакторов и операционных систем. Другими словами, файл такого формата вы можете открыть на любом устройстве и редакторе, который его поддерживает. Существуют и специальные программы для просмотра PDF. Самым популярным просмотрщиком является Adobe Reader и Foxit Reader.

Чтобы показать, как выглядит документ в формате PDF я буду , но ничего сверхъестественного вы не увидите. Кстати, я в указанной программе нашел режим чтения вслух. Об этой функции можно почитать в . Там я разобрал очень много методов по озвучиванию текста.



Как я сказал, у всех 3-х пунктов решения проблемы с документами есть недостатки. У PDF файлов они тоже есть и заключаются в следующем:
  • Текст документа редактировать невозможно, но можно использовать специальные для этого средства;
  • Если вы все-таки решили редактировать PDF-файл, то наверняка там не будет тех шрифтов, которые вы хотите использовать, поэтому придется их встраивать;
  • Чтобы изображения при печати выглядели как положено, то нужно использовать в документе качественные растровые картинки. Недостаток в том, что весить они будут довольно много.

Но есть и плюсы этого формата:

  • Простота;
  • Одинаковое отображение на любом устройстве и текстовом редакторе.

О том, как пользоваться или редактировать формат я расскажу в следующей статье. Вы наверное заинтересованы в том,

Сведения о документе

Во вкладке Сведения о документе , пользователь может заполнить следующие поля: название, тема, автор, приложение, производитель, а также добавить некоторые ключевые слова, соответствующие содержанию документа.

Безопасность

Ограничить доступ к PDF документу можно с помощью пароля/сертификата и ограничений на определенные функции, например на печать и редактирование. Однако нельзя запретить сохранение копий PDF. При этом копии будут иметь те же ограничения, что и оригинальный PDF файл.

Для установки пароля и внесения изменений в пункты Разрешения нажмите кнопку Изменить . На экране появится дополнительное окно, в котором вы сможете задать пароли для документа.

Для шифрования PDF документов возможно использование паролей двух типов:

  • Пароль для открытия документа . Данный пароль требуется ввести, чтобы открыть защищенный файл.
  • Пароль владельца . Если в документе запрещен доступ к функциональности ограниченного доступа (раздел Разрешения ), задается пароль для изменения прав доступа - Пароль владельца. Пароль для открытия документа вводить не требуется.

Если файл PDF защищен двумя типами паролей, то для его открытия можно ввести любой из заданных паролей. При этом для изменения доступа к Разрешениям пользователь обязательно должен ввести Пароль владельца . Для обеспечения более высокого уровня защиты желательно задавать пароли двух типов.

  • Разрешить печать документа . Печать возможна с разрешением не выше 150 dpi.
  • Печать с высоким разрешением . Возможна печать с любым разрешением.
  • Копирование содержимого для расширенного доступа . Дает возможность пользователям выделять и копировать содержимое PDF.
  • Извлечение содержимого документа . Содержимое документа шифруется, но сохраняется доступ поисковых систем к данным документа.
  • Заполнять существующие формы или подписывать . Пользователи могут заполнять поля форм и ставить свою электронную цифровую подпись. Это не дает им возможность добавлять комментарии и создавать новые поля форм.
  • Комментирование . Заполнение полей форм и внесение цифровой подписи.
    Пользователи могут оставлять свои комментарии, ставить цифровые подписи и заполнять поля в формах. Пользователь при этом лишен права перемещать объекты на странице или создавать новые поля форм.
  • Управление страницами и закладками . Позволяет осуществлять вставку, удаление и поворот страниц, создание закладок и миниатюр.
  • Изменение документа . Позволяет изменять контекст (текст, изображения…) документа.

Начальный вид

Во вкладке Начальный вид пользователь может настроить вид рабочего пространства документа, который он будет иметь при последующем открытии в любом просмотрщике PDF.

В данной вкладке можно задать начальный вид страниц и панели навигации, уровень масштабирования, параметры окна и параметры пользовательского интерфейса. Для просмотра PDF презентаций, можно установить начальный вид просмотра «Открыть в полно экранном режиме».

При повторном открытии настройки данных параметров будут игнорироваться если в главном меню Инструменты > Параметры вкладка Основные выбрана опция .

Размещение и масштаб.

  • Панель навигации. Выбор вкладки, которая будет отображаться на навигационной панели.
  • Вид страницы. Выбор необходимого режима просмотра документа: одна страница, одна страница непрерывно, две страницы, две страницы непрерывно, две страницы с титульной, две страницы непрерывно с титульной.

Текущая версия Master PDF Editor поддерживает только непрерывный режим просмотра страниц.

  • Масштаб . Установка масштаб документа.
  • Открыть страницу. Выбор номера страницы, с которой будет начинаться просмотр документа. Данный параметр будет игнорироваться, если во вкладке Действия окна Свойства документов настроено выполнение какого-либо действия, совершаемого при открытии документа.

Параметры окна.

  • Показывать название документа вместо имени файла. Показывает имя файла или название документа в заголовке окна. Название документа указывается во вкладке Сведения о документе.
  • Открыть в полноэкранном режиме. Установка максимального размера окна документа и отображение документа без строки меню, панели инструментов и элементов управления.

Для выхода из полноэкранного режима просмотра документа используется клавиша F11. Редактирование в данном режиме возможно только при использовании горячих клавиш.

  • Центрировать окно. Свойство не поддерживается. Добавлено для совместимости с некоторыми другими программами.
  • Параметры пользовательского инструмента. Настройка отображения элементов Рабочего пространства.
  • Скрыть меню. Скрыть/отобразить меню.
  • Скрыть панели инструментов. Скрыть/отобразить панель инструментов.
  • Скрыть элементы управления. Master PDF Editor не поддерживает работу данного параметра. Он добавлен для совместимости с некоторыми другими программами.

Шрифты

Во вкладке Шрифты указан перечень шрифтов, используемых в документе.

Действия

В данной вкладке пользователь может установить действие, которое будет совершаться при открытии данного PDF документа в любом просмотрщике: открыть страницу, открыть файл, открыть Web ссылку, сбросить формы, показать/скрыть формы, отправить формы, выполнить JavaScript.

Если установить действие, совершаемое при открытии документа, то выполнение настроек пункта Открыть страницу раздела Размещение и масштаб (вкладка Начальный вид ) будет игнорироваться.

Подробнее о предопределенных действиях в документах PDF смотрите в разделе Свойства PDF форм > .

Действие, установленное в данной вкладке окна Свойства документа будет выполнятся, если в разделе История вкладки Параметры> Основные не установлены флажки в пунктах: Восстановить последнюю сессию при старте и Восстановить последние параметры просмотра при повторном открытии

Доброго времени суток, дорогие читатели! Сегодня поговорим о такой штуке, которую многие видели, некоторые пользовались, а кому-то это кажется заморским колдунством и он обходит сие стороной, т.е про PDF .

Итак, прежде, чем рассказать что это, я расскажу для чего оно нужно. Предположим, вы открыли ваш любимый MS Word 2003/7/10/2048 , написали длинную простыню текста, оформили все это красивенько и довольные пошли показывать коллегам. И такой вот коллега берет ваш документ, открывает своим OpenOffice/LibreOffice/somethingotherOffice и ужасается от того безобразия, которое творится с документом.

Оформление поплыло, скриншоты отцентрированы криво, навигация не работает, отступ абзаца не по ГОСТу, шрифты фигпоймикакие, смотрит он на вас так вопросительно и недоумевает. А вместе с ним и вы недоумеваете, ведь у вас-то все ОК, и шрифты, специально скаченные, и отступы, выверенные с миллиметровой точностью, и скриншоты, отцентрированные с точностью до эпсилон в минус десятой. Показываете вы свое творение другому коллеге.

А у коллеги и офиса-то нету, Wordpad "ом прикажете открывать? То еще развлечение.

Так в чем же тут проблема?

Думаете в криворукости автора документа? Отнюдь, автор может и криворук, но дело совсем в другом. На самом деле, даже разные версии MS Word могут несколько по-разному смотреть на документы, не говоря уже о каких-то других программах для работы с электронной документацией. Так что же делать, чтобы другие люди могли увидеть Ваш документ именно в таком виде, в котором Вы его задумывали?

Здесь есть несколько способов:

  • Вы можете его распечатать, но это не самое удобное решение, особенно если люди находятся на другом конце синего шарика;
  • Вы можете его отправить по факсу, вот только этого факса на том конце может не быть;
  • Вы можете его сохранить в специальном формате. Тут-то и приходит на помощь PDF .

Вот о последнем, собственно, мы и поговорим.

Что такое PDF и с чем его едят

PDF (от англ. Portable Document Format ) - это специальный формат электронных документов, который не зависит от выбранной ОС, программы просмотра электронных документов или еще чего-нибудь. Он единый для любого устройства. Все, что нужно для открытия документов в этом формате - программа просмотра. Их существует великое множество, как бесплатных, так и платных.

Самая распространенная программка - это, несомненно, Adobe Reader (можно скачать , только не забудьте убрать галочки напротив McAfee и True Key ), которая написана авторами этой технологии.

Однако в AR часто находят уязвимости (а так же справедливо приписывают навязчивость, тормознутость и прочие ужасы жизни), так что кому это не нравится, смотрите в сторону аналогов (Foxit Reader, Nuance и тп).

Если кому интересно, так выглядит документ, открытый в Adobe Reader DC:

У PDF есть свои ограничения, как то:

  • Невозможность редактирования текста (кроме специализированных программ);
  • Необходимость вшивать нестандартные шрифты (для любителей делать не по ГОСТу);
  • Необходимость использования достаточно больших растровых изображений для внятного отображения при печати.

Среди преимуществ же:

  • Простота использования;
  • Возможность защитить файл от большинства действий нерадивых пользователей (пометка маркерами, поиск по словам, редактирование текста);
  • Независимость от программы просмотра. В любой программе просмотра он будет выглядеть одинаково.

Теперь поговорим о том, как его, собственно создать.

Как работать с PDF

В MS Word 2010, 13, 16 выбираете "Сохранить как " и указываете тип файла: "PDF ". Можно также снять галочку "Открыть файл после публикации ", чтобы не открывать каждый раз созданную вами PDF -ку.

Устанавливаете его, после чего запускаете Word , нажимаете на большую кнопку сверху-слева: "Сохранить как " -> "PDF или XPS " и сохраняете как PDF .

Если же вам нужен PDF файл из другой программы, при этом у нее нет возможности сохранять файлы в PDF , то достаточно скачать бесплатный виртуальный PDF принтер, например, .

Далее запускаете установщик, ждете, пока принтер установится, после этого открываете нужную вам программу, выбираете опцию "Печать ", выбираете виртуальный принтер и снова жмете на кнопку "Печать ".

Теперь выбираете интересующие вас настройки (я рекомендую отметить галочку "Embed fonts " для встраивания шрифта в ваш PDF ) и жмете на кнопку "OK ".

Есть еще и платные аналоги, но вы не подумайте, что они делают ровно тоже, но за деньги, нет. Они отличаются тем, что могут вставлять ссылки в PDF файлы, создавать закладки, оглавления, использовать водные знаки, зашифровывать PDF документ и еще много чего, что вам вряд ли в жизни пригодится:)

Кстати говоря, позволяют удобно и просто, без всяких плагинов, создавать PDF -фы на лету.

Послесловие

Вот в общем-то и все, что требуется для работы с данным форматом. Все возможности я описывать не стал, в этом нет особого смысла, ибо в большинстве случаев требуется просто сохранить файл или документ в PDF и потом открыть его каким-нибудь просмотрщиком. Так что пользуйтесь, очень удобный формат:)

Как и всегда, если есть какие-то вопросы, мысли, дополнения и всё такое прочее, то добро пожаловать в комментарии к этой записи.

PS : За существование статьи отдельное спасибо другу проекта и члену нашей команды под ником “barn4k“

Я имею дело с PDF не только как пользователь, а, прежде всего, как разработчик софта, умеющего его читать и писать (возможно, вы сталкивались с продуктами компании ABBYY, работающими с PDF – ABBYY FineReader, ABBYY PDF Transformer). Я предполагаю, что вы прочитали статью habrahabr.ru/company/abbyy/blog/105006 и далее пишу только про некоторые особенности и ограничения PDF, которые больше интересны продвинутым пользователям. Никаких сложных технических деталей при этом не буду касаться, так что программистам, желающим научиться читать или писать PDF, лучше сразу перейти к чтению спецификацию версии 1.7 со страницы www.adobe.com/devnet/pdf/pdf_reference_archive.html :)

Назначение и особенности PDF
Изначально формат PDF задумывался компанией Adobe ещё в конце 80х годов прошлого века как «электронная твёрдая копия» странично-структурированных документов, которую можно просматривать и печатать в виде, идентичном оригинальному, на разных машинах и платформах, но который не предполагается редактировать. Это определение отличает PDF от большинства других форматов хранения и распространения человеко-читаемых документов. За прошедшие годы PDF сильно эволюционировал, являясь в настоящее время контейнером для самого разнообразного контента (текст, векторная и растровая графика, интерактивные элементы, формы, аудио, видео, аннотации разных видов), но его исходное предназначение до сих пор остаётся источником как его возможностей, так и многочисленных ограничений.

Так, форматы текстовых документов (DOC, RTF, DOCX и т.д.) в основном ориентированы не на просмотр, а на редактирование документов. Созданный разумным пользователем:) документ логично реагирует на вставку/замену/удаление текста, картинок, таблиц в разных местах, изменение размеров и полей страниц, изменение форматирования фрагментов текста любого размера и тому подобные действия. Интернет страницы в формате HTML не слишком ориентированы на редактирование (хотя и допускают его), но при условии прямых рук автора нормально переносят отображение не только на экране монитора своего создателя, но и на устройствах с совершенно другими экранами и взаимодействием с пользователем.

PDF-принтер переводит GDI(«интерфейс графических устройств»)-команды вывода в нужные места символов, линий, кривых, прямоугольников, растровых изображений и прочих геометрических примитивов в соответствующие им PDF-команды с сохранением в файл. При этом, разумеется, сохраняются количество и размер страниц, на которое выполнялась печать.

Такое преобразование способно очень точно передать внешний вид того, что получилось, перед печатью (например, линии и символы не теряют своей чёткости при любом масштабировании и при этом хранятся достаточно компактно), но совершенно игнорирует устройство документа, из которого это получилось. Например, для подчёркивания слова или другого фрагмента текста в PDF не предусмотрено выделенной команды или атрибута символов – вместо этого отдельно выводятся символы (группами, которые обычно даже не совпадают со словами или строками), а отдельно рисуются линии или тоненькие прямоугольники нужной толщины и цвета в нужных местах страницы. Таблицы, которые человек воспринимает как целостный набор ячеек, для приложения, отображающего PDF, – просто хаотический набор символов и линий, по случайному совпадению образовавших нечто, воспринимаемое человеком как таблица. Гиперссылки, которые в исходном документе можно было использовать как для навигации внутри документа, так и для перехода на Веб-адреса, при печати исчезают как средство навигации, остаются лишь окрашенные и/или подчёркнутые надписи. В общем, сплошные имитация и надувательство. Такие PDF я ниже буду называть «векторными» (как состоящие из векторных команд, к которым относится и рисование символов).

Другой способ получения PDF-документов, ставший особенно популярным в последние годы, – переработка в него отсканированных бумажных страниц. Сейчас большинство сканеров и многофункциональных устройств могут выдавать результат в виде «растровых» PDF – при этом предыдущий способ «имитации печати» не нужен, а драйвер или утилита устройства самостоятельно формирует страницы PDF так, чтобы на каждой из них оказалось нужное «растровое» изображение, благо набор форматов графики, которые можно использовать в PDF, покрывают большинство запросов. Такие «растровые» PDF-документы занимают больше места и выглядят менее качественными, чем «векторные».

Некоторые современные приложения (в том числе приложения комплекта OpenOffice, Microsoft Office новых версий, ABBYY FineReader и ABBYY PDF Transformer) умеют создавать PDF самостоятельно, пользуясь при этом гораздо большим арсеналом средств, чем PDF-принтеры, ибо знают об исходном документе гораздо больше, чем нужно передать принтеру. Это позволяет сохранить, например, гиперссылки как таковые (а не просто как окрашенный и/или подчёркнутый текст) или описать некоторые элементы структуры документа для его переформатирования и показа на экранах малых разрешений. Такие документы со структурной информацией называются «тегированными» или «tagged» PDF. По замыслу Adobe, «тегирование», добавленное начиная с Acrobat 5, призвано скрыть наиболее вопиющие недостатки ранних версий PDF. Например, для нетегированных документов не гарантируется корректная работа механизма копирования фрагментов текста в буфер обмена Windows (всем привычный Copy-Paste). При этом даже сегодня тегированными являются не все создаваемые PDF, в том числе из-за ограниченных возможностей программ-генераторов (или незнания пользователями, где включить нужную для этого галочку в настройках), или просто из-за большего размера таких PDF, когда остро стоит вопрос экономии дискового пространства при хранении больших архивов.

Преобразование PDF-документов в другие форматы
Желание отредактировать содержимое PDF-документа или преобразовать его в другие, желательно редактируемые форматы (как для немедленного редактирования, так и для хранения с возможностью поиска/редактирования «когда-нибудь»), возникает по разным причинам. Простейшие средства извлечения текстового содержимого предоставляет любое приложение, отображающее PDF – я имею привычный Copy-Paste, который работает довольно примитивно – как правило, теряется символьное и абзацное форматирование, игнорируются таблицы и сложная вёрстка PDF-документа. Есть приложения, которые позволяют «точечно» редактировать PDF без преобразования в другие форматы – но их арсенал средств редактирования очень ограничен, ну просто никакого сравнения с привычными текстовыми процессорами:) В дорогущем Adobe Acrobat для многих документов единственным работающим видом редактирования является «аннотирование» – есть инструменты для добавления комментариев, выделения текста маркером, зачёркивания и т.п. Да, более продвинутое редактирование как бы есть, но вы, случайно, не встречали забавного сообщения «All or part of the selection has no available system font. You cannot add or delete text using the currently selected font.» при невинной попытке удалить символ или слово из «хорошего», «векторного» PDF-документа в Акробате? А не пробовали заменить фрагмент строки на более длинный, грустно наблюдая уползающие вправо хвосты строк? Если нет, значит любовь к продуктам Adobe у вас ещё впереди! К простым и привычным для текстовых процессоров задачам – например, «заменить за несколько секунд по всему документу слово «MS» на «Microsoft», с изменением размещения текста по колонкам и страницам» – такое «редактирование» и близко не стоит.

Неслучайно в софтверной индустрии сформировалась целая отрасль, производящая средства конверсии с лучшей функциональностью. Из написанного выше (и особенно – ниже), должно стать понятно, насколько это непростая задача. Большинство пользователей, не читавших этого креатива, так не считают – поэтому я его и пишу:)

Основные проблемы при преобразовании PDF в другие форматы
Часто в обсуждении связанных с PDF вопросов употребляется понятие «текстового слоя». Интуитивно многими пользователями предполагается, что в PDF-файлах есть такие выделенные части, где логично и понятно описаны все нужные характеристики видимого текста – или невидимого, но находимого поиском или выделяемого мышью. Хочу открыть вам страшную тайну (вероятно, с риском в ближайшее время получить пулю от киллера, подосланного авторами формата PDF и их отделом маркетинга) – никакого текстового слоя в указанном смысле в PDF нет! На деле для каждой страницы есть общий поток команд её рисования, в котором совершенно произвольно перемешаны разнотипные команды – задания областей отсечения, смены текущих толщины, цвета и шаблона пунктирности линий, изменения системы координат, смены шрифта, рисования прямых и кривых (с текущими атрибутами), вывода группы символов с текущими атрибутами и указанными «номерами глифов» (глиф – описание изображение символа, без учёта других его характеристик), вывода растровых картинок и т.п. То есть даже специальные текстовые команды – это просто один из многих инструментов рисования, не выделенный в отдельные потоки.

Хуже другое – даже в пределах одной страницы PDF можно использовать (слишком) широкий набор средств изображения похожего глазу текста: буквы могут быть видны как части растрового изображения – например, в логотипах (задача их распознавания – в чистом виде задача OCR-приложений, того же ABBYY FineReader), как результат рисования кривыми Безье или специальными текстовыми командами. Этот последний случай – самый лучший для обработки, но даже здесь не обязательно указываются общепринятые коды символов из Unicode или других кодировок – ибо в PDF-файл можно записывать особые шрифты из подмножества только реально использованных символов и ссылаться на символы по совершенно условным «номерам глифов», а не по кодам. То есть не всегда просто как обнаружить символы в нужном месте, так и определить их коды! С форматированием, в том числе с выбором похожего шрифта при отсутствии точного аналога, всё ещё хитрее.

Символы, даже если их присутствие и коды тем или иным способом установлены, своим порядком вывода на страницу очень часто никак не соответствуют исходной последовательности их размещения и чтения на странице. Например, на двухколоночной странице команды вывода текста из правой и левой колонок могут быть произвольно перемешаны. На такой странице нужно выделить области, в каждой из которых размещён логически связный текст – это тоже задача, много лет решаемая OCR -приложениями. Некоторую помощь даёт структурная информация из тегированных PDF – но часто даже у сделанных сейчас PDF эта информация либо отсутствует – как при выводе через PDF-принтер – либо бывает недостаточно полна.

Когда мы решили, что в некоторых местах страницы есть связный текст (а где-то даже поняли, как он сгруппирован в таблицы – это очень нетривиальная задача!), и нашли, какие символы и в какие строчки складываются, нужно преобразовать эти строчки в абзацы и более высокоуровневые элементы, привычные пользователям как текстовых процессоров, так и HTML – колонки, таблицы, врезки. Данных об абзацном форматировании в PDF обычно нет, так что все эти характеристики тоже нужно вычислять – как при всём том же распознавании. Если пытаться игнорировать элементы текста сложнее строчек или абзацев, то, выведя всё в коротких врезках, получим документ, который выглядит как настоящий, но почти не редактируется – помните задачу о замене по всему документу слова «MS» на «Microsoft»? Это очень хороший тест на редактируемость. Для редактируемого документа важна способность текста перетекать из одних зон в другие – в нужных случаях, которые ещё надо суметь отличить от ненужных.
Добавить метки