Хотя мы уже знаем как редактировать существующие PDF-файлы в Ubuntu , бывают случаи, когда требуется использовать все или некоторые изображения, содержащиеся в PDF-файле. Копирование вручную, безусловно, возможно, но оно не экономит время, особенно если PDF-файл содержит большое количество изображений.
Существует инструмент под названием PDFImages, который упрощает извлечение изображений из файлов PDF. В этой статье мы обсудим этот инструмент на понятных примерах. Обратите внимание, что все примеры, использованные в статье, протестированы на Ubuntu 14.04 LTS с использованием инструмента версии 0.24.5.
Что такое PDFImages?
Как уже говорилось, PDFImages — это инструмент командной строки, который можно использовать для извлечения изображений из файла PDF. На странице руководства инструмента говорится, что он считывает входной PDF-файл, сканирует его и создает один файл Portable Pixmap (PPM), Portable Pixmap (PBM) или JPEG для каждого изображения, встречающегося в PDF-файле.
Загрузить и установить
Если инструмент еще не установлен на вашем компьютере с Ubuntu, вы мож
Что такое PDFImages?
о с помощью следующей команды:sudo apt-get install poppler-utils<Загрузить и установить
s пакет poppler-utils также содержит несколько других утилит командной строки для получения информации из PDF-документов, преобразования их в другие форматы или манипулирования ими.Использование
Инструмент командной строки PDFImages в своей самой простой форме требует два аргумента: входной PDF-файл и путь к каталогу, в котором вы хотите, чтобы инструмент сохранял изображения. Например, в моем случае я попытался извлечь изображения из PDF-файла с именем «christmas_story.pdf» и сохранить их в каталоге с именем «pdfimages».
pdfimages /home/himanshu/Downloads/christmas_story.pdf /home/himanshu/Downloads/pdfimages/Приведенная выше команда создала следующие файлы в целевом каталоге:
ls /home/himanshu/Downloads/pdfimages/ -000.ppm -001.ppm -002.ppm -003.ppm -004.ppm -005.ppm -006.ppm -007.ppmКак видно из приведенного выше вывода, имена файлов начинаются с дефиса (-), за которым следует цифра. Для тех, кто задается вопросом, почему имя начинается с дефиса, этот инструмент дает вам возможност
Использование
любому слову перед дефисом, чтобы вы могли создавать собственные имена для выходных изображений. Вы можете сделать это, добавив это конкретное слово к пути к каталогу назначения во время выполнения команды.Например, я добавил слово «изображение» к пути к целевому каталогу:
pdfimages /home/himanshu/Downloads/christmas_story.pdf /home/himanshu/Downloads/pdfimages/imageИ выходные файлы, созданные в этом случае, имели следующее имя:
ls /home/himanshu/Downloads/pdfimages/ image-000.ppm image-001.ppm image-002.ppm image-003.ppm image-004.ppm image-005.ppm image-006.ppm image-007.ppmСледует отметить, что вопреки тому, что написано на странице руководства инструмента, для каждого изображения в PDF-файле создаются два изображения, одно из которых пустое, а другое можно использовать. В моем случае изображения с нечетными номерами были пустыми:
Двигаясь дальше, вы также можете изменить формат выходного файла изображения с «ppm» на «jpeg», используя параметр
-j
. Однако имейте в виду, что при использовании этого параметра только изображения в формате DCT сохраняются в виде файлов JPEG, а все изображения, отличные от DCT, сохраняются в формате PBM/PPM, как обычно.Вы также можете указать, какие страницы вы хотите сканировать с помощью инструмента. Таким образом, вы получите на выходе только те изображения, которые есть на этих страницах. Чтобы включить эту опцию, вам необходимо использовать опцию
-f
(за которой следует номер страницы) и-l
(за которым следует номер страницы), чтобы указать начальную и конечную страницы соответственно.Например, я хотел, чтобы инструмент извлекал только изображения, присутствующие на первой странице PDF-файла, поэтому я использовал следующую команду:
pdfimages -f 1 -l 1 /home/himanshu/Downloads/christmas_story.pdf /home/himanshu/Downloads/pdfimages/А в целевом каталоге было создано только два изображения (всего четыре, включая пустые):
ls /home/himanshu/Downloads/pdfimages/ -000.ppm -001.ppm -002.ppm -003.ppmЗаключение
PDFImages — определенно удобный инструмент, если ваша работа связана с PDF-файлами и содержащимися в них изображениями. Как вы, возможно, уже заметили, его легко освоить и просто использовать. Чтобы узнать больше об этом инструменте, перейдите к его справочная страница .
Заключение