ГлавнаяОперационные системыLinuxКак извлечь встроенные изображения из PDF-файла в Ubuntu с помощью PDFImages

Как извлечь встроенные изображения из PDF-файла в Ubuntu с помощью PDFImages

Хотя мы уже знаем как редактировать существующие PDF-файлы в Ubuntu , бывают случаи, когда требуется использовать все или некоторые изображения, содержащиеся в PDF-файле. Копирование вручную, безусловно, возможно, но оно не экономит время, особенно если PDF-файл содержит большое количество изображений.

Существует инструмент под названием PDFImages, который упрощает извлечение изображений из файлов PDF. В этой статье мы обсудим этот инструмент на понятных примерах. Обратите внимание, что все примеры, использованные в статье, протестированы на Ubuntu 14.04 LTS с использованием инструмента версии 0.24.5.

Что такое PDFImages?

Как уже говорилось, PDFImages — это инструмент командной строки, который можно использовать для извлечения изображений из файла PDF. На странице руководства инструмента говорится, что он считывает входной PDF-файл, сканирует его и создает один файл Portable Pixmap (PPM), Portable Pixmap (PBM) или JPEG для каждого изображения, встречающегося в PDF-файле.

Загрузить и установить

Если инструмент еще не установлен на вашем компьютере с Ubuntu, вы мож

Что такое PDFImages?

о с помощью следующей команды:

sudo apt-get install poppler-utils<

Загрузить и установить

s пакет poppler-utils также содержит несколько других утилит командной строки для получения информации из PDF-документов, преобразования их в другие форматы или манипулирования ими.

Использование

Инструмент командной строки PDFImages в своей самой простой форме требует два аргумента: входной PDF-файл и путь к каталогу, в котором вы хотите, чтобы инструмент сохранял изображения. Например, в моем случае я попытался извлечь изображения из PDF-файла с именем «christmas_story.pdf» и сохранить их в каталоге с именем «pdfimages».

pdfimages /home/himanshu/Downloads/christmas_story.pdf /home/himanshu/Downloads/pdfimages/

Приведенная выше команда создала следующие файлы в целевом каталоге:

ls /home/himanshu/Downloads/pdfimages/
-000.ppm  -001.ppm  -002.ppm  -003.ppm  -004.ppm  -005.ppm  -006.ppm  -007.ppm

Как видно из приведенного выше вывода, имена файлов начинаются с дефиса (-), за которым следует цифра. Для тех, кто задается вопросом, почему имя начинается с дефиса, этот инструмент дает вам возможност

Использование

любому слову перед дефисом, чтобы вы могли создавать собственные имена для выходных изображений. Вы можете сделать это, добавив это конкретное слово к пути к каталогу назначения во время выполнения команды.

Например, я добавил слово «изображение» к пути к целевому каталогу:

pdfimages /home/himanshu/Downloads/christmas_story.pdf /home/himanshu/Downloads/pdfimages/image

И выходные файлы, созданные в этом случае, имели следующее имя:

ls /home/himanshu/Downloads/pdfimages/
image-000.ppm  image-001.ppm  image-002.ppm  image-003.ppm  image-004.ppm  image-005.ppm  image-006.ppm  image-007.ppm

Следует отметить, что вопреки тому, что написано на странице руководства инструмента, для каждого изображения в PDF-файле создаются два изображения, одно из которых пустое, а другое можно использовать. В моем случае изображения с нечетными номерами были пустыми:

pdfimages-выход

Двигаясь дальше, вы также можете изменить формат выходного файла изображения с «ppm» на «jpeg», используя параметр -j. Однако имейте в виду, что при использовании этого параметра только изображения в формате DCT сохраняются в виде файлов JPEG, а все изображения, отличные от DCT, сохраняются в формате PBM/PPM, как обычно.

Вы также можете указать, какие страницы вы хотите сканировать с помощью инструмента. Таким образом, вы получите на выходе только те изображения, которые есть на этих страницах. Чтобы включить эту опцию, вам необходимо использовать опцию -f(за которой следует номер страницы) и -l(за которым следует номер страницы), чтобы указать начальную и конечную страницы соответственно.

Например, я хотел, чтобы инструмент извлекал только изображения, присутствующие на первой странице PDF-файла, поэтому я использовал следующую команду:

pdfimages -f 1 -l 1 /home/himanshu/Downloads/christmas_story.pdf /home/himanshu/Downloads/pdfimages/

А в целевом каталоге было создано только два изображения (всего четыре, включая пустые):

ls /home/himanshu/Downloads/pdfimages/
-000.ppm  -001.ppm  -002.ppm  -003.ppm

Заключение

PDFImages — определенно удобный инструмент, если ваша работа связана с PDF-файлами и содержащимися в них изображениями. Как вы, возможно, уже заметили, его легко освоить и просто использовать. Чтобы узнать больше об этом инструменте, перейдите к его справочная страница .

Заключение

ПОХОЖИЕ СТАТЬИ

Популярные записи