Как да извлечете вградените изображения от PDF файла в Ubuntu Използване на PDFImages
Въпреки че вече знаем как да редактираме съществуващи PDF файлове в Ubuntu, има моменти, когато изискването е да се използват всички или някои от изображенията, съдържащи се в PDF файл. Ръчното копиране на копиране определено е опция, но не е спестяващо време, особено когато PDF файлът съдържа голям брой изображения.
Налице е инструмент, наречен PDFImages, който прави извличането на изображения от PDF файловете "cakewalk". В тази статия ще обсъдим този инструмент с помощта на лесни за разбиране примери. Имайте предвид, че всички примери, използвани в статията, се тестват на Ubuntu 14.04 LTS, използвайки версия 0.24.5 на инструмента.
Какво представлява PDFImages?
Както вече бе обсъдено, PDFImages е инструмент на командния ред, който можете да използвате за извличане на изображения от PDF файл. В ръководството на инструмента се казва, че той чете входния PDF файл, го сканира и произвежда един Портативен Pixmap (PPM), Портативен Pixmap (PBM) или JPEG файл за всяко изображение, което среща в PDF файла.
Изтегляне и инсталиране
Ако инструментът все още не е инсталиран в Ubuntu, можете да го изтеглите и инсталирате, като използвате следната команда:
sudo apt-get инсталирате poppler-utils
В допълнение към PDFImages, пакетът "poppler-utils" съдържа и няколко други помощни програми на командния ред за получаване на информация от PDF документи, преобразуването им в други формати или манипулирането им.
употреба
Инструментът за обработка на команди PDFImages, в най-основната му форма, изисква два аргумента: въвеждане на PDF файл и пътя до директорията, в която искате инструментът да се запази. Например, в моя случай се опитах да извличам изображения от PDF файл с име "christmas_story.pdf" и да ги запазя в директория, наречена "pdfimages".
pdfimages /home/himanshu/Downloads/christmas_story.pdf / home / himanshu / Downloads / pdfimages /
Горната команда създаде следните файлове в целевата директория:
ls / home / himanshu / Файлове за изтегляне / pdfimages / -000.ppm -001.ppm -002.ppm -003.ppm -004.ppm -005.ppm -006.ppm -007.ppm
Както можете да видите в изхода по-горе, името на файловете започва с тире (-), последвано от число. За тези, които се чудят защо името започва с тире, инструментът ви дава гъвкавостта да предложите всяка дума преди тирето, за да можете да създадете потребителски имена за изходните изображения. Можете да направите това, като добавите тази конкретна дума към пътя на целевата директория, докато изпълнявате командата.
Например, добавих думата "изображение" в пътя на целевата директория:
pdfimages /home/himanshu/Downloads/christmas_story.pdf / начало / himanshu / Downloads / pdfimages / image
И продуцираните в този случай изходни файлове съдържаха следното име:
ls / home / himanshu / Файлове за изтегляне / pdfimages / image-000.ppm image-001.ppm image-002.ppm image-003.ppm image-004.ppm image-005.ppm image-006.ppm image-007.ppm
Струва си да се отбележи, че противно на това, което се казва в ръководството на инструмента, за всяко изображение се създават две изображения в PDF файла, от които един е празен, а другият е използваем. В моя случай нечетните номерирани изображения бяха празни:
Като се движите, можете също да промените файловия формат на изходния файл от "ppm" на "jpeg", който можете да направите, като използвате опцията -j
. Имайте предвид обаче, че с тази опция само изображенията във формат DCT се записват като JPEG файлове - всички изображения извън DCT се записват във формат PBM / PPM, както обикновено.
Можете също да посочите кои страници искате инструментът да сканира. По този начин ще получите само тези изображения в изход, които са на тези страници. За да активирате тази опция, трябва да използвате опцията -f
(следвана от номера на страницата) и -l
(следвана от номера на страницата), за да укажете съответно началната и крайната страници.
Например исках инструментът да извлича само изображения, съдържащи се на първата страница на PDF файла, така че използвах следната команда:
pdfimages -f 1 -l 1 /home/himanshu/Downloads/christmas_story.pdf / home / himanshu / Файлове / pdfimages /
И в директорията на местоназначението са създадени само две изображения (общо четири, включително празните):
ls / home / himanshu / Файлове за изтегляне / pdfimages / -000.ppm -001.ppm -002.ppm -003.ppm
заключение
PDFImages определено е удобен инструмент, ако работата ви включва работа с PDF файлове и изображенията, които съдържат и както вече сте забелязали, е лесно да се учите, както и да се използва лесно. За да научите повече за инструмента, се отправете към неговата страница.