Как да търсите PDF файлове от терминала с pdfgrep

Експлоатационните програми на командния ред като grep и ack-grep са чудесни за търсене на обикновени текстови файлове за модели, съответстващи на определен регулярен израз. Но някога сте се опитвали да използвате тези помощни програми, за да търсите модели в PDF файл? Е, не! Няма да получите резултат, тъй като тези инструменти не могат да четат PDF файлове; те четат само обикновени текстови файлове.

pdfgrep, както подсказва името, е малка помощна програма за команден ред, която дава възможност да се търси текст в PDF файл без да се отваря файлът. Това е невероятно бързо - по-бързо от търсенето, осигурено от почти всички зрители на PDF документи. Едно голямо разграничение между grep и pdfgrep е, че pdfgrep работи на страници, докато grep работи на линии. Той също така отпечатва няколко реда няколко пъти, ако на този ред е намерено повече от едно съвпадение. Нека да разгледаме как точно да използвате инструмента.

Инсталация

За Ubuntu и други Linux дистрибуции, базирани на Ubuntu, това е доста просто:

 sudo apt инсталирате pdfgrep

За други дистрибуции, просто предоставете pdfgrep като вход за мениджъра на пакети и това трябва да се инсталира. Можете също така да проверите страницата на проекта GitLab, в случай че искате да играете с кода.

Пробното изпълнение

След като инсталирате инструмента, нека се опитаме да извършим тест. Командата pdfgrep приема този формат:

 pdfgrep [ОПЦИЯ ...] ПАТЕНТ [ФАЙЛ ...]

OPTION е списък на допълнителните атрибути, които дават командата като -i или --ignore-case, които игнорират разграничаването на случаите между редовния шаблон, който е посочен, и неговата съвпадение от файла.

PATTERN е просто разширен регулярен израз.

ФАЙЛ е само името на файла, ако е в една и съща работна директория или пътя до файла.

Направих командата на официалната документация на Python 3.6. Следващото изображение е резултатът.

Червените акценти показват, че всички места, на които се е срещала думата "опашка". Преминаването - като опция към командата включваше съвпадения на думата "Queue". Не забравяйте, че случаят няма значение кога -i се предава като опция.

Екстри

pdfgrep има доста интересни опции за използване. Въпреки това, ще покрия само няколко от тях.

-c или --count : това подтиска нормалното изпълнение на мачовете. Вместо да показва дългия изход на съвпаденията, той показва само стойност, представляваща колко пъти думата е била открита във файла
-p или --page-count : тази опция отпечатва номерата на страниците на съвпаденията и броя на възникналите образци на страницата
-m или --max-count [number]: определя максималния брой съвпадения. Това означава, че когато се достигне броят на мачовете, командата спира четенето на файла.

Пълният списък с поддържаните опции може да бъде намерен в ръководството или в pdfgrep онлайн документацията. Не забравяйте, че pdfgrep може да търси няколко файла по едно и също време, в случай че работите с някои групови файлове. Цветът за маркиране по подразбиране на съвпадението може да бъде променен, като се промени променливата на средата GREP_COLORS.

заключение

Следващият път, когато мислите за отваряне на PDF файл, за да търсите нещо. мисля за използването на pdfgrep. Инструментът е удобен и ще ви спести време.