Come utilizzare Perl per cercare un documento pdf

Programmazione

C /C + + Programming

Computer Programming Languages

Delphi Programming

Java Programming

Programmazione Javascript

PHP /MySQL Programmazione

Perl Programming

Python Programming

rubino Programmazione

Nozioni di base di Visual Programming

* Conoscenza Informatica >> Programmazione >> Perl Programming >> Content

Come utilizzare Perl per cercare un documento pdf

script Perl " strisciare " attraverso il web , spulciando tra l'oceano di pagine HTML per le informazioni , e, inevitabilmente, incontrano alcuni dei milioni di file Adobe Acrobat PDF spruzzato su Internet. Anche se sono pronti per la stampa e attraente , dal punto di vista di un web crawler , i PDF sono un dado leggermente più difficile da decifrare , di pagine HTML basati su testo semplice . Per fortuna , come con molte attività web , vi è un modulo Perl che può contribuire a rendere la vita più facile : CAM :: PDF . Questa interfaccia di programmazione , anche se per lo più destinati a creare e manipolare file PDF , ha alcuni programmi di utilità che consente di script per cercare il loro contenuto . Cose che ti serviranno
scripting Perl ambientaliste CAM :: PDF Perl modulo
Testo o codice editor di file PDF

Mostra più istruzioni
1 < p > Installa CAM :: PDF . L'utilità CPAN offre il modo più semplice per farlo - avviare CPAN nella riga di comando e al prompt , digitare " install CAM :: PDF " (senza virgolette ) economici 2

Aprire un editor e . avviare lo script , inserendo le seguenti righe per avviare l'interprete Perl e importare il modulo necessario :

# /usr /bin /perluse CAM :: PDF ;

Aggiungere le due righe successive a! elaborare gli argomenti della riga di comando che l'utente passerà in :

mio $ file = shift; my $ ricerca = shift;

il primo argomento passato allo script sarà il nome di un file PDF . file e il secondo , la stringa di ricerca
3

Creare un nuovo oggetto CAM :: PDF aggiungendo la seguente riga allo script :

my $ doc = CAM :: PDF - > new ( $ file) ;

Usando il metodo NumPages del modulo importato per definire il limite superiore , creare un ciclo per elaborare ogni pagina del documento :

foreach my $ p ( ( 1 .. $ doc -> NUMPAGES ( ) ) ) {
4

All'interno del ciclo , aggiungere questa riga per avere ogni pagina di testo dal file PDF :
< p > my $ str = $ doc- > getPageText ( $ p ) ;

aggiungere l'istruzione di script seguente per dividere il testo della pagina in una molteplicità di linee separate :

@ righe = split ( /\\ n /, $ str ) ;

Termina l'istruzione ciclica inserendo una parentesi di chiusura :

}
5

Infine, aggiungere un altro anello alla lo script per elaborare ogni riga della pagina e cercare una corrispondenza per la stringa di ricerca dell'utente come una espressione regolare . Se l'espressione regolare restituisce una partita , questo esempio stamperà la relativa riga e il numero di pagina a stdout . Al posto di queste istruzioni di stampa , è necessario implementare il codice per elaborare i risultati in base alle esigenze

my $ i = 0; . Foreach $ line ( @ righe) { + + $ i ; if ( $ linea = ~ /$ search /) { print " \\ " $ ricerca \\ "che si trova in linea $ i di pagina $ p \\ n"; print " $ riga \\ n \\ n" } }

Previous ： Qual è il significato di Pseudocodice

next ： Perl tutorial per la stampa HTML & Inline Frames HTML

Articoli Correlati

·	Come mantenere una finestra attiva in Perl /Tk
·	Django vs . Perl
·	Come convertire un array in una stringa in Perl
·	Come eseguire il debug di programmi Perl
·	Come reinstallare CPAN
·	Come rimuovere la prima riga di una stringa in Groovy
·	Come reindirizzare l'output di ingresso in Perl
·	Come sostituire spazi finali con espressioni regolari P…
·	A proposito del Perl Funzione Chr
·	Come analizzare una linea in Perl

Articoli in evidenza

·	Come codice PHP & MySQL di scegliere lo Stato
·	Come aggiungere un array in Python
·	Come scrivere un programma che genera un numero casuale…
·	Come fare giochi Java
·	I vantaggi di utilizzare JSP e Servlet
·	Fasi del ciclo di vita del software
·	Come Eseguire SSIS dalle stored procedure
·	Come inviare sequenze ESC con VB.NET
·	Come imparare System Design
·	Come eliminare i duplicati con Oracle SQL