Espressioni regolari forniscono al programmatore con potenti strumenti per l'analisi del testo e la manipolazione . Trovato ovunque da validazione dei form e-commerce di high-stakes contenzioso - dove ricerca avvocati per le combinazioni di parole in messaggi di posta elettronica che si aggiungono al " colpevole" - regexes appartengono in ogni cassetta degli attrezzi del programmatore. Purtroppo , la loro sintassi arcana si pone come una barriera per molti utenti che potrebbero trarre beneficio da loro. Un possibile uso è la scansione di un testo di Universal Resource Locator , noto colloquialmente come indirizzi web . Il linguaggio di programmazione Python realizza questo compito in poche righe di codice . Cose che ti serviranno
Python 2.6 o superiore, con l'ambiente
file di testo integrato di sviluppo IDLE per testare
Mostra più istruzioni
1
Apri IDLE e creano un testare file di testo da copiare e incollare del testo a caso nel file insieme ad alcuni URL . Salvare il file come TestText.txt nella directory che si apre nella finestra di dialogo di salvataggio in modo da non dovete preoccuparvi di percorsi tra l'interprete Python e questo file.
2
Vai alla principale finestra IDLE e tipo
>>>> import re
al prompt di Python. . Questo carica motore delle espressioni regolari in Python
3
leggere il tuo testo di prova in Python e tenerlo in memoria con i seguenti comandi :
>>> TestText = open (' OCB_1.txt ' ) per
>>> grezzo = TestText.read ( ) per
OCB_1.txt è il nome del mio file di prova - un copia e incolla di di Ambrose Bierce " An Occurrence at Owl Creek Bridge ", con alcuni indirizzi incollato dentro Nei comandi di cui sopra , il file di testo viene aperto e assegnato alla TestText variabile , ma è poi letto in memoria con la variabile assegnata crudo
.
4
pre -compilare l'espressione regolare , al fine di accelerare il processo di analisi. Ciò è particolarmente utile quando si tratta di file di testo di grandi dimensioni . Digitare i seguenti comandi al prompt di Python :
>>> pattobj = re.compile ( ' https ://( [ - \\ w \\ . ] + ) + ( : \\ D + ) ? ( /( [ \\ w /_ \\ . ] * ( \\ ? \\ S + ) ? ) ? ) ? ' ) economici 5
richiamare il metodo findall digitando il relativo comando regex con la variabile di riferimento al testo in memoria :
findallobj = pattobj.findall (raw ) per
Questo crea una nuova variabile , findallobj , che contiene i modelli generati dal regex
6 .
Visualizzare l'URL della regex trovato con il comando print :
stampa ( findallobj ) per
l'output simile a questo :
[ ( ' www.sjca . edu ' ) , ( ' www.cantlers.com /index.shtml ') ]