Sviluppatore web, freelancer, blogger e pensatore nonconformista a Milano

Parsing link reloaded

Tre anni fa ho scritto un articolo in tedesco con il titolo Backlinks gecheckt che riceve sorprendentemente ancora una notevole quantità di traffico. Devo ammettere che le informazioni sono già piuttosto vecchiotte e non rappresentano più una soluzione per diverse problematiche nel mondo attuale. Il parsing dei link con le regular expression in realtà è tutt’altro che una buona idea. HTML è context-free e le regular expression non trovano quasi regolarmente nulla.

Più promettenti sono le diverse funzioni DOM già disponibili dall’introduzione di PHP5. Ma l’utilizzo con i siti di oggi, che spesso si servono di codici non validi, presenta ancora qualche insidia. Per fortuna esiste una soluzione che uso da tempo e con la quale si possono evitare le problematiche descritte sopra: il PHP Simple HTML DOM Parser.

Il parsing dei link nei documenti HTML diventa con questa library un gioco da ragazzi. Con i meccanismi di WordPress che aiutano a rilevare pagine remote, chiunque abbia familiarità con la sintassi di jQuery si troverà benissimo. Il mio piccolo esempio mostra come si usa il parser da uno script al di fuori dell’installazione di WordPress. L’obiettivo è mostrare tutti i link della mia homepage con l’attributo nofollow:

Parla alla tua mente

*