Artikel im Internet unter http://www.hidemail.de/blog/automatische-stichwortverlinkung.shtml.
Samstag, 13.10.2007, 10:34:16 Uhr

Automatische Stichwortverlinkung


Nicht daß man denkt, ich würde jetzt den ganzen Tag an meinem HTPC hängen, nein, ich hab gerade heute ein neues Feature in mein Blog-Script eingebaut:

Ich kam auf die Idee, daß es doch schön wäre, wenn bestimmte Wörter automatisch mit bestimmten Seiten verlinkt werden, so zum Beispiel das Wort print mit der entsprechenden Seite, die den print-Befehl beschreibt.

Eigentlich recht einfach, denkt man (jedenfalls ich), hatte aber natürlich wieder so seine Tücken.

Aber erstmal von Anfang an:
Die Texte im Blog sind in .txt-Form gespeichert, so richtig mit äöü und so. Darin enthalten sind Formatierungen. Das erstmal vorweg.

Ich dachte also, na gut, beim Umwandeln ins HTML-Format guckst Du gleich, ob eben jene bestimmte Worte enthalten sind und verlinkst sie einfach.

Also aus der Zeile:

das ist ein Testtext zu print


macht das Programm

das ist ein Testtext zu <a href="entsprechende-seit.htm">print</a>.



Das war auch schnell geschafft. Bis ich dahinter kam, daß das Script auch Wörter in Links umgewandelt hat, wenn eben diese Wörter darin vorkamen. Folge war, daß die Links dann natürlich nicht mehr funktionierten.

Ich hab die Regex dann also so modifiziert, daß sie nun folgendermaßen aussieht

$ersetzwort='print';
$ersetzwoerter{print}='http://www.sonstwas.de';
$_=~ s/([^<]*.*?\W)($ersetzwort)(\W)(.*?)([^>])/\1<a href=\"$ersetzwoerter{$ersetzwort}\">\2<\/a>\3\4\5/;

$zeile=~ s/^($ersetzwort)([^\w])/<a href=\"$ersetzwoerter{$ersetzwort}\" class=\"linkunterstrichen\"> \1<\/a>\2/gis;


Wie man sieht, sind im Hash %ersetzwoerter die Links enthalten, aber das nur am Rande.

Und wie geht das nun?
Also:
In $zeile steht eine Zeile der Blog-Eintraege.
Diese Zeile wird untersucht nach
([^<]*.*?\W) -> kein <, danach beliebige Zeichen und ein Sonderzeichen
($ersetzwort) -> das zu ersetzende Wort
([\W]) -> kein Buchstaben und Ziffer nach dem gesuchten Wort, auch kein abschließendes >

Wenn also ein HTML-Tag ein Suchwort enthält, wird der HTML-Tag NICHT verändert.

Ist ein Suchwort ein Teil eines größeren Wortes, soll ebenfalls nichts verändert werden.

Die zweite Prüfung ist übrigens dafür, daß auch Wörter am Zeilenanfang gefunden werden.

So weit läuft es schon gut, ich werde das mal im Auge behalten und testen. Und natürlich jetzt alle möglichen Stichworte einführen.


Nachtrag
Das mit der RegEx war wohl nix, wie es besser geht steht hier.

Artikel im Internet unter http://www.hidemail.de/blog/automatische-stichwortverlinkung.shtml.