Beispielsprojekte > HTML- und Text-Parser

HTMLText

Top Previous Next

Beispielsprojekte > HTML- und Text-Parser > HTMLText

Der HTMLText-Parser kommt sowohl mit HTML-Code als auch mit reinem Text oder einer Mischung von beidem zurecht. Auch setzt er mit einer Ausnahme nicht voraus, das HTML-Code wohlgeformt ist. Bei einer solchen Annahme würde der Parser häufig scheitern. Aber, wenn das Token "<!DOCTYPE" gefunden wird, wird angenommen, dass diese der Beginn eines wohlgeformten HTML-Codeabschnitts ist.

Solange nicht von wohlgeformtem HTML ausgegangen werden kann, ist es mit der freien Version des TextTransformers leider nicht möglich zu unterscheiden, ob es sich bei '<' oder '>' um Anfang bzw. Ende eines tags handelt, oder um das Kleiner- bzw, Größer-Zeichen. Damit ist auch nicht bekannt, ob der Parser sich innerhalb oder außerhalb eines tags befindet. (Mit der Standard-Version des TextTransformers könnte eine Vorausschau zur Entscheidung herangezogen werden.)

Um dieses Projekt zu einem Spamfilter zu machen, muss es durch eigene Testfunktionen erweitert werden. Für den Aufruf dieser Funktionen ist die TextToCheck-Produktion vorhanden:

WORD

| STRING

| SPECIAL

| Link

Hier sind die wichtigen Textbestandteile versammelt: Worte, Anführungen, spezielle Zeichen, E-Mailadressen und Links.