Texte parsen > Spam oder Nicht-Spam

Spam oder Nicht-Spam

Top Previous Next

Ideal wäre, wenn man die Textstruktur erwünschter E-Mails so vollständig beschreiben könnte, dass die Menge der Mails, die nicht geparst werden können identisch wäre mit der Menge der Spam-Mails. Dieser Idealfall dürfte selten sein, ist aber nicht ausgeschlossen. Z.B. könnte Firmenpost so organisiert werden, dass sie eine exakt definierte Struktur aufweisen muss. Normalerweise wird aber auch der IMP-Filter mit Näherungen arbeiten und nur eine bestimmte Teilmenge der Mails wird sicher als Spam oder Nicht-Spam erkannt. Die anderen Filter des Spamihilators werden also weiterhin benötigt.

TextTransformer-Projekte sind normalerweise dafür da, um aus Quelltexten Zieltexte zu erzeugen. Für den Spamihilator ist der Zieltext einfach "1" oder "0" oder "-1", für Non-Spam, indifferenten Text und Spam.

Non-Spam	"1"
Spam	"-1"
indifferent	"0"

Dieser Rückgabetext wird in den sogenannten semantischen Aktionen erzeugt. Obige Definition der Anrede wird deshalb nochmals erweitert zu:

Anrede ::=

("Lieber" | "Hallo")

(

"Heinz" {{iResult = 1; }}

| WORT {{iResult = -1; }}

)

"iResult" ist eine zuvor deklarierte Integer-Variable. Zum genaueren Verständnis dieser Variable sei auf zunächst die Beispielsprojekte hingewiesen und natürlich letztlich auf die Hilfe zum Texttransformer.