Spam oder Nicht-Spam |
Top Previous Next |
Texte parsen > Spam oder Nicht-Spam
Ideal wäre, wenn man die Textstruktur erwünschter E-Mails so vollständig beschreiben könnte, dass die Menge der Mails, die nicht geparst werden können identisch wäre mit der Menge der Spam-Mails. Dieser Idealfall dürfte selten sein, ist aber nicht ausgeschlossen. Z.B. könnte Firmenpost so organisiert werden, dass sie eine exakt definierte Struktur aufweisen muss. Normalerweise wird aber auch der IMP-Filter mit Näherungen arbeiten und nur eine bestimmte Teilmenge der Mails wird sicher als Spam oder Nicht-Spam erkannt. Die anderen Filter des Spamihilators werden also weiterhin benötigt.
TextTransformer-Projekte sind normalerweise dafür da, um aus Quelltexten Zieltexte zu erzeugen. Für den Spamihilator ist der Zieltext einfach "1" oder "0" oder "-1", für Non-Spam, indifferenten Text und Spam.
Dieser Rückgabetext wird in den sogenannten semantischen Aktionen erzeugt. Obige Definition der Anrede wird deshalb nochmals erweitert zu:
Anrede ::= ("Lieber" | "Hallo") ( "Heinz" {{iResult = 1; }} | WORT {{iResult = -1; }} )
"iResult" ist eine zuvor deklarierte Integer-Variable. Zum genaueren Verständnis dieser Variable sei auf zunächst die Beispielsprojekte hingewiesen und natürlich letztlich auf die Hilfe zum Texttransformer.
|