Spam oder Nicht-Spam

Top  Previous  Next

Texte parsen > Spam oder Nicht-Spam

 

Ideal wäre, wenn man die Textstruktur erwünschter E-Mails so vollständig beschreiben könnte, dass die Menge der Mails, die nicht geparst werden können identisch wäre mit der Menge der Spam-Mails. Dieser Idealfall dürfte selten sein, ist aber nicht ausgeschlossen. Z.B. könnte Firmenpost so organisiert werden, dass sie eine exakt definierte Struktur aufweisen muss. Normalerweise wird aber auch der IMP-Filter mit Näherungen arbeiten und nur eine bestimmte Teilmenge der Mails wird sicher als Spam oder Nicht-Spam erkannt. Die anderen Filter des Spamihilators werden also weiterhin benötigt.

 

TextTransformer-Projekte sind normalerweise dafür da, um aus Quelltexten Zieltexte zu erzeugen. Für den Spamihilator ist der Zieltext einfach "1" oder "0" oder "-1", für Non-Spam, indifferenten Text und Spam.

 

 

Non-Spam

"1"

Spam

"-1"

indifferent

"0"

 

 

Dieser Rückgabetext wird in den sogenannten semantischen Aktionen erzeugt. Obige Definition der Anrede wird deshalb nochmals erweitert zu:

 

Anrede ::= 

("Lieber" | "Hallo") 

(   

    "Heinz" {{iResult = 1; }}

  | WORT    {{iResult = -1; }}

)

 

"iResult" ist eine zuvor deklarierte Integer-Variable. Zum genaueren Verständnis dieser Variable sei auf zunächst die Beispielsprojekte hingewiesen und natürlich letztlich auf die Hilfe zum Texttransformer.