Zur Begrifflichkeit

Top  Previous  Next

Texte parsen > Zur Begrifflichkeit

 

Struktur einer E-Mail

 

Es gibt verschiedene Arten, wie E-Mails aufgebaut sein können, aber allen Arten gemeinsam ist, dass die vollständige Mail mit einem Kopf beginnt, der z.B. den Absender, das Datum und das Betreff der Mail enthält. Die eigentlichen Daten der E-Mail folgen auf den Kopf. Die Daten können verschiedener Art sein:

 

reine Texte
HTML-formatierte Texte
Bilder, Audio-, Videodaten etc. in binärer Form.

 

Der Kopf kann auch Informationen enthalten, die den weiteren Aufbau der aktuellen Mail und die Art der Daten beschreiben.

 

Im einfachsten Fall fehlen diese Informationen und auf den Kopf der Mail folgt dann eine Leerzeile und schließlich der Text mit der eigentlichen Nachricht.
Komplexe E-Mails sind MIME-kodiert (Multipurpose Internet Mail Extensions). Solche Mails können aus einer Menge von Bereichen bestehen, die selbst wieder aus Kopfzeilen und anderen Daten bestehen.

 

 

 

Parsen

 

Mit dem IMP-Filter werden die Texte von E-Mails analysiert, d.h. die Texte werden gemäß ihrer Struktur oder Syntax zerlegt. Der Fachterminus hierfür ist Parsen: die Texte werden geparst. Ein Programm, das Texte parst, ist ein Parser. Die Parser für die Texte können vom Benutzer selbst erstellt werden. Dazu dient der TextTransformer. Dieses Programm ist ein Parser-Generator-IDE Eine IDE (integrated development environment) ist eine integrierte Entwicklungsoberfläche. TextTransformer-Projekte enthalten die Spezifikationen für Parser.