Mit Morphy
gibt es schon seit den 1990ern eine Software zur morphologischen Analyse von deutschen Texten. Da
Morphy aber nur unter Windows läuft, beschreibe ich hier, wie man an die Daten herankommt:
- LanguageTool herunterladen in der "Stand-alone"-Version (benötigt Java) und entpacken
- Das aktuelle Morphologie-Lexikon herunterladen und entpacken
- In export.sh den Pfad zu LanguageTool anpassen
- export.sh aufrufen (unter Linux, unter Windows sind evtl. Anpassungen am Script nötig)
- Die exportierte Datei enthält dann pro Zeile die flektierte Form, die Grundform und die Wortarten-Tags, z.B.:
Hauses Haus SUB:GEN:SIN:NEU
Haus Haus SUB:AKK:SIN:NEU
Haus Haus SUB:NOM:SIN:NEU
Hause Haus SUB:DAT:SIN:NEU
Haus Haus SUB:DAT:SIN:NEU
Häusern Haus SUB:DAT:PLU:NEU
Häuser Haus SUB:GEN:PLU:NEU
Häuser Haus SUB:AKK:PLU:NEU
Häuser Haus SUB:NOM:PLU:NEU
Die Dokumentation der Tags befindet sich
in diesem PDF.
Die so exportierten Daten sind die Morphy-Daten mit vielen Korrekturen und Erweiterungen.
Viele aktuelle Erweiterungen stammen von korrekturen.de.
Für Fragen bin ich unter naber(at)danielnaber.de
erreichbar.
Links zu verwandten Daten und Programmen:
|