|
Die Sprachfähigkeit ist eines der wichtigsten Merkmale,
in denen sich der Mensch vom Tier unterscheidet, und die menschlichen
Sprachen, die sich über Jahrtausende entwickelt haben, gehören zu den
größten Kulturleistungen der Menschen überhaupt. Sie sind organische
Gebilde, die so ungemein anpassungsfähig sind, dass sie oft sogar als
chaotisch empfunden werden.
Wie kann es gehen, dass ein Computerprogramm mit diesen
organisch gewachsenen Gebilden, den Sprachen, umgehen kann, sie
versteht und sogar ineinander übersetzt? Ohne in philosophische
Überlegungen zu geraten, kann man sagen, dass ein Computerprogramm
Sprachen ebenso wenig verstehen kann wie die Berechnungen von
Satellitenumlaufbahnen, die es zuverlässig durchführt, oder das
Schachspiel, auch wenn es Kasparov dabei schlägt.
Übersetzungsprogramme wenden die Regeln und das Wissen
an, mit denen ihre Entwickler die Funktionsweise der Sprache zu
modellieren versuchen. Manchmal werden solche Regeln auch auf
statistischem Wege über die Untersuchung riesiger Textmengen gewonnen,
in jedem Fall mit dem Ziel, das Verhalten eines Übersetzers
nachzubilden. Da Sprachen so komplexe Gebilde sind, ist es noch
niemandem gelungen, ihre Funktionsweise vollständig und präzise zu
beschreiben. Das zeigt sich unter anderem, wenn Übersetzungsprogramme
Fehler machen oder versagen.
Die Hauptschwierigkeit, mit der Übersetzungsprogramme zu
kämpfen haben, ist die Mehrdeutigkeit sprachlicher Äußerungen,
einzelner Wörter aber auch ganzer Sätze. Ein großer Teil der Regeln in
Übersetzungsprogrammen beschreibt, unter welchen Bedingungen welche
Bedeutung zum Tragen kommt. Das verdeutlichen Beispiele wie diese:
Der Kurs findet statt. (Kurs » course)
Der Kurs fällt. (Kurs » rate)
Briefträger beißen Hunde selten.
Dogs seldom bite postmen.
Postmen seldom bite dogs.
Im ersten Beispiel kommen unterschiedliche Bedeutungen
des Wortes Kurs vor, die durch den Zusammenhang geklärt werden;
im zweiten Beispiel ist die Satzstruktur mehrdeutig - es ist nicht
klar, ob Briefträger Subjekt oder Objekt ist.
Trotz aller Schwierigkeiten hat die maschinelle
Übersetzung, an der seit der Anfangszeit der Computer Ende der
vierziger Jahre des letzten Jahrhunderts gearbeitet wird, solche
Fortschritte gemacht, dass sie eine große Hilfe im Umgang mit
fremdsprachigen Texten darstellt. Wie das funktioniert, wird im
Folgenden kurz skizziert.
Übersetzung in sieben Schritten
Wir beschreiben hier das Übersetzen von Texten oder
Dokumenten und nicht das Dolmetschen gesprochener Äußerungen. Die
Überführung von gesprochener in geschriebene Sprache und die Synthese
gesprochener Sprache aus Texten sind eigene Themen, die man unabhängig
vom Übersetzen behandeln kann.
1. Zerlegen von Dokumenten in Wörter, Sätze und
Formatangaben
Die Grundbausteine, mit denen Übersetzungsprogramme
arbeiten, sind Wörter und Regeln über deren Kombinierbarkeit zu Sätzen,
Abschnitten und ganzen Texten. Jedes Dokument, das übersetzt werden
soll, muss also in Wörter, Zahlen und Satzzeichen zerlegt werden. Da
das Layout in der Übersetzung meistens genauso aussehen soll, wie das
des Originals, muss auch diese Information erkannt und spräter an der
passenden Stelle in die Übersetzung eingefügt werden.
Da die Kombinationsregeln - die grammatischen Regeln -
für Sätze formuliert werden, müssen auch die Satzgrenzen bestimmt
werden. Das ist leider weniger leicht, als es auf den ersten Blick
scheint. Einem Punkt sieht man es nicht sofort an, ob er das Satzende,
eine Abkürzung oder eine Ordnungszahl kennzeichnet, oder ob er
vielleicht Bestandteil einer Email- oder Internet-Adresse ist oder der
optischen Gruppierung von Ziffern dient.
2. Rückführen von Wörtern auf ihre Grundform und Suche
im Wörterbuch
Jedes Übersetzungsprogramm braucht ein Wörterbuch. Hier
stehen alle Informationen, die für die Analyse von Sätzen und die
Übersetzung gebraucht werden, zum Beispiel die Wortart, das
grammatische Geschlecht oder Angaben über die Bedeutung.
Grundsätzlich kann man jede mögliche Form eines Wortes
ins Wörterbuch aufnehmen, also zum Beispiel schlafen, schlafe,
schläfst, schläft, schlaft, schlief, ... Das wird meistens nicht
gemacht, sondern man bevorzugt eine so genannte morphologische
Zerlegung, bei der die einzelne Wortform auf eine Grundform - das
Stichwort in herkömmlichen Wörterbüchern - zurückgeführt wird. Damit
wird dann im Wörterbuch gesucht, und die grammatische Funktion der
vorliegenden Wortform wird mit der dort gefundenen Information
bestimmt, zum Beispiel schläfst - 2. Person Singular Präsens.
3. Erkennen der Satzstruktur
In der Anfangszeit glaubte man, brauchbare Übersetzungen
schon dadurch herstellen zu können, dass man ein Programm Wort für Wort
übersetzen lässt. Das erwies sich aber sehr schnell als Illusion, da
sich die Sprachen erstens in ihrer Wortstellung sehr stark
unterscheiden können und zweitens viele Wörter mehrere Übersetzungen
haben können, von denen meistens in einem gegebenen Satz nur eine
gültig ist. Die Ergebnisse waren vollkommen unverständliche Abfolgen
von alternativen Wortübersetzungen, mit denen niemand etwas anfangen
konnte.
Ein Übersetzungsprogramm muss also die Grammatik
beherrschen. Jedem Wort und jeder Wortgruppe muss die passende Rolle im
Satz zugeordnet werden, und dabei muss sehr genau darauf geachtet
werden, welche Kombinationen wahrscheinlich, möglich oder
ausgeschlossen sind. Die Genauigkeit dieser Regeln ist entscheidend für
die Qualität der Übersetzung.
Nicht nur der durch den jeweiligen Satz gegebene
Zusammenhang beeinflusst die Bedeutung der Wörter sondern auch
Beziehungen zwischen den Sätzen. Die Verwendung von Pronomen wie er,
sie, es kann die Interpretation eines Satzes sehr erschweren. Wie
soll zum Beispiel das Wort einstellen in dem Satz
Das Unternehmen stellt sie ein.
übersetzt werden? Ist es hire, adjust, stop oder
noch etwas anderes? Das hängt davon ab, ob sie sich auf eine
Person, eine Maschine oder die Produktion bezieht. Wenn das nicht
bekannt ist, kann weder ein Mensch noch ein Programm diesen Satz
vernünftig übersetzen.
4. Zuordnen von Übersetzungen zu einzelnen Wörtern
Jedem Wort und vielen Wortgruppen sind im Wörterbuch
eine oder mehrere Übersetzungen zugeordnet. Nachdem durch die Analyse
eines Satzes der Zusammenhang bekannt ist, in dem die Wörter stehen,
können die jeweils passenden Übersetzungen ausgewählt werden.
5. Erzeugen der Struktur der zielsprachlichen Sätze
Ausgehend von der Struktur des ursprünglichen Satzes und
der ausgewählten Übersetzungen für die einzelnen Wörter wird nun die
Struktur der Übersetzung aufgebaut, die sich von der des Originals sehr
stark unterscheiden kann. So wird
John grows a beard.
zu
John lässt sich einen Bart wachsen.
weil das Wort wachsen im Deutschen nicht
transitiv verwendet werden kann und deshalb ein weiteres Verb - lassen
- als eine Art Vermittler benötigt wird.
6. Erzeugen der richtigen Wortformen
Während die korrekte Abfolge der Wörter in der
Übersetzung ermittelt wird, arbeitet das Übersetzungsprogramm
üblicherweise mit Grund- oder Stammformen der Wörter. Erst wenn die
Struktur endgültig feststeht, wird aus den Formen lass, ein und
wachs des vorigen Beispiels lässt, einen und
wachsen.
7. Hinzufügen der Layout-Information
Die Layout-Information, die im ersten Schritt weitgehend
ausgeblendet wurde, wird nun zu den Übersetzungen wieder hinzugefügt,
sodass schließlich ein neuer Text entsteht, der weitgehend so aussieht
wie das Original. Dazu noch eine Bemerkung: Manche Layout-Angaben wie
Fettdruck einzelner Wörter müssen tatsächlich während des Übersetzen
eines einzelnen Satzes berücksichtigt werden, da ja die Entsprechungen
im Satz möglichst gleich - zum Beispiel fett - erscheinen sollen.
|