zurueck zur Startseite

Newsletter

Suche

Termextraktion - Extrahieren von Terminologie aus ReferenztextenTermextraktion - Extrahieren von Terminologie aus Referenztexten
Terminologiemanagement

Termextraktion - Ein Schritt auf dem Weg zu fundiertem Terminologiemanagement

Termextraktion - Zweck und Vorgehensweise

Ein Terminologiemanagementsystem ist schnell gekauft. Die eigentliche Terminologiearbeit ist jedoch das Befüllen der Datenbank. Doch woher bekommt man die Terme? Eine wichtige Quelle sind Wortlisten und Glossare, wie sie oft von einzelnen Kollegen im Stillen erstellt werden. Eine weitere wertvolle Terminologiequelle ist die vorhandene technische Dokumentation eines Unternehmens. Mit Hilfe von Termextraktion schaffen Sie aus diesen Quellen schnell eine Basis für Ihre Terminologiearbeit.

Termextraktion dient der Gewinnung von Termkandidaten aus Referenztexten. Sie ist einer der Schritte auf dem Weg zu fundiertem Terminologiemanagement. Das Ergebnis einer Termextraktion ist eine Liste von Termkandidaten, die durch den Terminologen überprüft werden müssen. Je nach Vorgehensweise und ggf. verwendeter Software enthält die Liste weitere Angaben zu den Termkandidaten, wie z. B. Kontextbeispiele.

Der Vorgang der Termextraktion kann in vier Schritte unterteilt werden [1]:

  1. Zusammenstellen der Referenztexte: Aus der Technischen Dokumentation werden einige relevante Referenztexte herausgesucht, die als Basis für die Termextraktion dienen.
  2. Extrahieren der Termkandidaten: Manuell oder mit Software-Unterstützung werden aus den Referenztexten Termkandidaten herausgesucht.
  3. Evaluieren der Ergebnisse: Die gewonnenen Termkandidaten werden auf Ihre terminologische Relevanz hin untersucht. Irrelevante Termkandidaten werden aus der Liste gelöscht. Die übrigen, relevanten Termkandidaten werden als Terme übernommen.
  4. Klassifikation der Terme: Die gewonnenen Terme werden klassifiziert.

Einsprachige vs. mehrsprachige Termextraktion

Bei der Termextraktion in nur einer Sprache werden Terme aus einsprachigen Dokumenten extrahiert, beispielsweise aus MS-Word-Dateien. Das Ziel kann z. B. sein, alle Terme zu identifizieren, die für eine Übersetzung oder für eine terminologische Bearbeitung eines Fachgebietes relevant sind. Im Allgemeinen wird einsprachige Termextraktion auf einen Referenztext angewandt, unabhängig davon, ob dieser übersetzt wird.

Mehrsprachige - zumeist zweisprachige - Termextraktion wird hingegen auf bereits übersetzte Texte angewandt, d. h. auf einen Ausgangstext und sein übersetztes  Äquivalent. Dafür eignen sich zweisprachige Exportdateien (z. B. TMX) aus Translation-Memory-Systemen. Das Hauptziel der mehrsprachigen Termextraktion ist die Identifikation von äquivalenten Termkandidaten, d. h. von Termkandiatenpaaren.

Manuelle vs. rechnergestützte Termextraktion

Manuelle Termextraktion

Bei der manuellen Termextraktion dienen Rechner nur dem übersichtlichen Darstellen der Extraktionsquellen und dem Speichern und Verwalten der extrahierten Terme. Das Extrahieren erledigt der Terminologe, indem er Texte in einer oder mehreren Sprachen liest und anhand seines Fachwissens über die Aufnahme von Termen in das Terminologiemanagementsystem entscheidet. Das Fachwissen muss dabei sowohl auf dem Gebiet des Terminologiemanagements, als auch auf dem zu bearbeitenden Fachgebiet vorhanden sein. Ein Vorteil der manuellen Termextraktion ist, dass die Zielsetzung sehr individuell erfolgen kann: Der Terminologe kann ein beliebiges Extraktionsziel festlegen, beispielsweise nur Terme eines bestimmten Fachgebietes zu extrahieren. Software kann dies noch nicht leisten.

Rechnergestützte Termextraktion - Konkordanzverfahren

Termextraktionsprogramme, die ausschließlich Konkordanzen feststellen, sind hinsichtlich ihrer Funktion am einfachsten: Sie erstellen Listen aller im untersuchten Text vorkommenden Wörter. Diese Listen sind je nach Textlänge entsprechend umfangreich, jedoch können durch sogenannte Stoppwortlisten beliebige Wörter von vornherein von der Extraktion ausgeschlossen werden. Der Terminologe muss bei der Arbeit mit Konkordanzlisten viel nacharbeiten. So muss er z. B. alle terminologisch  uninteressanten, gemeinsprachlichen Wörter löschen und die verbleibenden Wörter ggf. lemmatisieren, d. h. in ihre Grundform zurückführen. Konkordanzprogramme besitzen keine linguistische Intelligenz. Der Vorteil dieser Vorgehensweise ist allerdings, dass keine Termkandidaten übersehen werden.

Beispiele für Termextraktionssoftware, in der das Konkordanzverfahren zum Einsatz kommt:

Rechnergestützte Termextraktion - Statistisches Extraktionsverfahren

Termextraktionsprogramme, die nach dem statistischen Extraktionsverfahren arbeiten, ermitteln die relative Häufigkeit aller Wörter in einem Referenztext. Das Ergebnis ist eine Liste mit den am häufigsten vorkommenden Wörtern, wobei flektierte Wortformen mangels linguistischer Intelligenz als eigenständige Wörter behandelt werden. Diese müssen, wie bei der Konkordanzsuche, manuell lemmatisiert oder aussortiert werden. Ein Risiko des statistischen Extraktionsverfahrens besteht darin, dass wichtige, aber weniger oft vorkommende Wörter unberücksichtigt bleiben, da allein die Vorkommenshäufigkeit entscheidet, ob ein Wort als Termkandidat angezeigt wird. Bei zweisprachiger Termextraktion versuchen die entsprechende Extraktionsprogramme anhand der ermittelten Häufigkeit Beziehungen herstellen zwischen einem Wort oder einer Phrase in der Ausgangssprache und dem vermutlichen Äquivalent in der Zielsprache. Dies setzt jedoch bereits eine weitgehend konsistente Verwendung in Ausgangssprache und Zielsprache voraus.

Beispiel für Termextraktionssoftware, in der das statistische Extraktrionsverfahren zum Einsatz kommt:

Rechnergestützte Termextraktion - Linguistisches und hybrides Extraktionsverfahren

Termextraktionsprogramme mit linguistischer Intelligenz analysieren in einem Referenztext die morphologische Zusammensetzung der Wörter, den Satzbau sowie signifikante rechte und linke Nachbarn einzelner Wörter. Die erkannten Termkandidaten werden ggf. automatisch lemmatisiert. Für diese linguistische Intelligenz sind umfangreiche Wörterbücher und Regelwerke notwendig. Die betreffenden Termextraktionsprogramme sind daher - im Gegensatz zu Konkordanzprogrammen und statistischen Verfahren - auf die Sprachen begrenzt, für die sie entwickelt wurden. Wird parallel zum linguistischen auch das statistische Extraktionsverfahren angewandt, spricht man von einem hybriden Extraktionsverfahren.

Beispiele für Termextraktionssoftware, in der das hybride Extraktionsverfahren zum Einsatz kommt:

Quellen:

[1] Zielinski, Daniel / Safar, Yamile Ramírez (2005): "Research meets practice: t-survey 2005 : An online survey on terminology extraction and terminology management".<http://fr46.uni-saarland.de/download/publs/sdv/t-survey_aslib2005_zielinski.htm> [Stand: 2005, Zugriff: 21.09.2009, 12:42 MESZ]

Was dürfen wir für Sie tun?

Sie interessieren sich dafür, die Qualität und die Effizienz Ihrer Technischen Dokumentation durch Terminologiemanagement zu steigern? Lassen Sie sich von tfk beraten. Gemeinsam finden wir die beste Lösung für Ihre Technische Dokumentation und Ihr Unternehmen.

  • Wir unterstützen Sie bei der Konzeption Ihres maßgeschneiderten Terminologiemanagements.
  • Wir unterstützen Sie bei der Auswahl und Einführung eines Terminologiemanagementsystems.
  • Wir stehen Ihnen beim Aufbau Ihrer Unternehmensterminologie mit Rat und Tat zur Seite.
  • Wir helfen Ihnen, Ihre Dokumentations- und Übersetzungsprozesse zu optimieren.
  • Wir schulen Ihre Mitarbeiter.

Kontaktaufnahme

Jürgen Metz, Bereichsleiter Dokumentation
Jürgen Metz

Sprechen Sie uns an!
Im gemeinsamen Gespräch erarbeiten wir Lösungsmöglichkeiten für Ihre Aufgaben.

documentation(@)tfk.de

Tel.: +49 89 1894354-11

tfk ist Mitglied im tekom e.V.

Die tfk technologies GmbH ist Mitglied in der tekom, dem deutschen Fachverband für technische Dokumentation und Kommunikation.