COLLATE

Computational Linguistics and Language Technology
for Real Life Applications

 


Sprachtechnologie - Wege von der Forschung in den Markt verkürzen

Google hilft uns oft, Webseiten zu finden. Webseiten helfen uns manchmal, Antworten auf drängende Fragen zu finden. Wenn wir dem Web endlich selbst unsere Fragen stellen können, und das auf Deutsch, Englisch oder Französisch, dann ist Sprachtechnologie im Spiel.  Das Deutsche Kompetenzzentrum für Sprachtechnologie hat dafür gesorgt, dass wir diesem Ziel sehr nahe gekommen sind. Sprachtechnologogie steckt auch in Übersetzungssoftware und Programmen für Spracherkennung, Grammatiküberprüfung oder Fremdsprachenerwerb. Weil sie das Sprachproblem zwischen Mensch und Maschine überbrücken wird, bezeichnet man in der Industrie die Sprachtechnologie auch als eine Schlüsseltechnologie auf dem Weg in die Informations- und Wissensgesellschaft. Wenn immer der Computer mit der Sprache seiner Benutzer umgehen soll, dann muss man ihm aber zuvor beibringen, wie Sprache produziert und verstanden wird. Aber wer weiß das schon so genau, dass man es auf dem Computer nachbilden kann? Die Forschung ist dabei, dieses Rätsel zu lösen.  

Der Aufbau und die Forschung des Kompetenzzentrums wurde durch das Projekt COLLATE vom Bundesministerium für Bildung und Forschung (BMBF) gefördert. Dieses Projekt in Saarbrücken hat der Forschung einen kräftigen Stoß nach vorne versetzt und die Wege der Ergebnisse vom Labor in die industrielle Nutzung erheblich beschleunigt. Heute ist das Zentrum weltweit bekannt und dient in Deutschland als erste Anlaufstelle für Wissenschaftler, Anwender, Entscheidungsträger, Journalisten und die interessierte Öffentlichkeit. Das Angebot erstreckt sich vom größten Informations- und Nachrichtendienst des Faches auf dem Internet über die interaktive Vorführung eines breiten Spektrums von sprachtechnologischen Anwendungen bis hin zur intensiven Beratung über Technologien und Systeme. Ein weiteres Aufgabengebiet des Kompetenzzentrums ist die systematische Evaluation der Funktionalität und Benutzbarkeit von Informations- und Kommunikationstechnologien. Entwicklungen und Dienste des Zentrums werden in Skandinavien, China, Japan und anderen Ländern kopiert. 



DFKI Saarbrücken
Daneben wurden im Kompetenzzentrum bahnbrechende Forschungsergebnisse auf zentralen Gebieten der Sprachtechnologie erzielt, die unseren zukünftigen Umgang mit Informationssystemen einfacher und effektiver gestalten werden. Verbesserte Verfahren zur zielgerichteten Extraktion von Information aus großen Textmengen helfen Firmen und Organisationen, die tagtägliche Informationsflut in den Griff zu bekommen. Neue Techniken zur präzisen Beantwortung natürlichsprachlicher Fragen werden Suchmaschinen in Antwortmaschinen verwandeln. Multimodale Navigationssysteme im Handy oder PDA werden den Benutzer überallhin begleiten, und über eine intuitive Schnittstelle Informationen zu dem jeweiligen Aufenthaltsort anbieten. 

Partner in dem Projekt waren das Deutsche Forschungszentrum für Künstliche Intelligenz und die Universität des Saarlandes.  Das Vorhaben wird gemeinsam von den Saarbrücker Professoren Manfred Pinkal, Hans Uszkoreit und Wolfgang Wahlster geleitet. Der internationale Beirat und die Gutachter haben dem Projekt seinen Erfolg bescheinigt. Das BMBF hat daraus die Konsequenz gezogen, das Vorhaben für weitere zwei Jahre bis Ende 2005 zu fördern. Die anspruchsvollen neuen Themen beinhalten unter anderem die inhaltliche Auswertung von Sprachaufzeichnungen aus Arbeitsbesprechungen und neue mobile Informationssysteme.   

Umfassendes Informationsangebot zur Sprachtechnologie
Der Web-basierte Informations- und Nachrichtendienst „LT World“ bietet als ontologie-basiertes Portal einen strukturierten Einstieg in das Gebiet der Sprachtechnologie. Zu jedem Teilgebiet der Sprachtechnologie gibt es einen von einem führenden Experten verfassten Artikel sowie Verweise auf die wichtigsten Personen, Firmen, Institute, Softwaresysteme und Projekte. Daneben gibt es eine umfassende Datenbank mit über 6.000 Einträgen zu Projekten, Softwaresystemen, Organisationen und Personen aus dem Gebiet der Sprachtechnologie. Durch diese Datenbank besteht die Möglichkeit, Experten zu einem bestimmten Thema ausfindig zu machen und durch Recherche nach früheren Projekten und Softwaresystemen wiederverwertbare Ergebnisse zu finden und Doppelarbeit zu vermeiden. Mit dem Aufbau der Datenbank wurde zugleich eine Systematik (Ontologie) des Gebiets Sprachtechnologie erarbeitet, wie sie in etablierteren Gebieten der Wissenschaft schon vorhanden ist. Dabei wurden modernste Verfahren zur Wissensstrukturierung (Semantic Web) verwendet. Der Informationsdienst „LT World“ ist zum Vorbild für ähnliche Informationsdienste in Skandinavien, China und Japan geworden, mit denen regelmäßig Daten ausgetauscht werden.
 

Sprachtechnologie live erleben im Saarbrücker Demo-Center
Am Deutschen Forschungszentrum für Künstliche Intelligenz ist eine weltweit einzigartige Sammlung von aktuellen Sprachtechnologie-Systemen installiert und kann bei Bedarf live vorgeführt und ausprobiert werden. Zu den installierten Systemen gehören unter anderem automatische Spracherkennung und –synthese, automatische Übersetzung, Informationsextraktion, Grammatiküberprüfung, Suchmaschinen und Edutainment-Roboter. Dabei sind sowohl kommerzielle Anwendungen wie auch die neuesten Forschungsprototypen vertreten. Genutzt wurde das Demonstrationszentrum von Studenten und Schulklassen, Forschern, Entscheidungsträgern aus Wirtschaft und Politik, und Journalisten. Zu den prominentesten Besuchern gehören Ron Sommer, Angela Merkel und Bundespräsident Johannes Rau. 

Erfolgsfaktor Benutzbarkeit: Neue Methoden der Evaluation
Der breite Erfolg von neuartigen Anwendungen und Geräten hängt stark von der unkomplizierten Benutzung ab. Im Evaluationszentrum für Sprachtechnologie wurden Verfahren entwickelt, die Aufmerksamkeit der Benutzer anhand ihrer Blickbewegungen zu verfolgen. Mit Hilfe eines Eye-Trackers wird in jedem Moment die Blickrichtung des Benutzers aufgezeichnet. Durch Auswertung dieser Daten können Probleme bei der Benutzbarkeit erkannt werden, z.B. störende Elemente, die zu Ablenkungen führen oder schwer zu findende Bedienungselemente. Mit Hilfe eines mobilen Eyetrackers können die Untersuchungen auch mit mobilen Benutzern – wie Fußgängern oder Autofahrern – durchgeführt werden, um z.B. die Ablenkung durch Benutzung eines Handys oder Navigationssystems zu untersuchen.

Universität des Saarlandes

Informationsextraktion: Perlen in der Informationsflut finden
Die Anzahl der weltweit verfügbaren Informationen wächst ständig, so dass die Auswertung der Informationsquellen ohne Werkzeuge nicht mehr machbar ist. Im Projekt COLLATE wurde ein System zur gezielten Extraktion von Informationen aus großen Textmengen entwickelt, das für neun europäische und asiatische Sprachen verfügbar ist. Mit dem System SPROUT können gezielt Informationen über bestimmte Personen, Firmen oder Ereignisse aus Texten extrahiert und in eine Datenbank eingetragen werden. SPROUT wird eingesetzt zur automatischen Auswertung von Reisewarnungen für Krisengebiete, und für die Extraktion von Kundenmeinungen über Elektronik-Geräte und Kraftfahrzeuge aus Online-Diskussionsforen. 

Von Such-Maschinen zu Antwort-Maschinen
Sucht ein Benutzer eine Antwort auf eine gezielte Frage, so muss er mit heutigen Suchmaschinen Stichwörter für eine Anfrage aussuchen, und dann mit großem Aufwand suchen, ob eines der gefundenen Dokumente die Antwort auf seine Frage enthält. In COLLATE wurde ein System entwickelt, das diese Schritte überflüssig macht, und direkt auf eine natürlichsprachliche Frage einen Satz mit der passenden Antwort liefert. Das System AnswerBus analysiert dazu die Frage des Benutzers, erstellt Stichwörter für eine Anfrage an eine Suchmaschine, und extrahiert Antworten aus den Ergebnisseiten. Auch das Abfragen von Nachrichtenquellen ist möglich. Das System wird täglich von einigen tausend Benutzern verwendet. Zur Zeit wird an einer gesprochenen Eingabe mit Spracherkennung gearbeitet, so dass demnächst Fragen auch telefonisch beantwortet werden können. 

Mobile Assistenten für alle Benutzergruppen
Mit dem System M3I wurde eine Anwendung entwickelt, die Informations- und Navigationssysteme auf mobilen Geräten wie Handys oder PDAs verfügbar macht. Um eine komfortable Interaktion zu ermöglichen, wurden die Geräte mit Sprachein- und -ausgabe ausgestattet. Außerdem können sprachliche Eingaben mit Zeigegesten verbunden werden. Damit kann der Benutzer beispielsweise auf seinem Display auf einen Punkt auf dem Stadtplan zeigen und fragen „Wie komme ich dorthin?“ oder „Was ist das für ein Gebäude?“. Um die Geräte für möglichst viele Benutzergruppen verwendbar zu machen, optimiert sich die Spracherkennung automatisch für Geschlecht und Altersgruppe des Benutzers.


In der Sprachtechnologie und auch in ihrer Grundlagenwissenschaft, der Computerlinguistik, spielt die deutsche Forschung in der ersten Liga. Das Kompetenzzentrum soll die Stellung der deutschen Forschung im internationalen Maßstab stärken und sowohl die Anbieter als auch die Abnehmer der wissenschaftlichen Ergebnisse beim Transfer von der Forschung in die Anwendung unterstützen.

 


Die drei Projektleiter Wahlster, Uszkoreit und Pinkal
Nutznießer der angebotenen Forschungs- und Dienstleistungen sind die industriellen Hersteller und Anwender der Sprachtechnologie. Die fachliche Kompetenz des DFKI und seine Gemeinnützigkeit garantieren anwendungsübergreifende und herstellerunabhängige Beratung. Auch die nationale und internationale Forschung profitiert vom Angebot des Kompetenzzentrums. 

Nähere Informationen finden Sie unter http://collate.dfki.de/

sowie bei

Prof. Dr. Hans Uszkoreit
Deutsches Forschungszentrum für Künstliche Intelligenz GmbH
Stuhlsatzenhausweg 3
66123 Saarbrücken


Gefördert durch