Modul B1:  Informationserschließung

Thema

Erstellung eines Moduls zum Thema Informationserschließung (Information Retrieval)

Beschreibung des Moduls

Inhalte

Der Arbeitsbereich Theoretische Computerlinguistik (Prof. Mönnich) beteiligt sich mit einem Kurs über Information Retrieval (Informationserschließung), der im Hauptstudium für den Studiengang Allgemeine Sprachwisschaft und Nebenfächer und im neu beantragten BA-Studiengang Computerlinguistik curricular verankert ist. Außerdem können Studenten der Informatik mit Nebenfach Linguistik und der Medieninformatik diesen Kurs im Wahlpflichtbereich des Hauptstudiums belegen. Der Kurs soll eine Einführung in die Methoden und Techniken in Information Retrieval geben und außerdem die Anwendung von computerlinguistischen Verfahren in diesem Bereich sowie Indexierung und Retrieval bei Multimedia-Dokumenten berücksichtigen.

Zu den klassischen Methoden und Techniken der Volltextrecherche zählen vor allem effiziente Indexierungsmethoden, string-matching-Verfahren und Suchalgorithmen, die in Kombination mit verschiedenen Retrieval-Strategien (von simplen Vorkommenstests bis hin zu verfeinerten Verfahren wie extended boolean retrieval, Ähnlichkeitssuche oder auch diverse Methoden der query expansion) vor allem am Beispiel englischer Testkollektionen überprüft wurden. Für die Evaluation von IR-Systemen gibt es etablierte Maße (wie etwa recall und precision) und eine ganze Reihe von statistischen Berechnungsverfahren.

Computerlinguistische Verfahren werden in jüngster Zeit verstärkt bei der Informationserschließung angewandt, wobei syntaktische und morphologische Methoden und Techniken die größte Verbreitung haben. Daneben spielen Kenntnisse aus der lexikalischen Semantik (automatische Thesauruserstellung) oder aus der Phonetik/Phonologie (fehlertolerante string-matching-Verfahren, Spracherkennung) eine wachsende Rolle. Linguistik-basierte Erschließungsverfahren zeichnen sich durchweg durch höhere Präzision aus. Werden z. B. syntaktische Analysen zur Indexerstellung herangezogen, ergibt sich etwa gegenüber den bekannten Suchmaschinen Im Internet der Vorteil, dass zusammengesetzte Phrasen (wie z.B. "Strategien zur Umsetzung regionaler Nachhaltigkeit") als Einheit indiziert werden können. Werden die Indexterme auch noch übersetzt, können selbst Dokumente in einer anderen Sprache gesucht werden, ohne dass dazu eine Übersetzung der gesamen Datenbasis nötig wäre. Dieses so genannte cross-language information retrieval war in den letzten Jahren ein Sonderthema der Text Retrieval Conference (TREC), bei denen der Antragsteller im Rahmen des Twenty-One- Projekts teilgenommen hat.

Klassische Modelle des IR betrachten Texte als unstrukturierte und flache Folgen von Wörtern. Praktisch alle Textdokumente (wie z.B. Bücher, Zeitungen, Broschüren, Arztrezepte, Zeugnisse, Formulare, Gesetzestexte, Rechnungen) weisen jedoch eine reichhaltige und charakteristische logische Struktur auf. Durch die Verwendung von Markup-Sprachen wie SGML und XML, die heute in fast allen Bereichen der Textverarbeitung Einzug gehalten haben, wird die logische Struktur in expliziter Weise erfasst, darüberhinaus werden inhaltlich besonders relevante Abschnitte ihrer semantischen Rolle nach markiert. Damit können Dokumentensammlungen, wie sie in umfangreicher Form insbesondere im World Wide Web vorliegen, als spezielle Datenbanken mit semi-strukturierten Daten betrachtet werden.

Die besondere Herausforderung, die sich hieraus für das  Retrieval in Dokumentendatenbanken ergibt, besteht in der Entwicklung effizienter Abfragetechniken, mit denen der Informationssuchende in adäquater Form sowohl auf Struktur als auch auf textuellen Inhalt von Dokumenten und Dokumententeilen Bezug nehmen kann. Ein ganz ähnliches Problem ergibt sich bei der Abfrage linguistischer Baumdatenbanken, wo die Einträge gleichfalls textuelle Aspekte (Wortvorkommen) und strukturelle Aspekte vereinen. Vor diesem Hintergrund entwickelte sich die Abfrage von Baumdatenbanken mit textuellen Inhalten in den letzten Jahren zu einem intensiv bearbeiteten Gebiet, in dem klassisches  Information Retrieval, Computerlinguistik und Datenbanktechnologie eine neue Verbindung eingehen.

Mit dem Teilmodul IR auf strukturierten Dokumenten soll ein vertiefter Einblick in die formalen und algorithmischen Hintergründe bei der Entwicklung praktischer Systeme zur Abfrage strukturierter Dokumente gegeben werden. Parallel werden die in vieler Hinsicht ähnlichen Möglichkeiten und Schwierigkeiten bei der Abfrage linguistischer Baumdatenbanken beleuchtet.

Struktur des Moduls

1. Einführung und allgemeine Verfahren der Informationserschließung
2. Vektorraumbasierte Modelle
3. Evaluation von IR-Systemen
4. Computerlinguistische Verfahren bei der Informationserschließung
5. IR auf strukturierten Dokumenten
6. Indexierung und Retrieval von Multimedia-Dokumenten

Die ersten drei Module stellen die Kernmodule dar, die im Rahmen des virtuellen Seminars auf jeden Fall zu bearbeiten sind. Die letzten drei Module können wahlweise als Schwerpunkt von den Teilnehmern der Veranstaltungen gewählt werden. Aufgrund des Umfangs wird es nicht möglich sein, die Kernmodule und alle diese Zusatzmodule in einem Semester durchzuarbeiten.

Teilmodul 1: Einführung und allgemeine Verfahren der Informationserschließung

In diesem Modul sollen Grundkenntnisse der Informationserschließung und ihrer Geschichte vermittelt werden. Die wichtigsten Themen sind: Unterschiede zur Datenbankabfrage, Texttypen und deren Eignung zur Erschließung, Indexerstellung, Retrievalstrategien (Boolesches Retrieval, relevance feedback etc.).

Teilmodul 2: Vektorraumbasierte Modelle

Vektorraummodelle stellen einen wichtigen Anteil der IR-Systeme; sie ermöglichen eine Gewichtigung der Indexwörter in einem Dokument, die die Bedeutung der Begriffe für das Dokument im Rahmen der Gesamtkollektion simulieren soll. In dieser Einheit sollen die wichtigsten Berechnungsverfahren für Wortgewichtungen und für die Ähnlichkeit von Dokumenten vorgestellt werden. Eigene Programmierarbeiten der Teilnehmer sind wichtig in dieser Phase; die Lektionen dieses Teilmoduls setzen außerdem gewisse mathematische Grundkenntnisse (in Lineare Algebra, Statistik und Wahrscheinlichkeitsrechnung) voraus.

Teilmodul 3: Evaluation von IR-Systemen

Themen dieses Kapitels sind die traditionellen Maße wie recall und precision, Probleme und Aussagekraft dieser Maße insbesondere bei längeren Dokumenten und Video-Materialien, das Verfahren known item retrieval und Bewertungen in diesem Zusammenhang, neuere Bewertungsverfahren (wie z.B. video recall quality).

Teilmodul 4: Computerlinguistische Verfahren bei der Informationserschließung

Die Anwendung von Lemmatisierung und Parsing bei IR-Systemen und die dadurch erzielte qualitative Verbesserung sind der Hauptgegenstand dieser Lehr-Lerneinheiten. Außerdem werden die verschiedenen Möglichkeiten des cross-language Information Retrieval und die Verwendung semantischer und konzeptueller Repräsentationen behandelt.

Teilmodul 5: IR auf strukturierten Dokumenten

Es sollen zunächst kurz SGML- und XML-markierte Dokumente sowie linguistische Baumdatenbanken als Anwendungsfelder der nachfolgend behandelten Techniken betrachtet werden. Eine detaillierte Diskussion von SGML und XML erübrigt sich durch einen Querverweis auf den Teilmodul Texttechnologie.

Nachfolgend werden wichtige Ansätze zur Abfrage strukturierter Dokumente (PAT, Regionenformalismen, Proximal Nodes, Formalismen des Baum-Matching, Dolores, XSLT) unter folgenden Gesichtpunkten dargestellt:

Die Möglichkeiten der Anfrageformulierung sollen jeweils durch eine Reihe praxisnaher Beispiele diskutiert werden. Die Formalismen sollen dann in Bezug auf ihre formale  Ausdrucksstärke, Effizienz und im Hinblick auf Möglichkeiten des Feedbacks und der Antwortinspektion verglichen werden. In diesem Rahmen wird auch das Problem der Relevanzbewertung von Antworten beim Retrieval strukturierter Dokumente thematisiert.

Durch die Bereitstellung eines prototypischen Systems zur Abfrage strukturierter Dokumente sollen den Kursteilnehmern die neuen Möglichkeiten einer kombinerten phrasenorientierten  und strukturellen Suche konkret verdeutlicht werden. Bei der Auswahl der hierfür verwendeten Dokumentensammlung wird eine Verflechtung mit dem Modul Texttechnologie angestrebt.

Teilmodul 6: Indexierung und Retrieval von Multimedia-Dokumenten

Für die Indexierung und das Retrieval von Bildern, Audio- und Video-Materialien gibt es in jüngster Zeit interessante Verfahren, die hier vorgestellt werden. Insbesondere die Ansätze des content-based vs. contex-based indexing machen deutlich, welche Vorzüge textbasierte Verfahren auch bei der Indexierung von Multimedia-Dokumenten (immer noch) haben. Beim Video-Retrieval spielen zusätzlich die Browsing-Verfahren für die Fundstellen eine große Rolle.

Besonderheiten der didaktischen Umsetzung

Im Teilmodul Informationserschließung sind synchrone virtuelle Seminare geplant, die durch asynchrone Kommunikationsmedien ergänzt werden. Die Seminarsitzungen sollen in der Regel von Tübingen aus moderiert werden; die Dozenten in Tilburg und München sind Experten für Teilmodule und fungieren als Moderatoren in Sitzungen über diese Themen. Eine Ausnahme bildet die Veranstaltung in Tilburg; dort werden wesentlich höhere Teilnehmerzahlen erwartet. Hier werden mehrere, parallele synchrone Seminare abgehalten werden, von denen eines gleichzeitig mit dem virtuellen Seminar für die anderen MiLCA-Teilnehmer stattfinden wird.

Als Kommunikationswerkzeuge sind Chat, Whiteboard und Web-Kameras vorgesehen. Ergänzend sollen eMail, Newsgroup und andere asynchrone Werkzeuge nur für organisatorische Mitteilungen wie z.B. Terminabsprachen verwendet werden.

Der Schwerpunkt soll auf der Strukturierung der Kommunikation in Zusammenhang mit der Moderation durch die Dozenten liegen. Es soll versucht werden, die Diskussion der Teilnehmer untereinander zu stimulieren, ohne dass dadurch die individuelle Qualifizierungsmöglichkeit, die bei diesem Kurs u.a. in Form von Programmieraufgaben gegeben ist, beeinträchtigt wird.

Ergänzend zum virtuellen Szenario planen wir eine Präsenzveranstaltung pro Semester, bei der die Teilnehmer ihre eigenen Programmierarbeiten vorstellen sollen. Dies gibt ihnen die Gelegenheit, in internationalem Rahmen Vortragserfahrungen zu sammeln, und natürlich auch die Möglichkeit, die virtuellen Bekanntschaften in wirkliche zu überführen. Aufgrund der geschätzten Teilnehmerzahlen wird die kostengünstigste Variante voraussichtlich in zwei Präsenzveranstaltungen in München und Tilburg bestehen.

Zusätzlich zu der im Gesamtantrag erwähnten didaktischen Konzeption wird bei diesem Teilmodul das selbstgesteuerte Lernen durch die kreative Tätigkeit an den eigenen Programmierungen durch die Lernenden ergänzt. Der Wissenserwerb wird also durch diese praktischen Erfahrungen begleitet.

Außerdem entstehen durch die praktische Tätigkeit der Studierenden sich selbst verbessernde Systeme, bei denen das Gelernte von den Studierenden unmittelbar zur Optimierung der eigenen Lernumgebung eingesetzt wird. Diese Selbstbezüglichkeit ermöglicht ein quasi symbiotisches Verhältnis von Theorie und Praxis, wie es in traditionellen Lehr- und Lernformen nicht annähernd geleistet werden kann.

Einige Module stellen einen unmittelbaren Bezug zu aktuellen Forschungsfeldern dar (vor allem die Teilmodule 5 und 6) und müssen deshalb laufend aktualisiert werden. Natürlich sind diese Gebiete besonders interessant für vertiefte Arbeiten der jungen Wissenschaftler.

2.4 Integration mit anderen MiLCA-Modulen

Die Kooperation mit anderen Partnern im Rahmen von MiLCA impliziert einerseits, dass die Lehr-/ Lerneinheiten in Module zusammengefasst werden, die nach Bedarf mit den Modulen der Partner verlinkt werden können. Diese Module sollen wichtige Themenbereiche im IR abdecken und auf bestimmte Teilnehmerprofile zugeschnitten sein. Das Modul vektorraumbasierte Modelle bietet sich zum Beispiel an, wenn Grundkenntnisse der Informationserschließung vorhanden sind; es vermittelt gezielt die verschiedenen Gewichtungsverfahren für die Indexierung bei diesen Modellen.

Die Kooperation innerhalb von MiLCA wird andererseits die Anwendungen von computerlinguistischen Verfahren bei der Informationserschließung auf eine solidere Basis stellen. Als Kurs im Rahmen der Anwendungen der Computerlinguistik beinhaltet er Lerneinheiten, die in ganz besonderem Maße mit den Kursen der Partner verbunden sind. Sollten manche Teilnehmer den Wunsch haben, eine grundlegende Methode zu vertiefen, so werden sie auf einen Kurs der Partner verwiesen. Im Kapitel Indexierung von Video-Materialien werden beispielsweise text-basierte Verfahren erwähnt, die mittels Spracherkennung der Tonspuren automatisch time-codierte Texte generieren und damit dann Videosequenzen indizieren. Interessierte Teilnehmer sollten sich an dieser Stelle über die besonderen Techniken und Probleme der Spracherkennung in den Modulen der Universität Bonn informieren können.

Im Teilmodul Computerlinguistische Verfahren bei der Informationserschließung werden Grundkenntnisse von Computational Lexicography und der Implementierung von Grammatikfragmenten vorausgesetzt. Teilnehmer, die auf diesen Gebieten Unsicherheiten haben, können natürlich ihre Kenntnisse in den entsprechenden Modulen der Partner auffrischen.

Das Teilmodul IR auf strukturierten Dokumenten weist einen direkten Bezug zum Teilmodul Texttechnologie auf. Während das letztgenannte Modul einen Schwerpunkt auf den praktischen Einsatz unterschiedlicher Techniken der Dokumentenbearbeitung im Rahmen computerlinguistischer Anwendungen legt, zielt das Modul IR auf strukturierten Dokumenten darauf ab, die mathematischen und algorithmischen Grundlagen von Systemen speziell zur Abfrage von Dokumentensammlungen und linguistischen Datenbanken deutlich zu machen. Wie schon im Bereich des Teilmoduls 4 besteht eine direkte Beziehungen auch zum Modul Computerlexikographie, etwa im Bereich der Lemmatisierung und automatischen Indexierung von Dokumenten.

Durch die Einbeziehung linguistischer Baumdatenbanken in die Betrachtungen ergeben sich viele zusätzliche Verbindungen zum Modul Grammatikformalismen und Parsing.

Zusätzliche Angaben

Besondere Erfahrungen des Antragsstellers

Die beteiligten Gruppen in Tübingen, München und Tilburg haben in den letzten Jahren regelmäßig Kurse zur Informationserschließung durchgeführt und wissenschaftliche Arbeiten zu damit verbundenen Themen veröffentlicht. Der Kurs Information Retrieval baut auf der Mitarbeit des Arbeitsbereichs Theoretische Computerlinguistik (Prof. Mönnich) in folgenden europäischen Verbundprojekten auf:

K. Krüger-Thielmann hat auf dem Gebiet der Evaluation im Rahmen von IR und insbesondere für Multimedia-Dokumente einschlägige Erfahrungen gesammelt; sie ist in der Vorbereitungsgruppe für den "video track" bei TREC10, der "Weltolympiade" für IR-Systeme.

Die Vorarbeiten, die im Rahmen von VirtuGrade, aber auch davon unabhängig am CIS (Centrum für Informations- und Sprachverarbeitung, LMU München) erfolgten, werden als Basis für die Kurse in MiLCA dienen. Überarbeitungen von vorhandenen Lehr-Lerneinheiten, Anpassungen an neue Formate, Neuentwicklung einiger Kapitel sowie die Gruppierung der Einheiten zu neuen Modulen werden einen Hauptanteil der Arbeiten für MiLCA ausmachen.

Die Arbeitsgruppe von Prof. Schulz beschäftigt sich seit mehreren Jahren intensiv mit verschiedenen Aspekten der Bearbeitung strukturierter Dokumenten sowie mit Techniken der Inhaltsanalyse und Strukturanreicherung bei Dokumenten. Im Rahmen eines DFG-Projekts wird derzeit ein in der Gruppe entwickeltes Abfragemodell für Baumdatenbanken implementiert und in verschiedene Richtungen weiterentwickelt. Das Modell zeichnet sich insbesondere durch eine spezielle Art der Erfassung und Darstellung relevanter Dokumententeile in der Antwortmenge aus, die neue Möglichkeiten zur Inspektion der Antwortmenge eröffnet. In Zusammenarbeit mit dem JURIS Verlag Saarbrücken wird derzeit das Abfragemodell für das Retrieval auf einer Sammlung juristischer Texte mit SGML-Markup einsetzbar gemacht. Am CIS wurde eine Sammlung geparster deutscher Nominalphrasen aus Zeitungstexten im Umfang mehrerer GByte realisiert, die Abfrage mit dem genannten Modell wird derzeit getestet.

Ein weiterer Schwerpunkt der Arbeiten liegt auf der OCR-Erfassung von Papierdokumenten und auf der Überführung von Dokumenten in XML Format. Prof. Schulz arbeitet seit etwa drei Jahren auf dem Gebiet der automatischen Analyse von gedruckter Korrespondenz in einem gemeinsamen Projekt mit den Firmen ARPA GmbH (OCR-Technologie, Adliswil, Schweiz) und Spectrum & Partner (EDV- und Unternehmensberatung, München) zusammen. Die Nutzungsrechte der entstehenden Lehrmaterialien sind gesichert.

Fachlicher und organisatorischer Beitrag des Antragstellers

Techniken zur Abfrage, weitergehend zur Manipulation und Umgestaltung strukturierter Dokumente weisen eine stürmische Entwicklung auf, die an die Computerlinguistik neue und wichtige Möglichkeiten und Herausforderungen stellt. Die derzeit  allgemein zur Verfügung stehenden Tools zur Behandlung von XML-Dokumenten und zur Abfrage von verwandten Baumdatenbanken vermitteln nur einen sehr vorläufigen Einblick in die prinzipiellen Möglichkeiten, die sich durch die in Gang gekommene Standardisierung der Erfassung von Information bieten. Das Teilmodul IR auf strukturierten Textdokumenten greift einen wichtigen Teilaspekt heraus und bietet einen vertieften Einblick in die formalen und algorithmischen Hintergründe bei der Entwicklung praktischer Systeme zur Abfrage strukturierter Dokumente. Parallel werden die in vieler Hinsicht ähnlichen Möglichkeiten und Schwierigkeiten bei der Abfrage linguistischer Baumdatenbanken beleuchtet. Vermittelt wird damit Lehrstoff zu einem Thema von großer aktueller Bedeutung, das bislang nicht in zufriedenstellendem Umfang in Lehrbüchern abgehandelt ist.

Vorarbeiten

Lehrveranstaltungen

Über die oben erwähnten Forschungsarbeiten hinaus hat Prof. Schulz in den letzten Jahren zahlreiche Lehrveranstaltungen sowohl im allgemeinen Bereich des IR wie auch zur speziellen Thematik der Abfrage und Bearbeitung strukturierter Dokumente abgehalten. Die Unterrichtsmaterialien liegen derzeit allerdings in der Mehrzahl nur in Form handschriflicher Aufzeichnungen vor.

Web-gestützte Lehrveranstaltungen

Die einzelnen Lehr-/Lerneinheiten basieren teilweise auf den in VirtuGrade entwickelten Skripten für das dort abgehaltene virtuelle Seminar. Diese Einheiten beruhen auf Programmierungen von J. J. Paijmans und sind an das Format der neuen Lernumgebung für MiLCA anzupassen.

Organisation

Der erste Kurs "Information Retrieval" wird vom 4. bis 15. März 2002 als Kompaktkurs durchgeführt. Weitere Kurse sind für Frühjahr 2003 und währden der Sommerschule 2003 geplant.

Literaturhinweise

Krüger-Thielmann, K.: "Towards Small-Scale Evaluation of a Multilingual Information Retrieval System for Multimedia Documents". Proceedings of the SALT Club Workshop Evaluation in Speech and Language Technology", Sheffield, 1997.

Krüger-Thielmann, K. & Requardt, N.: "Travelling with a Huge, Silver Cigar. A study on Subtitle and Script Reliability for Indexing Video Material". Proceedings of RIAO, Paris, 2000.

Meus, H.: "Logical Tree Matching with Complete Answer Aggregates for Retrieving Structured Documents", PhD. Thesis, Universität München, 2000.

Meuss, H. & K.U. Schulz, "Complete Answer Aggregatesfor Tree-like Databases: A Novel Approach to Combine Querying and Navigation" erscheint in: ACM Theory of Information Systems (TOIS), 2001.

Meuss, H., K.U. Schulz & Francois Bry, "Towards Aggregated Answers for Semistructured Data", in: Proceedings of the International Conference on Database Theory, ICDT 2001.

Meuss, H. & C. Strohmaier, "Improving Index Structures for Structured Document Retrieval", 21st Annual Colloquium on IR Research (IRSG'99), 1999.

Oesterle, J. & P. Maier-Meyer, "The gnop (german noun phrase) treebank". In First International Conference on Language Resources and Evaluation, pp. 699-703, 1998

Paijmans, J.J.: "Explorations in the document vector model of information retrieval", Dissertation, Tilburg University, Sept. 14, 1999.

Paijmans, J.J. & J. Hoppenbrouwers: "Invading the fortress: how to besiege reinforced information bunkers", Proceedings of the IEEE advances in Digital Libraries 2000, pp. 27--38, 2000

Paijmans, J.J.: "Information Retrieval en Open Source", as: Congres Linux2000 Ede Holland 9-10 october, 2000

Paijmans, J.J.: "A dissertation without cost: Information Retrieval research with Open Source software", as: Dutch Information Retrieval Workshop 13 September 2000 University Maastricht, 2000

Schlieder, T. & Holger Meuss, "Result Ranking for Structured Queries Against XML Databases", First DELOS Workshop on Information Seeking, Querying and Searching in Digital Libraries, 2000.

Schulz, K.U. & S. Mihov, "Efficient String Correction with Levenshtein-Automata", CIS-Report. CIS, Universität München, 2001.