V. Modul B2: Computerlexikographie

1. Allgemeine Angaben

Antragsteller

 

Prof. Dr. Erhard Hinrichs

Seminar für Sprachwissenschaft / Computerlinguistik

Universität Tübingen

Wilhelmstr. 113

72074 Tübingen

Tel.                 07071/29 75 446

Fax.                 07071/55 13 35

E-Mail:                 eh@sfs.nphil.uni-tuebingen.de

Thema

Erstellung einer Lehr-/Lernumgebung für das Kursmodul ?Computerlexikographie?

Voraussichtliche Dauer

 

Januar 2002 bis Dezember 2003.

Übersicht über beantragte Zuwendung (s. AZA-Formulare)

·        1 BAT IIa im Umfang von 20 PM

·        1 SHK im Umfang von 15 PM

·        Verbrauchsmaterialien, Geschäftsbedarf

·        Reisekosten

 

2. Kurs: Computerlexikographie

 

2.1            Relevanz des Kursmoduls

 

Alle Systeme und Anwendungen, die auf der Analyse und / oder Generierung natürlicher Sprache basieren, benötigen neben diversen Regelsystemen reiche lexikalische Ressourcen. Diese lexikali­schen Ressourcen sollten in deklarativer Weise die phonologischen, morphologischen, syntakti­schen, semantischen und pragmatischen Eigenschaften der lexikalischen Einheiten einer Sprache repräsentieren. Lexikalische Ressourcen, die bei der maschinellen Verarbeitung natürlicher Sprache zum Einsatz kommen, müssen sprachliches Wissen expliziter darstellen als Wörterbücher, die sich an den menschlichen Benutzer richten. Nach anfänglicher Marginalisierung des Lexikons als einer Komponente des Sprachwissens, in welcher ausschließlich das idiosynkratische Wissen über Wör­ter aufgelistet sein sollte, ist das Lexikon in den neunziger Jahren stärker in das Zentrum linguisti­scher und computerlinguistischer Theoriebildung getreten.

Dabei stellen sich die folgenden Fragen, auf die speziell die Computerlexikographie Antworten lie­fern sollte:

1.      Wie können Beschreibungen, die in großem Umfang und hoher Qualität in Printwörterbüchern für menschliche Benutzer vorliegen, beim Aufbau lexikalischer Ressourcen für computerlingui­stische Anwendungen nutzbar gemacht werden?

2.      Wie können Beschreibungen lexikalischer Zeichen aus Belegen ihres Vorkommens in authenti­schen Texten, also in großen Textkorpora, gewonnen werden?

3.      Welche Form müssen die Beschreibungen lexikalischer Zeichen annehmen, damit sie von möglichst vielen Formalismen und Systemen für die Verarbeitung natürlicher Sprache in unter­schiedlichen Anwendungskontexten korrekt interpretiert werden können ?

4.      Wie können Generalisierungen im Lexikon adäquat mit Hilfe von lexikalischen Regeln darge­stellt werden?

5.      Wie können maschinenlesbare Wörterbücher effektiv implementiert werden?

6.      Welche Rolle spielen sprachtechnologische Verfahren beim Design von Benutzungsfunktionen für elektronische Wörterbücher, also zum Beispiel bei der Suchfunktion?

 

2.2            Standort des Kurses im CL-Curriculum

 

Das erfolgreiche Absolvieren dieses Kursmoduls erfordert eine Reihe von Grundkenntnissen in verschiedenen Gebieten des Computerlinguistik-Curriculums: Algorithmen und Datenstrukturen, Parsing, formale Sprachen, Statistik. Es ist daher sinnvoll, diesen Kurs im Hauptstudium zu unterrichten und ihn für Graduierte in Graduiertenkollegs offenzuhalten. Der Kurs enthält Elemente, die zum Kern der Computerlinguistik gehören und ebenso Elemente, die in das Gebiet benachbarter Disziplinen fal­len. Es ist daher anzustreben, die einzelnen Bestandteile des Kurses bei allen Abhängigkeiten von einander modular zu gestalten.

 

2.3            Übersicht über die Inhalte / Submodule des Kurses

 

1.      Lexikalische Semantik. Diese Einführung wird sich vor allem auf die für die Computerlexikographie wichtige Frage der lexikalischen Polysemie und deren textuelles Pendant, die Ambi­guität, beziehen. Es werden neuere Ansätze zur Beschreibung und Formalisierung lexikalischer Polysemie und zur (halb)automatischen Auflösung textueller Ambiguität vorgestellt.

2.      Lexikon vs. Enzyklopädie. In diesem Modul wird auf die in theoretischer und kognitiver Linguistik sowie in der Artificial Intelligence geführte Unterscheidung zwischen lexikalischem und enzyklopädischem Wissen eingegangen. Diese Unterscheidung hat unmittelbare Auswirkungen auf die Form traditioneller Referenzwerke. Es wird zu fragen sein, ob diese Unterscheidung bei lexikalischen Ressourcen für Anwendungen der maschinellen Sprachverarbeitung noch re­levant ist oder ob diese Unterscheidung aufgegeben werden soll.

3.      Standardisierte Einträge im traditionellen Printwörterbuch. Es gibt eine ausgefeilte Theorie der Makro-, Mikro- und Verweisstrukturen von Printwörterbüchern. Diese Theorie wird vorgestellt. Sie hat unmittelbare Relevanz für die formale Beschreibung von standardisierten Wörter­buchartikeln. Es wird zu fragen sein, inwiefern diese Strukturmodelle auch auf elektronische Wörterbücher anwendbar sind.

4.      Formale Beschreibungssprachen für Dokumente: SGML, XML, HTML. Das Wissen über die Struktur von Wörterbuchartikeln kann dazu genutzt werden, die abstrakten Strukturen in Do­kumenttypdefinitionen umzusetzen und die Daten der konkreten Mikrostrukturen mit einer der gängigen Markup-Sprachen zu elektronischen Dokumenten aufzubereiten. In dieser Lehreinheit werden Grammatiken für einfache und mäßig komplexe standardisierte Wörterbuchartikel ent­wickelt und diese mit einem Standardwerkzeug für die Validierung von SGML/XML-Doku­menten überprüft Grundlage ist die SGML-Spezifikation der TEI für Wör­terbuchartikel.

5.      Parsen von Wörterbuchartikeln. Ausgehend von der formalen Beschreibung der abstrakten Mikrostrukturen eines Wörterbuchs kann ein Parser benutzt werden, der mit der formalen Strukturbeschreibung als Dokumentgrammatik die konkreten Einträge analysiert und relevante Daten extrahiert. Hierfür steht in Tübingen ein dedizierter Parser zur Verfügung, der im Rahmen des Projektes für die Lehre aufbereitet wird (LexParse).

6.      Struktur lexikalischer Datenbasen für NLP Anwendungen: Maschinenlesbare Wör­terbücher, lexikalische Datenbanken, Lexikalische Wissensbasen. In diesem Modul wird auf die verschiedenen Möglichkeiten eingegangen, lexikalische Daten zu repräsentieren. Es wird auf den Unterschied zwischen statischen Datenbasen und dynamischen Wissensbasen einzugehen sein.

7.      Vom Text zum Wörterbuch 1: Lexikostatistik. In diesem Modul wird in grundlegende Verfahren der Lexikostatistik eingeführt. Im Mittelpunkt stehen Wortfrequenz-Verteilungen in Texten und Schlüsse, die daraus für die lexikalische Repräsentation dieser Wörter gezogen werden können.

8.      Vom Text zum Wörterbuch 2: Morphologische Analyse und Lemmatisierung. Im Kontrast zu den frequenz- und verteilungsorientierten Verfahren stehen symbolische Verfahren der Abstraktion von Textwörtern zu lexikalischen Einheiten und statistische sowie regelbasierte Verfahren zur Ermittlung von Wortart und Bedeutung (Tagging). Es geht in dieser Lehreinheit vor allem um morphologische Analyse, Lemmatisierung und Wortartentaggung. In Zusammenhang mit diesem Modul soll in Verfahren des maschinelllen Lernens eingeführt und mindestens ein maschineller Lerner getestet werden.

9.      Lexikalische Akquisition aus Textkorpora. In dieser Lehreinheit wird dargestellt, welche Arten lexikalischer Beschreibungen aus Textkorpora generiert werden können und welche manuellen, halbautomatischen und automatischen Verfahren hierzu verwendet werden.

10.      Kollokationen und Mehrwortlexeme. Die in den letzten Modulen erworbenen theoretischen Kenntnisse sollen am Fallbeispiel der Erkennung komplexer lexikalischer Einheiten in Texten angewendet werden. Es werden gängige linguistische Klassifiktionen von Mehrwortlexemen vorgestellt. Bei der Erkennung von Mehrwortlexemen in Texten ist vor allem deren Variabilität in Form und Distribution Texten zu beachten. Es soll versucht werden, diese Variabilität mittels regulärer Ausdrücke zu modellieren.

11.  Lexikalische Regeln. In diesem Modul sollen einige Beispiele für lexikalische Regeln betrachtet werden. Es wird zu fragen sein, welchen Kriterien lexikalische Einheiten ge­nügen müssen, um in die Menge der Einheiten zu fallen, auf der diese Regel anwendbar sind. Es werden einfache Fälle aus dem Bereich der Syntax und komplexere Fälle aus dem Bereich der Semantik beschrieben. Dieses Modul kann mit den korrespondierenden Submodulen des Kurses ?Grammatikformalismen und Parsing? vernetzt werden. Dort werden einige Beispiele lexikalischer Regeln im Rahmen der HPSG präsentiert.

12.  Implementierung maschinenlesbarer Wörterbücher. In diesem Modul soll gezeigt werden, wie Wörterbücher als endliche Automaten bzw. Übergangsnetzwerke effektiv implementiert wer­den können. Darüberhinaus werden die in den letzten Lehreinheiten gewonnenen Erkenntnisse zum Verhältnis zwischen lexikalischer Einheit und textuellem Vorkommen operationalisiert, indem Bausteine für eine vom Text ausgehende flexible Suchmaschine für Wörterbücher erstellt werden.

Der Konzeption nach hat dieser Kurs einen Umfang, der sowohl die für die Erstellung beantragten Mittel als auch den Lehrzeitraum eines Semesters sprengt. Das Programm ist nur deshalb zu reali­sieren, weil ein Teil der Materialien zu den mit einem Stern gekennzeichneten Themen aus dem Kurs "Applied Computational Linguistics" importiert werden kann. Hierfür ist die erste Projekt­phase von Juli 2001 bis Dezember 2001 vorgesehen. Natürlich brauchen auch diese Submodule eine computerlexikographische Vertiefung, die sie im Rahmen eines allgemeinen Kurses zur angandten Computerlinguistik nicht haben konnten. Dass die Zahl der Submodule den Umfang eines einse­mestrigen Kurses sprengen ist beabsichtigt. Neben den Kernmodulen des Faches werden die Stu­dierenden entsprechend ihrer Vorkenntnisse unterschiedliche Vertiefungs- und Ergänzungsmodule auswählen können.

2.4       Die Lehr-/Lernumgebung des Kurses

 

Der Kurs "Computerlexikographie" vermittelt Kenntnisse, die in zunehmendem Maße von MitarbeiterInnen in den Redaktionen von Lexikographieverlagen verlangt werden. In dem Maße, wie elektronische Wörterbücher ins Zentrum des Verlagsangebots rücken, gewinnen Kenntnisse der Präsentation und der Erschließung lexikographischer Inhalte in den verschiedenen Medien - Text, Audio, Grafik und Video - und damit die in diesem Kurs vermittelten sprachtechnologischen Grundlagen an Bedeutung. Computerlexikogra­phie ist ein datenintensives Geschäft. Die Arbeitsmaterialien und Werkzeuge sind bereits oder werden in Zukunft in Lexikographenarbeitsplätze integriert. Auf solche Arbeitsbedingungen sollte eine angemessene Ausbildung vorbereiten, die nicht nur die Benutzung, sondern auch die Akquisition bzw. Entwicklung und Verwaltung der Daten und Werkzeuge zum Gegenstand hat. Das Fach "Computerlexikographie" kann deshalb gar nicht anders als in einer com­putervermittelten Lehr- und Arbeitsumgebung vermittelt werden. Ein mediengestützter Kurs ist die Lehr-Lern-Umgebung, die sich für diesen Kurs anbietet.

Typischerweise sind der Bereich der Erstellung lexikographischer Daten und der Bereich des elek­tronischen Publizierens dieser Daten in Lexikographieverlagen getrennt, sie arbeiten aber bei der Erstellung von Produkten eng zusammen. Teamwork ist also ein wichtiges Element der späteren Arbeit und damit auch der Ausbildung. Deshalb wird für diesen Kurs das Szenario des virtuellen Seminars mit starker Workshop-Komponente gewählt.

Die folgenden Elemente einer Lehr-/Lernumgebung werden auch für diesen Kurs realisiert:

Information: Das Kursmaterial wird in Form eines Hyperbuchs zur Verfügung gestellt. Das Hyperbuch unterstützt die Selbstlernphasen innerhalb des Kurses. Neben dem Lehrstoff wird es Übungen zur Selbkontrolle sowie ein themenspezifisches Portal ins Internet geben. Qualifizierte Beiträge der Studierenden werden in das Hyperbuch aufgenommen.

Exploration: die oben erwähnten Werkzeuge werden für das Web so aufbereitet, dass Studierende sie in Form interaktiver Demos testen und verwenden können.

Kommunikation: Im Zentrum des Seminars stehen Szenarien der viele:viele-Kommunikation: eine Mailingliste und eine Newsgroup für die asynchrone Kommunikation und Chaträume für die synchrone Kommunikation im Plenum und in Kleingruppen.

Die regelmäßigen Seminarsitzungen werden folgende Struktur haben und den folgenden Lernzielen dienen:

1.                        In Einzel- oder in Gruppenarbeit werden kontroverse Themen in der Form von ?Anstoßrefe­rate? erarbeitet, im Seminar präsentiert und diskutiert

2.                        Zu einzelnen Sitzungen werden ExpertInnen, also Personen, die an zu den jeweiligen Themen forschen, eingeladen.

3.                        In den Seminaren werden Fragen zum Lehrstoff und den Übungsaufgaben geklärt bzw. Mu­sterlösungen präsentiert.

Das Kursmodul deckt eine Lehrveranstaltung um Umfang von 4 SWS ab. Hinzu kommen Übungen und Selbststudium im Umfang von etwa 2 SWS. Der Betreuungsaufwand wird auf ca. 6 Stunden pro Unterrichtsstunde geschätzt.

2.5       Bezüge und Vorarbeiten

 

Der Kurs "Computerlexikographie" rekurriert auf verschiedene Aktivitäten und Projekte am Seminar für Sprachwissenschaft. Die Ergebnisse dieser Projekte sollen für die Zwecke des Unterrichts aufbereitet werden.

·        GermaNet: GermaNet ist ein lexikalisch-semantisch und ontologisch organisiertes Wortnetz für das Deutsche, das an Wortnetze anderer Sprachen im Rahmen von "EuroWordNet" ange­bunden wurde. GermaNet wird im Rahmen des Kurses als maschinenlesbare lexikalische Res­source bzw. lexikalische Datenbank verwendet, anhand derer vor allem Datenmodellierung und die Verwendung von Markup-Sprachen dargestellt werden.

·        Lexparse ist ein Parser für die Analyse von Wörterbuchartikeln auf der Grundlage entspre­chender Grammatiken. LexParse wird als Referenzwerkzeug für das Wörterbuchparsing ver­wendet.

·        DeReKo: Aufbau eines deutschen Referenzkorpus. Aufbereitung und Annotation der Texte bis hinauf zur Satzebene, incl. Entwicklung und Evaluation der entsprechenden Werkzeuge bilden den Tübinger Beitrag zu diesem Verbundprojekt. Die Korpora des Projektes sowie deren An­notierung werden für Beispiele des korpusbasierten Akquisition lexikalischer Daten verwendet.

·        Nutzung der Eigenschaften endlicher Automaten sowie von Übergangsnetzwerken für die ef­fektive Implementierung von Wörterbüchern.

Die Ergebnisse der genannten Projekte müssen in die Lehr-/Lernumgebung des Kurses integriert werden.

 

Virtuelles Seminar ?Applied Computational Linguistics?: Im Rahmen des Verbundprojektes "VirtuGrade" (virtuelle Szenarien in der Graduiertenausbildung) wurde am Lehrstuhl von Professor Hinrichs ein Kurs "Applied Computational Linguistics" entworfen, entwickelt und unterrichtet.  Die Lehr-/Lernumgebung des Kurses "Applied Computational Linguistics" hatte den Einsatz von Werkzeugen für die computervermittelte Kommunikation im Rahmen eines virtuellen Seminars als Schwerpunkt. Es kamen asynchrone und vor allem synchrone Medien zum Einsatz, über die die Sitzungen an zwei Standorten (Tübingen und Heidelberg) moderiert wurden. Lehreinheiten, interaktive Anteile und Übungen standen den Studierenden in Form eines Hyperbuches zur Verfügung. Die Studierenden nutzten eine Mailingliste und eine gemeinsame Arbeitsumgebung (BSCW). Die Seminare wurden mit Hilfe eines Chatwerkzeuges moderiert. Das im SS 2000 abgehaltene Se­minar hat wichtige Erkenntnisse über Möglichkeiten und Grenzen der computervermittelten Kom­munikation in der Situation der gemeinsamen Wissensaneignung gebracht. Diese Erfahrungen, die auch einen Anforderungskatalog für die mediale Unterstützung dieser Lehrform umfasst, wird Tü­bingen in das Projektkonsorium einbringen.

2.6            Zusammenhang mit anderen MiLCA-Lehreinheiten

 

MiLCA verfolgt das Ziel, große Teile eines modellhaften Curriculums für das Fach Computerlinguistik medial aufzubereiten. Das impliziert, dass, wie in jedem guten Curriculum, die Vernetzung und Verzahnung der Module. Letztendlich ist die Entscheidung für eine gemeinsame Plattform für die Lehrmaterialien auch dadurch begründet, dass die impliziten und expliziten Bezüge zwischen den Lehreinheiten leicht sichtbar und für die Studierenden nach­vollziehbar gemacht werden können. Die Studierenden erhalten auch in der Beschäftigung mit den Details immer wieder den Überblick über den Gesamtzusammenhang.

Darüber hinaus gibt es enge Bezüge zwischen der Lehreinheit Computerlexikographie und zwei weiteren Lehreinheiten, und dies in zweierlei Hinsicht. Es steht in engem Zusammenhang mit dem Modul "Texttechnologie" und, etwas weniger eng, mit dem Modul I-CALL.

·        Im Bereich der lexikalischen Analyse von Texten gibt es einige Berührungspunkte mit der Texttechnologie. Im Rahmen der Texttechnologie ist vor allem die Anwendung entsprechender Verfahren für eine spezielle Aufgabe relevant. Es ist zu überlegen, ob die Module des Teiles Texttechnologie, die den theoretischen Hintergrund der Anwendung bilden, als vertiefende Module im Rahmen des Kurses ?Computerlexikographie? zur individuellen Vertiefung ange­boten werden, insbesondere im Hinblick auf einschlägige Abschlussarbeiten einzelner Studie­render.

·        Der Einsatz sprachtechnologischer Verfahren bei Aufbereitung und Präsentation lexikalischer Daten spielt auch im Bereich des I-CALL eine Rolle. Die entsprechenden Module unseres Kur­ses sollten deshalb mit der Lehreinheit I-CALL vernetzt werden. Auch dies bedeutet eine Er­weiterung des Gesichtsfeldes der Studierenden.

 

2.7            Literatur

 

Breidt, Elisabeth (1998), "Neuartige Wörterbücher für Mensch und Maschine: Wörterbuchdaten­banken in COMPASS", in: H. E. Wiegand (Hg.), Wörterbücher in der Diskussion: Vorträge aus dem Heidelberger Lexikographischen Kolloquium. III Tübingen, 1-28.

Engelberg, Stefan / Lothar Lemnitzer (2001), Einführung in die Lexikographie und Wörterbuchbenutzung. Tübingen:Stauffenburg (erscheint Frühjahr 2002).

Feldweg, Helmut (1997), ?Wörterbücher und neue Medien: Alter Wein in neuen Schläuchen??, Zeitschrift für Literaturwissenschaft und Linguistik Heft 107, 110-122.

Feldweg, Helmut/ Erhard W. Hinrichs (Hgg., 1996), Lexikon und Text. Wiederverwendbare Methoden und Ressourcen zur linguistischen Erschließung des Deutschen, Tübingen.

Heid, Ulrich (1997), Zur Strukturierung von einsprachigen und kontrastiven elektronischen Wör­terbüchern, Tübingen (= Lexicographica Series Maior 77)

Kunze, C. (2001), Lexikalisch-semantische Wortnetze. In: Carstensen, K.-U. et al. (Hrsg.), Computerlingusitik und Sprachtechnologie: eine Einfuehrung. Heidelberg; Berlin: Spektrum, Akademischer Verlag, S. 386-393.

Lemnitzer, Lothar (1997): Extraktion komplexer Lexeme aus Textkorpora. Tübingen:Niemeyer.

Storrer, Angelika / Ralf Hauser (1993), ?Dictionary Entry Parsing Using the LexParse System?, in: Lexicographica 9, 174-219.

 

 

3                  Aufgaben und Arbeitspakete

 

 

 

Zur Realisierung des Kurses ?Computerlexikographie? gehören die folgenden Aufgaben, die in Arbeitspaketen zu definieren sind:

 

1.      Administration des Kurses (1 PM)

·        Kontakt mit der Projektkoordination

·        Darstellung des Projektes auf Messen und Tagungen

·        Abstimmung mit den Projektpartnern

·        Teilnahme an Workshops und Schulungen

2.      Übernahme und Überarbeitung der für den Kurs Computerlexikographie relevanten Module aus dem Kurs ?Applied Computational Linguistics?

·        einige Module des Kurses ?Applied Computational Linguistics? - texttechnologische Ver­fahren, lexikalische Semantik, Kodierung von Wörterbucheinträgen - können übernommen werden und bilden das Grundgerüst des Kurses ?Computerlexikographie?

·        die Kurseinheiten müssen zum Teil auf den neuesten Stand der Forschung gebracht werden

·        die Kurseinheiten müssen in das Deutsche übersetzt werden

3.      mediendidaktische Auswertung der jeweiligen Kurse (1 PM)

·        Analyse der Auswertung der Fragebögen

·        Planung von mediendidaktischen Settings, die eine gezielte Evaluation gestatten, z.B. Bil­dung von standortübergreifenden Gruppen oder geschlechtsspezifischen Gruppen, um die spezifischen Interessen und Dispositionen weiblicher Studierender zu evaluieren

4.      Übernahme und Test der gemeinsamen Lehr-/Lernplattform (1 PM)

·        Erstellung eines projektspezifischen Anforderungskatalogs

·        Teilnahme an Einführung / Schulung durch den Projektkoordinator

·        Vorbereitung des Imports der existierenden Lehrmaterialien

5.      Erstellung neuer Lehreinheiten für den Kurs ?Computerlexikographie? (8 PM)

·        Erstellung der Lehrbuchtexte

·        Auswahl kontroverser Texte für die Vorbereitung von Positionsreferaten

·        Kontakt zu Experten der einzelnen Themen zur Vorbereitung von Expertenchats

·        Erstellen von Übungsaufgaben

·        Erstellen lerndidaktischer Settings für die einzelnen Module

·        Integration von Software-Demos bei einigen der Module

6.      Anpassung des COMPASS-Demo an die Bedürfnisse des Kurses ?Computerlexikographie? (2 PM)

·        Integration weiterer auf dem Netz verfügbarer Wörterbücher in den Prototypen

·        Reimplementierung des Java-Codes

·        Verbindung der Prototypen mit Germanet-Daten

·        Verbindung des Prototypen mit der Ausgabe des DeReKO Annotationswerkzeugs

7.      Anpassung des LexParse Wörterbuchparsers an die Bedürfnisse des Kurses ?Computerlexiko­graphie? (2 PM)

·        Entwicklung einer Java-Benutzerschnittstelle für das Werkzeug

·        Erstellung einer Dokumentation des Werkzeugs und eines Tutorials

·        Erstellung von Wörterbuchartikel-Mustern und entsprechender Strukturgrammatiken

8.      Anpassung einiger kleinerer Programme für texttechnologische Aufgaben (Tokenisierung, Lemmatisierung, Tagger, Chunk Parser, Tool zur Visualisierung endlicher Automaten, statisti­sches Tool für die Identifizierung von Mehrwortlexemen) an die Bedürfnisse des Kurses ?Computerlexikographie? (3 PM)

·        Erstellung von Benutzerschnittstellen mit PERL oder Java, sofern nicht bereits vorhanden

·        Erstellung der Dokumentation sowie von Tutorials, sofern nicht bereits vorhanden

9.      Durchführung des Kurses im SS 2002, im SS 2003 sowie auf der Sommerschule (3 PM)

·        Leitung der Seminarsitzungen und tutorielle Betreuung

·        Verwaltung der asynchronen Kommunikationsmittel (Mailinglist, Newsgroups, FAQ)

·        Durchsicht und Korrektur der Lösungen zu den Übungen

10.  Vorbereitung des Kurses für die Verbreitung bei weiteren akademischen und nichtakademi­schen Institutionen

·        Erstellung eines Kurshandbuchs

 

11.  Einrichtung eines Internetportals für die Fachinhalte ?Lexikographie? und ?Computerlexiko­graphie? (1 PM)

·        Recherchen im WWW nach fachbezogenen Inhalten und Bewertung der Fundseiten

·        Erstellung eines fachlich gegliederten und kommentierten Portals

·        regelmäßige Aktualisierung der Portals; Überprüfung der Links

·        Kontakt zu den Autoren der in das Portal aufgenommenen Seiten

12.  Übersetzung der textuellen Anteile des Kurses (ins Englische bzw. ins Deutsche) (2 PM)

13.  Test der Softwarekomponenten (4 PM)

·        Entwicklung eines Testverfahrens, das auf die einzelnen Softwarekomponenten abgestimmt ist

·        Tests der verschiedenen Versionen der Softwarekomponenten

·        Anfertigen von Testprotokollen

14.  Prüfung der multimedialen Lehrinhalte auf Konsistenz (1 PM)

·        Entwicklung eines Testverfahrens

·        Sichtung von Software, durch die einige Tests automatisiert werden können

·        Anfertigen von Testprotokollen

15.  Etikettierung eines Referenzkorpus für die Aufgaben der lexikalischen Akquisition (7 PM)

·        Entwurf von Auswahlkriterien

·        Auswahl von Texten aus dem deutschen Referenzkorpus

·        automatische Annotierung der ausgewählten Texte

·        manuelle Kontrolle der Annotation

·        Test der texttechnologischen Werkzeuge auf den Beispieltexten

·        Erstellen eines Handbuchs, das die Auswahl- und Annotationskriterien dokumentiert

 

Anmerkungen

·        Aufgaben / Arbeitspakete 1 und 3 -10 werden von die wissenschaftliche Mitarbeiterin durchge­führt

·        Aufgaben / Arbeitspakete 11- 15 werden von der studentischen Hilfkraft durchgeführt.

·        Aufgabe 2 wird von den Mitarbeitern des VirtuGrade Projektes in der ersten MiLCA-Projekt­phase (7/2001 - 12/2001) erbracht und schlägt deshalb für dieses Projekt nicht zu Buche.

 

4         Komponenten und Meilensteine, an denen sich die Beteiligung des Antragstellers ausrichtet.

 

1.                        Der Kurs "Applied Computational Linguistics" wird im Sommersemester 2001 erneut und weitgehend mit den bereits entwickelten Inhalten, angeboten. An der Veranstaltung werden ne­ben den oben genannten Partnern die Partner des MiLCA Projektes sowie ein mindestens weite­rer Fachbereich an dem Kurs partizipieren. Dadurch ist bereits vor Beginn des Projektes für die Partner die Möglichkeit gegeben, eine modellhafte Lehr-/Lernumgebung kennenzulernen.

2.                        Als Meilensteine des Gesamtprojektes sind zwei Workshops und eine Sommerschule vorgese­hen. Verbundworkshop I im Frühsommer 2002 befasst sich mit der Lernumgebung, dem didak­tischen Konzept und der Evaluation und bereitet so den ersten Einsatz der Lehreinheiten vor. Verbundworkshop 2 im Herbst 2002 befasst sich mit den ersten Evaluationsergebnissen und be­reitet die weiter gehende Verbreitung der Lehreinheiten bei akademischen und nichtakademi­schen Partnern vor. Auf der Sommerschule werden alle Lehreinheiten im Zusammenhang und vor projektexternen adademischen und nichtakademischen Partnern eingesetzt.

3.                        Aus dem Verlauf dieses Teilprojektes ergeben sich natürlicherweise Meilensteine, an denen der Erfolg der bisherigen Arbeit überprüft und evaluiert wird. Dies sind der Zeitpunkt nach der er­sten Durchführung der Lehrveranstaltung (Juli 2002) und nach Durchführung der zweiten Lehrveranstaltung und der Sommerschule (Herbst 2003).

5         Kosten-Nutzen-Relation

 

In der Erprobungsphase erreicht der Kurs Studierende am Standort Tübingen, wobei gezielt auch in der neuphilogischen Fakultät für den Kurs geworben wird. Das virtuelle Seminar wird eine tradi­tionelle Lehrveranstaltung zu diesem Thema ersetzen und dessen Platz im BA-/MA-Curriculum des Faches einnehmen. Durch diese feste curriculare Einbindung ist zugleich gesichert, dass das Ange­bot auch nach Projektende genutzt und gepflegt wird.

Darüber hinaus wird der Kurs bei den Projektpartnern angeboten. Es ist angesichts der Lehrform virtuelles Seminar aber davon auszugehen, dass die Zahl der TeilnehmerInnen in der Erprobungs­phase beschränkt bleiben muss (auf höchstens 25 Teilnehmer).

Für die weitere Verbreitung in akademischen Kreisen werden die spezifischen Standesorganisatio­nen (ACL Europe, GLDV) sowie Interessensgemeinschaften allgemeinerer Standesorganisation (Gesellschaft für Informatik, Gesellschaft für deutsche Sprache) angesprochen. Zudem bestehen aus dem VirtuGrade Projekt Beziehungen zu weiteren CL-Standorten (Heidelberg, Potsdam, Zü­rich, Seoul). Die internationale Verbreitung wird dadurch gesichert, dass alle Materialien auch in Englisch erstellt werden.

Verwendung einer offenen Lehr-/Lernumgebung (vermutlich ILIAS) und starke Moduluarisierung der Lehr-/Lerneinheiten ermöglichen die Nutzung einzelner Module auch in anderen fachlichen Zusammenhängen, insbesondere Lexikographie und lexikalische Semantik als Teilgebiet der Sprachwissenschaft.

Zumindest der auf lexikalische Datenbanken und elektronische Wörterbücher bezogene Teil ist auch als Material für die Fortbildung in Verlagen und Firmen der ?language industry? interessant. Diese Firmen sollen in der Phase der Vorbereitung der Sommerschule gezielt angesprochen wer­den.

Es ist beabsichtigt, über eine Verwertungsgesellschaft Kontakte mit industriellen Großabnehmern für Corporate Universities aufzubauen. Die hierdurch zu erzielenden Einnahmen werden die Grundlage für die notwendige permanente Aktualisierung des Kurses schaffen.