DARPA und die Blogger

Pentagon forscht zur Sprachanalyse.

Die Hightech-Forschungsbehörde DARPA des US-Verteidigungsministeriums verfolgt ein Forschungs- und Entwicklungsprogramm namens Global Autonomous Language Exploitation (GALE). Ambitioniertes Ziel: Transkription gesprochener Sprache, Übersetzung und „Destillation“ von Textdokumenten — per Computer. Wired News berichtet über praktische Anwendungen von Spracherkennung, -übersetzung und -synthese in Kampfgebieten.

Dabei interessiert sich das Pentagon auch für Blogger:

Engines must be able to process naturally-occurring speech and text of all the following types: broadcast news, talk shows, newswire, newsgroups, weblogs and telephone conversations. The source languages will be English, Chinese and Arabic plus surprise languages to be announced later.

Das Linguistic Data Consortium sammelt bereits Material, mit dem Forscher arbeiten können — unter anderem Texte aus englischen, arabischen und chinesischen Weblogs.

Um die Größenordnung des GALE-Programms deutlich zu machen: Der Auftrag HR0011-06-C-0023 aus diesem Programm, den SRI International gewonnen hat, hat einen Wert von 73,4 Millionen US-Dollar.

Englisches Wortfeld in Farbe

Color Code, ein Experiment in Java.

Man nehme 33.096 englische Wörter aus einer Datenbank, kategorisiere sie in einer Baumstruktur und errechne für jedes Wort den durchschnittlichen Farbwert der Bilder, die bei einer Bildersuche erscheinen. Das Ergebnis ist Color Code, ein erstaunliches Experiment in Java von Martin Wattenberg. So dominieren beispielsweise in der Kategorie Rinder erwartungsgemäß Brauntöne (etwa bei beef, cow, cows oder oxen), während beim Langhornrind die Durchschnittsfarbe ein leuchtendes Blau ist — dank der Screenshots von Microsofts geplantem Betriebssystem mit dem Projektnamen Longhorn. Color Code lässt sich nach Bedeutung sortieren, aber auch nach Farbe. Sehr schade ist nur, dass die Ergebnisse nicht verlinkbar sind. (Gefunden via Kottke.)

Sprachklebstoff

Zur Leichtathletik-WM Helsinki 2005.

Wenn mestari der Meister ist, und daraus mestaruus die Meisterschaft, und maailma die Welt, und kilpailut das Turnier — dann heißt das Weltmeisterschaftsturnier natürlich maailmanmestaruuskilpailut. Ich hoffe, die Kollegen, die für NDR Online über die Leichtathletik-WM Helsinki 2005 berichten, haben ebenso viel Spaß mit agglutinierenden Sprachen wie ich.

teAMgeist

Eine neue Website der CDU.

Auf der teAM Zukunft-Website der CDU fehlt jeglicher Hinweis darauf, warum die Schreibweise des Wahlkampfauftritts so angestrengt unorthodox ist.

Alles war besser

Axel Springer und Spiegel kehren zur alten Rechtschreibung zurück.

Das Sommerloch zum Ausschneiden Die alten Mainzelmännchen müssen zurück? Die D-Mark auch? Dann muss natürlich auch die neue Rechtschreibung über Bord: „Die geschichtliche Erfahrung über Jahrhunderte zeigt, daß Sprache sich evolutionär weiterentwickelt. Die Rechtschreibung sollte diese Änderungen nachvollziehen und nicht vorschreiben“, verlangt Stefan Aust. Und fordert dann die Rückkehr zur Schreibweise, die 1902 durch staatlichen Beschluss festgelegt worden ist. Das sei ja die „klassische“. Ich rechne stündlich mit einer Sonderausgabe der FAZ, die sich ausschließlich mit dem Thema befasst.

Siehe auch: Ohne mich! und Alles alt macht das Sommerloch.

Tags darauf: Ausläufer des Sommerlochs über Frankfurt gesichtet. Zwölf Berichte, Leitartikel, Kurzmeldungen und Interviews zähle ich in der heutigen Ausgabe der FAZ. Statt „klassische“ heißt die alte Orthografie dort übrigens ganz unparteiisch „bewährte Rechtschreibung“.