Page 48 - Robert Charlier: Google statt Goethe?
P. 48
pusforscher auf zwei elementare linguistische Mess einheiten. Es handelt sich
dabei um das sogenannte »1-gram« (lies: ›unigram‹) und das unter Anspielung
auf den mathematischen Universalparameter analog gebildete »n-gram«.
Semantisch entspricht das 1-gram einem Einwortlemma, z. B. »banana«;
oder, informationstheoretisch gesprochen, einer durchlaufenden, d. h. nicht
unterbrochenen Kette von Zeichen (string). Das n-gram ist wiederum eine
Kombination von zwei oder mehreren Zeichenketten, z. B. »World War I«
(3-gram) oder »United States of America« (5-gram). Auf der semantischen
Ebene entspricht das n-gram einem Mehrwort lemma oder Syntagma, mög-
licherweise sogar ganzen Phrasemen. Diese bedeutungstragenden Einheiten
werden nun nach Häufigkeit des Vorkommens im Google-Korpus, und zwar
in der Regel mit Bezug auf eine Zeitachse als Bezugsgröße automatisiert
berechnet und als farbige Frequenzkurven dargestellt. Eine für das vorliegende
Leitthema aufschlussreiche Auswertungsanfrage besteht beispielsweise in der
Generierung zweier Graphen zu den Stichwörtern »Pop« versus »Klassik«.
Der Ergebnisgraph veranschaulicht − je nach Auswahl des Zeitfensters − zu
welchem Zeitpunkt das Wort Pop im deutschsprachigen Schrifttum ›beliebter‹
war als das Wort Klassik.
Auf diese Weise vermag man beispielsweise die Verwendung der Ausdrücke
»World War I« (n-gram 1) in Konkurrenz zu »the Great War« (n-gram 2)
korpuslinguistisch auf der Grundlage der gedruckten englischspra chigen
Bücher im 20. Jahrhundert messen und visualisieren. Daraus lassen sich
bemerkenswerte Aussagen über das Echo historischer Ereignisse im kollektiven
Gedächtnis einer bestimmten Epoche oder Sprachgemeinschaft ableiten. So
präsentieren die Autoren ihre Rückschlüsse zu ausgewählten Aspekten und
Stichwörtern im Anhang zu ihrem Artikel als buntes Mosaik von mehr oder
weniger sprechenden Grafiken und Kurvendiagrammen. Neben linguistischen
Aussagen zum historischen Wachstum des englischen Wortschatzes oder
zur Evolution grammatischer Wortformen im angloamerikanischen Sprach-
raum der letzten 200 Jahre fokussieren die Verfasser auch zentrale Aspekte
der kulturellen Kanonbildung. Mit ihren computerbasierten Messmethoden
gehen sie bei spielsweise der Frage nach, mit welcher zeitlichen Dynamik
prominente Personen, wichtige Erfindungen oder bedeutende Ideen in den
Mittelpunkt des kollektiven Interesses gelangten, sprich: wie häufig sie in
den zugrunde liegenden Druckwerken genannt werden. Auf höchst amüsante
Weise schließen die Kulturgenomiker dabei auf bestimmte Zyklen oder
44