Page 48 - Robert Charlier: Google statt Goethe?
P. 48

pusforscher auf zwei elementare linguistische Mess einheiten. Es handelt sich
               dabei um das sogenannte »1-gram« (lies: ›unigram‹) und das unter Anspielung
               auf den mathematischen Universalparameter analog gebildete »n-gram«.
               Semantisch entspricht das 1-gram einem Einwortlemma, z. B. »banana«;
               oder, informationstheoretisch gesprochen, einer durchlaufenden, d. h. nicht
               unterbrochenen Kette von Zeichen (string). Das n-gram ist wiederum eine
               Kombination von zwei oder mehreren Zeichenketten, z. B. »World War I«
               (3-gram) oder »United States of America« (5-gram). Auf der semantischen
               Ebene entspricht das n-gram einem Mehrwort lemma oder Syntagma, mög-
               licherweise sogar ganzen Phrasemen. Diese bedeutungstragenden Einheiten
               werden nun nach Häufigkeit des Vorkommens im Google-Korpus, und zwar
               in der Regel mit Bezug auf eine Zeitachse als Bezugsgröße automatisiert
               berechnet und als farbige Frequenzkurven dargestellt. Eine für das vorliegende
               Leitthema aufschlussreiche Auswertungsanfrage besteht beispielsweise in der
               Generierung zweier Graphen zu den Stichwörtern »Pop« versus »Klassik«.
               Der Ergebnisgraph veranschaulicht − je nach Auswahl des Zeitfensters − zu
               welchem Zeitpunkt das Wort Pop im deutschsprachigen Schrifttum ›beliebter‹
               war als das Wort Klassik.


                  Auf diese Weise vermag man beispielsweise die Verwendung der Ausdrücke
               »World War I« (n-gram 1) in Konkurrenz zu »the Great War« (n-gram 2)
               korpuslinguistisch auf der Grundlage der gedruckten englischspra chigen
               Bücher im 20. Jahrhundert messen und visualisieren. Daraus lassen sich
               bemerkenswerte Aussagen über das Echo historischer Ereignisse im kollektiven
               Gedächtnis einer bestimmten Epoche oder Sprachgemeinschaft ableiten. So
               präsentieren die Autoren ihre Rückschlüsse zu ausgewählten Aspekten und
               Stichwörtern im Anhang zu ihrem Artikel als buntes Mosaik von mehr oder
               weniger sprechenden Grafiken und Kurvendiagrammen. Neben linguistischen
               Aussagen zum historischen Wachstum des englischen Wortschatzes oder
               zur Evolution grammatischer Wortformen im angloamerikanischen Sprach-
               raum der letzten 200 Jahre fokussieren die Verfasser auch zentrale Aspekte
               der kulturellen Kanonbildung. Mit ihren computerbasierten Messmethoden
               gehen sie bei spielsweise der Frage nach, mit welcher zeitlichen Dynamik
               prominente Personen, wichtige Erfindungen oder bedeutende Ideen in den
               Mittelpunkt des kollektiven Interesses gelangten, sprich: wie häufig sie in
               den zugrunde liegenden Druckwerken genannt werden. Auf höchst amüsante
               Weise schließen die Kulturgenomiker dabei auf bestimmte Zyklen oder



               44
   43   44   45   46   47   48   49   50   51   52   53