Page 47 - Robert Charlier: Google statt Goethe?
P. 47

des Aufsatzes ist prosaischer, er lautet: »Quantitative Analysis of Culture
               Using Millions of Digitized Books«. In Anlehnung an das berühmte Vorbild
               soll mit »Culturomics« gleichsam das in Büchern und Texten überlieferte
               ›Erbgut‹ des kulturellen Gedächtnisses der Menschheit − oder zumindest
               der westlichen Welt − ›entschlüsselt‹ werden. Das klingt überambitioniert,
               verdient aber im Folgenden genauer beleuchtet zu werden. Das Projekt basiert
               auf statistischen Auswertungen von großen Teilen des Volltextkorpus’, das
               Google innerhalb seines Book Search-Projekts seit dem Jahr 2004 durch die
               weltweite Digitali sierung der Buchbestände bedeutender Universitäts- und
               Forschungsbibliothe ken kumuliert hat.

                  Um sich eine Vorstellung von den behaupteten Dimensionen des Unter-
               fangens zu machen, seien die Zahlen aus den begleitenden Verlautbarungen
               kurz vergegenwärtigt. Rund 130 (129) Millionen Bücher sollen seit der
               Erfindung des Buchdrucks mit beweglichen Lettern im 15. Jahrhundert auf

               der Welt erschienen sein. Nach eigenen Angaben habe Google davon über
               15 Millionen Bücher mit Stand zum Jahresende 2010 digitalisiert. Michel
               und sein Autorenteam führen aus, dass mehr als 5 (5,2) Millionen dieser
               Bücherdigitalisate in diejenigen Datenbestände eingeflossen seien, die ihren
               statistischen Erhebungen zugrunde lägen. Dabei handele es sich primär um
               Bücher, die im Zeitraum zwischen 1800 und 2000 erschienen seien. Die
               auch in historischer Hinsicht meistvertretene Publikationssprache ist dabei
               das Englische − aber auch Deutsch, Französisch, Spanisch, Russisch, Hebrä-
               isch und sogar Chinesisch konnten angeblich repräsentativ berücksichtigt
               werden. Selbstbewusst erklären die Autoren etwa 4 Prozent aller Bücher,
               die je gedruckt worden sind, zur Grundlage ihrer Arbeit. An einer anderen
               Stelle ist von 500 Milliarden laufenden Textwörtern die Rede, davon 361
               Milliarden in Englisch und immerhin 37 Milliarden auf Deutsch. Das mündet
               in die zutreffende Diagnose: »The corpus cannot be read by a human« (Jean-
               Baptiste Michel et al., in: Science 331 (2011), S. 176; s. Bibliografie, unter
               Punkt A.II.9).


                  Da diese Text- und Datenmasse zu groß ist, als dass je ein einzelner Mensch
               oder auch eine Gruppe sie inhaltlich erfassen und interpretieren könnten,
               sei die Visualisierung von Häufigkeitsverteilungen und Verwendungstrends
               bestimmter Schlagwörter oder Schlüsselbegriffe die einzige Form des ›Lesens‹,
               die einer solchen Informationsfülle gerecht werde. Dazu stützen sich die Kor-



                                                                                 43
   42   43   44   45   46   47   48   49   50   51   52