Page 47 - Robert Charlier: Google statt Goethe?
P. 47
des Aufsatzes ist prosaischer, er lautet: »Quantitative Analysis of Culture
Using Millions of Digitized Books«. In Anlehnung an das berühmte Vorbild
soll mit »Culturomics« gleichsam das in Büchern und Texten überlieferte
›Erbgut‹ des kulturellen Gedächtnisses der Menschheit − oder zumindest
der westlichen Welt − ›entschlüsselt‹ werden. Das klingt überambitioniert,
verdient aber im Folgenden genauer beleuchtet zu werden. Das Projekt basiert
auf statistischen Auswertungen von großen Teilen des Volltextkorpus’, das
Google innerhalb seines Book Search-Projekts seit dem Jahr 2004 durch die
weltweite Digitali sierung der Buchbestände bedeutender Universitäts- und
Forschungsbibliothe ken kumuliert hat.
Um sich eine Vorstellung von den behaupteten Dimensionen des Unter-
fangens zu machen, seien die Zahlen aus den begleitenden Verlautbarungen
kurz vergegenwärtigt. Rund 130 (129) Millionen Bücher sollen seit der
Erfindung des Buchdrucks mit beweglichen Lettern im 15. Jahrhundert auf
der Welt erschienen sein. Nach eigenen Angaben habe Google davon über
15 Millionen Bücher mit Stand zum Jahresende 2010 digitalisiert. Michel
und sein Autorenteam führen aus, dass mehr als 5 (5,2) Millionen dieser
Bücherdigitalisate in diejenigen Datenbestände eingeflossen seien, die ihren
statistischen Erhebungen zugrunde lägen. Dabei handele es sich primär um
Bücher, die im Zeitraum zwischen 1800 und 2000 erschienen seien. Die
auch in historischer Hinsicht meistvertretene Publikationssprache ist dabei
das Englische − aber auch Deutsch, Französisch, Spanisch, Russisch, Hebrä-
isch und sogar Chinesisch konnten angeblich repräsentativ berücksichtigt
werden. Selbstbewusst erklären die Autoren etwa 4 Prozent aller Bücher,
die je gedruckt worden sind, zur Grundlage ihrer Arbeit. An einer anderen
Stelle ist von 500 Milliarden laufenden Textwörtern die Rede, davon 361
Milliarden in Englisch und immerhin 37 Milliarden auf Deutsch. Das mündet
in die zutreffende Diagnose: »The corpus cannot be read by a human« (Jean-
Baptiste Michel et al., in: Science 331 (2011), S. 176; s. Bibliografie, unter
Punkt A.II.9).
Da diese Text- und Datenmasse zu groß ist, als dass je ein einzelner Mensch
oder auch eine Gruppe sie inhaltlich erfassen und interpretieren könnten,
sei die Visualisierung von Häufigkeitsverteilungen und Verwendungstrends
bestimmter Schlagwörter oder Schlüsselbegriffe die einzige Form des ›Lesens‹,
die einer solchen Informationsfülle gerecht werde. Dazu stützen sich die Kor-
43