Künstliche Intelligenz (KI) ist mittlerweile allgegenwärtig. Über das gesellschaftliche Potential und die ethischen Herausforderungen wird bereits breit diskutiert. Doch KI hat auch ein Nachhaltigkeitsproblem.
Künstliche Intelligenz beschreibt die Fähigkeit einer Maschine, in komplexen Situationen ein Ziel zu erreichen [1]. Darunter fällt beispielsweise die Fähigkeit eines Schachcomputers, den optimalen Spielzug zu berechnen, die diagnostischen Fähigkeiten einer Bilderkennungssoftware, Hauttumore auf Fotos zu erkennen oder die Fähigkeit eines selbstfahrenden Autos, auf der Spur zu bleiben und auf andere Verkehrsteilnehmer zu reagieren. Künstliche Intelligenz kann den Menschen überall dort unterstützen, wo komplexe und schwer überschaubare Muster in grossen Datenmengen vorhanden sind. Mit zunehmender Rechenleistung, der Verfügbarkeit von grossen Datenmengen und Fortschritten in der Forschung werden die Anwendungsbeispiele zunehmend vielfältiger, bedingen aber immer komplexere Computermodelle. Und die kosten Energie.
Künstliche neuronale Netzwerke: Statistische Energiefresser
Eine wesentliche Rolle bei der Erfolgsgeschichte von künstlicher Intelligenz spielen sogenannte künstliche neuronale Netzwerke. Dabei handelt es sich um aufwändige statistische Modelle [2], die aus mehreren «Schichten» aus künstlichen «Neuronen» bestehen, die miteinander verbunden werden, um grosse Datenmengen zu analysieren. Nehmen wir an, Ziel ist es, Bilder von Katzen von Bildern mit Hunden zu unterscheiden. Eine Möglichkeit wäre es, dem Computer von Anfang an zu sagen, welche Eigenschaften typisch sind für Katzen und Hunde. Jedes Unterscheidungsmerkmal müsste von Hand programmiert und gewichtet werden. Das braucht nicht nur viel Zeit, sondern auch sehr viel Vorwissen über das Aussehen verschiedener Hunde und Katzen. Demgegenüber sind künstliche neuronale Netzwerke darauf angelegt, relevante Unterscheidungsmerkmale eigenständig aus grossen Datenmengen zu lernen. Nacheinander werden dem Netzwerk Beispiele von Hunden- und Katzenbildern gezeigt, sodass das statistische Modell über die Zeit hinweg lernt, relevante von irrelevanten Unterscheidungsmerkmalen zu trennen.Wenn nach dem Training ein Bild gezeigt wird, schätzt das Modell, ob nun ein Hund oder eine Katze zu sehen ist.
Leider steigt mit der Komplexität der Modelle auch die benötigte Rechenleistung zum Trainieren und die Menge der dafür benötigten Daten. Es gibt inzwischen Modelle, die derart komplex sind, dass sie monatelang in Rechenzentren mit Supercomputern [3] trainiert werden müssen. Das benötigt entsprechende Mengen Energie: Es wurde nachgerechnet, dass das Erzeugen eines Modells, mit dem Computer selbständig Texte schreiben können, so viel CO2 verbraucht wie fünf herkömmliche Personenwagen inklusive Benzin über die ganze Lebenszeit [4]. Neben dem steigenden CO2-Bedarf steigt durch die komplexeren Anwendungen auch der Bedarf an Computerchips, da für diese Anwendungen häufig hochspezialisierte Chips verbaut werden müssen. Tesla hat zum Beispiel für ihren Autopiloten selber Chips entwickelt und verbaut gleich zwei davon pro Auto.
Doch warum brauchen die Modelle für künstliche Intelligenz so viel Energie? Die meiste Energie wird zum Verschieben der Daten benötigt, zum einen lokal, da viel zwischen Speicher und Prozessor hin und her geschoben wird und zum anderen global, da Daten massenhaft auf einem Gerät gesammelt und in die Cloud gesendet werden. Beim lokalen Verschieben der Daten vom Speicher in den Prozessor setzt «in-memory computing» an. Dabei werden nicht wie in einem normalen Computer die Daten vom Speicher zum Prozessor geschoben, sondern umgekehrt die Befehle zum Speicher. In der realen Welt ist dieser Wechsel vergleichbar damit, dass man in die Bibliothek Bücher lesen geht, anstatt sich die ganze Bibliothek nach Hause schicken zu lassen.
Um global weniger Daten verschieben zu müssen, kann man auch weniger in der Cloud und mehr lokal rechnen. Diese Idee wird als «Edge-Computing» bezeichnet. Wenn zum Beispiel eine Kamera verwendet wird, um Personen zu zählen, die während Corona einen Laden betreten, gibt es zwei Möglichkeiten: Man lädt das Video hoch und verarbeitet es in der Cloud oder man verarbeitet es direkt auf der Kamera und schickt nur das Ergebnis hoch. Die zweite Variante ist nicht nur energieeffizienter, sondern auch besser für die Privatsphäre, da das Video nicht mehr ins Internet gesendet und gespeichert werden muss. Zudem kann das Ergebnis direkt verwendet werden, anstatt dass es eine Verzögerung durch die Laufzeit in die Cloud gibt.
Da diese Algorithmen so viele Ressourcen benötigen, lohnt es sich zu fragen, ob es auch energieeffiziente Alternativen gibt. Die beiden Beispiele oben zeigen mögliche Ansätze, die aber eher zaghaft ihren Weg in die Industrie finden. Um solche energiesparende Alternativen zu fördern, müsste die Energie für Entwicklung und Betrieb transparent ausgewiesen werden. Dies hat sich bei Elektrogeräten wie Kühlschränken bewährt. Es gibt Benutzer:innen die Möglichkeit, besser zu entscheiden, welche Algorithmen sie nutzen möchten und der Druck auf die Industrie und Forschung steigt, mehr Geld in energieeffiziente Alternativen zu investieren.
Es gibt in und um Computer noch einiges an Potenzial, das es auszuschöpfen gilt. Dezentrale Datenverarbeitung hilft der Privatsphäre und ist ressourcenfreundlich. Dies bedingt einen Weggang von der veralteten Denkweise, zuerst viele Daten zu sammeln und dann darin nach etwas zu suchen, hin zu einem Ansatz, der gezielt für eine bestimmte Anwendung Trainingsdaten sammelt. Sobald ein Modell entwickelt ist, werden nicht mehr alle Daten in der Cloud benötigt. Zudem wird in einigen Jahren In-Memory Computing kommerziell verfügbar sein und kann Computersysteme effizienter gestalten, allerdings nur, wenn die Nachfrage nach effizienten Systemen genug hoch ist. Anbieter von Algorithmen wie Suchmaschinen und sozialen Netzwerke müssen verstärkt ihren Energieverbrauch den Benutzern und der Öffentlichkeit mitteilen. Somit entsteht ein Druck auf diese Firmen um Algorithmen zu gestalten, die Platz in einer nachhaltigen Zukunft haben.
[1] Jegminat, Jannes (2018). “Durchblick im AI-Diskurs”. Reatch. (https://reatch.ch/publikationen/durchblick-im-ai-diskurs, abgerufen am 17. März 2022). [2] Grüninger, Servan L. (2020). “Künstliche neuronale Netze: Keine Magie, sondern Statistik”. Reatch. (https://reatch.ch/publikationen/kuenstliche-neuronale-netze-keine-magie-sondern-statistik, abgerufen am 17. März 2022). [3] Meier, Olivia (2019). “Zu Besuch bei den Superrechnern”. Reatch. (https://reatch.ch/publikationen/zu-besuch-bei-den-superrechnern, abgerufen am 17. März 2022). [4] Strubell, Emma, Ananya Ganesh, and Andrew McCallum (2019. “Energy and policy considerations for deep learning in NLP.” arXiv preprint arXiv:1906.02243.Roger Germann studiert Elektrotechnik an der ETH Zürich und vertieft sich in Machine Learning. Er ist Geförderter der Schweizerischen Studienstiftung und Mitglied der GLP Bern. Er sieht ein Spannungsfeld zwischen Digitalisierung, gesellschaftlicher Gerechtigkeit und Nachhaltigkeit, deshalb setzt er sich für einen verantwortungsvollen und nachhaltigen Umgang mit Technologien ein.
Der vorliegende Beitrag entstand im Rahmen der Sommerakademie «Forschung – Ethik – Innovation» der Schweizerischen Studienstiftung und wurde redaktionell begleitet von Reatch. Der Beitrag gibt die persönliche Meinung des Autors wieder und entspricht nicht zwingend derjenigen von Reatch oder der Schweizerischen Studienstiftung.