banner

Blog

Dec 01, 2023

Wenn KI Kunst machen kann

Bildgeneratoren wie Dall-E 2 können in Sekundenschnelle Bilder zu jedem gewünschten Thema erstellen. Einige Kreative sind alarmiert, andere stehen dem Hype skeptisch gegenüber

Als der Konzeptkünstler und Illustrator RJ Palmer zum ersten Mal den fein abgestimmten Fotorealismus der vom KI-Bildgenerator Dall-E 2 erzeugten Kompositionen sah, war er unruhig. Das vom KI-Forschungsunternehmen OpenAI veröffentlichte Tool zeigte eine deutliche Verbesserung gegenüber Dall-E aus dem Jahr 2021 und wurde schnell von Konkurrenten wie Stable Diffusion und Midjourney gefolgt. Geben Sie eine beliebige surreale Eingabeaufforderung ein, von Kermit dem Frosch im Stil von Edvard Munch bis hin zu Gollum aus „Der Herr der Ringe“, der sich an einer Scheibe Wassermelone erfreut, und diese Werkzeuge werden Ihnen wenige Augenblicke später eine verblüffend genaue Darstellung liefern.

Das Internet schwelgte in den Möglichkeiten, Memes zu erstellen, und ein Twitter-Account dokumentierte „seltsame Dall-E-Generationen“ und verzeichnete mehr als eine Million Follower. Cosmopolitan präsentierte das erste KI-generierte Zeitschriftencover der Welt, und Technologieinvestoren überschlugen sich, die neue Ära der „generativen KI“ einzuläuten. Mit der Veröffentlichung von Imagen Video von Google und Make-A-Video von Meta haben sich die Funktionen zur Bildgenerierung bereits auf Videos ausgeweitet.

Doch die neuen künstlerischen Fähigkeiten der KI wurden von einigen Kreativen nicht so begeistert aufgenommen. „Mir geht es vor allem darum, welche Auswirkungen dies auf die Zukunft nicht nur meiner Branche, sondern der kreativen Humanindustrie im Allgemeinen hat“, sagt Palmer.

Durch die Aufnahme großer Datensätze zur Analyse von Mustern und zur Erstellung von Vorhersagemodellen hat sich die KI bei einigen Aufgaben seit langem als dem Menschen überlegen erwiesen. Es ist diese Fähigkeit, mit Zahlen zu rechnen, die dazu führte, dass eine KI im Jahr 2016 den Go-Weltmeister besiegte, schnell die vorteilhafteste Spielstrategie berechnete und keine Angst davor hatte, Bewegungen auszuführen, die Spott hervorgerufen hätten, wenn sie von einer Person gekommen wären. Doch bis vor Kurzem galt die Produktion origineller Werke, insbesondere kreativer Werke, als eine rein menschliche Beschäftigung.

Jüngste Verbesserungen in der KI haben den Dreh- und Angelpunkt verändert. KI-Bildgeneratoren können jetzt nicht nur geschriebene Sätze in neuartige Bilder umwandeln, sondern auch bei der KI-Sprachgenerierung wurden Fortschritte gemacht: Große Sprachmodelle wie GPT-3 haben ein Niveau der Sprachkompetenz erreicht, das mindestens einen kürzlich entlassenen Google-Forscher überzeugt hat maschinelles Bewusstsein. Wenn man Bachs Werk einbindet, kann eine KI Musik in mehr oder weniger demselben Stil improvisieren – mit der Einschränkung, dass es für ein menschliches Orchester oft unmöglich wäre, tatsächlich zu spielen.

Diese Technologieklasse wird als generative KI bezeichnet und funktioniert durch einen Prozess, der als Diffusion bezeichnet wird. Im Wesentlichen werden riesige Datensätze zusammengekratzt, um die KI zu trainieren, und durch einen technischen Prozess ist die KI in der Lage, neue Inhalte zu entwickeln, die den Trainingsdaten ähneln, aber nicht identisch sind. Sobald es Millionen von Bildern von Hunden gesehen hat, die mit dem Wort „Hund“ getaggt sind, ist es in der Lage, Pixel in Form eines völlig neuartigen Welpen zu erstellen, der dem Datensatz so sehr ähnelt, dass wir ihn problemlos als Hund bezeichnen können. Es ist nicht perfekt – KI-Bildtools haben immer noch Schwierigkeiten damit, Hände menschlich darzustellen, die Körperproportionen können fehlerhaft sein und sie haben die Angewohnheit, Unsinn zu schreiben.

Während Internetnutzer dieses enorme kreative Potenzial angenommen haben – ausgestattet mit der richtigen verfeinerten Eingabeaufforderung, können jetzt selbst Anfänger beeindruckende digitale Leinwände erstellen – haben einige Künstler Bedenken gegen die Fähigkeit der neuen Technologie zur Nachahmung geäußert. Unter den Eingabeaufforderungen, die in die Bildgeneratoren Stable Diffusion und Midjourney eingegeben werden, markieren viele den Namen eines Künstlers, um einen ästhetisch ansprechenderen Stil für das resultierende Bild sicherzustellen. Etwas so Alltägliches wie eine Schale mit Orangen kann zum Blickfang werden, wenn es beispielsweise im Stil von Picasso dargestellt wird. Da die KI auf Milliarden von Bildern trainiert wurde, von denen einige urheberrechtlich geschützte Werke lebender Künstler sind, kann sie im Allgemeinen eine ziemlich getreue Annäherung erzielen.

Manche sind empört darüber, was sie als Diebstahl ihres künstlerischen Markenzeichens betrachten. Greg Rutkowski, ein Konzeptkünstler und Illustrator, der für seine von goldenem Licht durchdrungenen epischen Fantasy-Szenen bekannt ist, wurde bereits in Hunderttausenden von Aufforderungen erwähnt, die in Midjourney und Stable Diffusion verwendet wurden. „Es ist erst ein Monat her. Wie sieht es in einem Jahr aus? Ich werde meine Arbeit dort wahrscheinlich nicht finden können, weil [das Internet] mit KI-Kunst überflutet sein wird“, sagte Rutkowski gegenüber MIT Technology Review. „Das ist besorgniserregend.“

Dall-E 2 ist eine Black Box, da OpenAI sich weigert, den Code freizugeben oder die Daten weiterzugeben, auf denen die Tools trainiert wurden. Stable Diffusion hat sich jedoch dafür entschieden, seinen Code als Open Source zu veröffentlichen und Details der Bilddatenbank zu teilen, die zum Trainieren seines Modells verwendet wird.

Spawning, ein Künstlerkollektiv, hat ein Tool namens „Have I Been Trained?“ entwickelt. um Künstlern dabei zu helfen, herauszufinden, ob ihre Kunstwerke zu den 5,8 Milliarden Bildern gehören, die für das Training von Stable Diffusion verwendet werden, und sich für oder gegen das Erscheinen in zukünftigen Trainingssätzen zu entscheiden. Das Unternehmen hinter Stable Diffusion, Stability AI, hat erklärt, es sei offen für die Arbeit mit dem Tool. Von den 1.800 Künstlern, die sich bereits für die Nutzung des Tools angemeldet haben, sagt Matthew Dryhurst, Akademiker und Mitglied von Spawning, dass es sich um eine 60/40-Split zugunsten einer Abmeldung handelt.

Doch die Concept Art Association (CAA) betont, dass der Schaden dieses Mal bereits angerichtet sei, da die Werkzeuge bereits ohne deren Zustimmung auf die Arbeit der Künstler trainiert worden seien. „Es ist, als ob jemand, der dich bereits ausgeraubt hat, sagt: ‚Möchtest du nicht, dass ich dich beraube?‘“, sagt Karla Ortiz, Illustratorin und Vorstandsmitglied von CAA.

Emad Mostaque von Stability AI sagt, dass die zum Training von Stable Diffusion verwendeten Daten zwar keine Opt-out-Option boten, es sich jedoch „im Grunde um ein Testmodell handelte, das aufgrund einer Momentaufnahme von Bildern im Internet stark unoptimiert war.“ Er sagt, dass neue Modelle in der Regel anhand neuer Datensätze trainiert werden und das Unternehmen dann die Wünsche der Künstler berücksichtigen würde.

Es sind nicht nur Kunstwerke: Eine Analyse der Trainingsdatenbank für Stable Diffusion hat ergeben, dass sie auch private medizinische Fotografie, Fotos von Mitgliedern der Öffentlichkeit (manchmal zusammen mit ihren vollständigen Namen) und Pornografie aufgesaugt hat.

Ortiz lehnt es insbesondere ab, dass Stability AI einen Teil seines Betriebs – DreamStudio – kommerzialisiert, das Kunden benutzerdefinierte Modelle und eine verbesserte Benutzerfreundlichkeit bietet. „Diese Unternehmen haben jetzt einen Präzedenzfall geschaffen, indem sie die urheberrechtlich geschützten und privaten Daten aller nutzen, ohne dass irgendjemand damit einverstanden ist“, sagt sie. „Dann sagen sie: ‚Wir können nichts dagegen tun, der Geist ist aus der Flasche!‘“

Was man dagegen tun kann, außer sich auf die Wohltätigkeit der Unternehmen zu verlassen, die hinter diesen Tools stehen, ist immer noch fraglich.

Die CAA führt besorgniserregende britische Gesetze an, die KI-Unternehmen noch mehr Freiheit geben könnten, urheberrechtlich geschützte kreative Werke aufzusaugen, um Tools zu trainieren, die dann kommerziell eingesetzt werden können. In den USA traf sich die Organisation mit Regierungsvertretern, um über das Urheberrecht zu sprechen, und führt derzeit Gespräche mit Washingtoner Lobbyisten, um zu besprechen, wie man als Industrie dagegen vorgehen kann.

Über das Nachahmen hinaus gibt es ein noch größeres Problem, das Palmer angesprochen hat: Gefährden diese Tools eine ganze Klasse von Kreativen? In einigen Fällen kann KI anstelle von Archivbildern verwendet werden – die Bildbibliothek Shutterstock hat kürzlich einen Vertrag mit OpenAI über die Integration von Dall-E in ihr Produkt abgeschlossen. Aber Palmer argumentiert, dass Kunstwerke wie Illustrationen für Artikel, Bücher oder Albumcover bald der Konkurrenz durch KI ausgesetzt sein könnten, was einen florierenden Bereich der kommerziellen Kunst untergraben könnte.

Die Besitzer von KI-Bildgeneratoren neigen dazu zu argumentieren, dass diese Werkzeuge im Gegenteil die Kunst demokratisieren. „Ein Großteil der Welt ist kreativ verstopft“, sagte der Gründer von Stability AI, Emad Mostaque, kürzlich bei einer Veranstaltung zur Feier einer 101-Millionen-Dollar-Spendenrunde, „und wir werden dafür sorgen, dass sie Regenbögen kacken können.“ Aber wenn jeder KI nutzen kann, um technisch meisterhafte Bilder zu erstellen, was sagt das dann über das Wesen der Kreativität aus?

Anna Ridler, eine Künstlerin, die für ihre Arbeit mit KI bekannt ist, sagt, dass sich Dall-E 2 zwar beim ersten Gebrauch „wie Magie“ anfühlte, sie bei ihren Experimenten mit dem Tool jedoch bisher keinen Funken Inspiration gespürt hat. Sie arbeitet lieber mit einer anderen Art von KI, den sogenannten Generative Adversarial Networks (GANs). GANs fungieren als Austausch zwischen zwei Netzwerken, von denen eines neue Bilder erstellt und das andere entscheidet, wie gut das Bild ein bestimmtes Ziel erfüllt. Ein künstlerisches GAN könnte das Ziel haben, etwas zu schaffen, das sich so weit wie möglich von seinen Trainingsdaten unterscheidet, ohne die Kategorie dessen zu verlassen, was Menschen als visuelle Kunst betrachten würden.

Diese Themen haben die Debatte darüber intensiviert, inwieweit wir der KI Kreativität zuschreiben können. Laut Marcus du Sautoy, einem Mathematiker der Universität Oxford und Autor von „The Creativity Code: How AI is Learning to Write, Paint and Think“, kommen Dall-E und andere Bildgeneratoren wahrscheinlich am nächsten an die Nachbildung einer Art „kombinatorischer“ Kreativität, weil die Algorithmen wird beigebracht, neuartige Bilder im gleichen Stil wie Millionen anderer in den Trainingsdaten zu erstellen. GANs der Art, mit der Ridler arbeitet, kommen der „transformationellen“ Kreativität näher, sagt er – etwas in einem völlig neuartigen Stil zu schaffen.

Ridler lehnt einen derart formelhaften Ansatz zur Definition von Kreativität ab. „Es verflacht es dahingehend, Kunst als interessante Tapete zu betrachten und nicht als etwas, das versucht, Ideen auszudrücken und nach der Wahrheit zu suchen“, sagt sie. Als Konzeptkünstlerin ist sie sich der Mängel der KI durchaus bewusst. „KI kann mit Konzepten nicht umgehen: Zeitmomente, Erinnerungen, Gedanken, Emotionen zusammenbrechen lassen – all das ist eine echte menschliche Fähigkeit, die ein Kunstwerk ausmacht und nicht etwas, das optisch hübsch aussieht.“

KI-Bildtools weisen einige dieser Mängel auf. Während „Astronaut auf einem Pferd“ eine genaue Darstellung zurückgibt, werden bei „Reiten auf einem Astronauten“ Bilder angezeigt, die weitgehend gleich aussehen – was darauf hindeutet, dass die KI die kausalen Zusammenhänge zwischen verschiedenen Akteuren auf der Welt nicht wirklich erfasst.

Dryhurst und Ridler behaupten, dass die Idee des „Künstlerersatzes“ auf einer Unterschätzung des künstlerischen Prozesses beruht. Dryhurst beklagt, dass die Medien seiner Ansicht nach alarmistische Narrative schüren, und verweist auf einen aktuellen Artikel der New York Times über einen Künstler, der Midjourney nutzte, um die digitale Kategorie des jährlichen Kunstwettbewerbs der Colorado State Fair zu gewinnen. Dryhurst weist darauf hin, dass eine Staatsmesse nicht gerade ein prestigeträchtiges Forum ist. „Sie verteilten Preise für Obstkonserven“, sagt er. „Was mich nervt, ist, dass es diesen Drang zu geben scheint, Künstlern Angst einzujagen.“

„Kunst ist tot, Alter“, sagte der Landesmesse-Gewinner.

Es ist möglich, dass der Hype um diese Werkzeuge als disruptive Kräfte die Realität übertrifft. Mostaque sagt, KI-Bildgeneratoren seien Teil dessen, was er „intelligente Medien“ nennt, was eine Chance von „einer Billion Dollar“ darstellt, und verweist auf Disneys Content-Budget von mehr als 10 Milliarden US-Dollar (8,7 Milliarden Pfund) und den Wert der gesamten Spielebranche von mehr als 10 Milliarden US-Dollar 170 Milliarden US-Dollar. „Jeder einzelne Inhalt von der BBC bis Disney wird durch diese Modelle interaktiv gemacht“, sagt er.

Neue Anwendungen sind derzeit prosaischer, darunter Moodboards für Designberatung, Storyboards für Filme und Modelle für Innenarchitektur. Mark Beccue, Analyst bei Omdias KI-Abteilung, ist skeptisch, was die Zahl von 1 Billion US-Dollar angeht. „Was sind hier die Killer-Anwendungsfälle?“ er sagt. „Das macht keinen Sinn. Welches Problem lösen Sie damit?“ Ein Analyst des Beratungsunternehmens Accenture sagt, dass die Tools eines Tages dazu verwendet werden könnten, Inhalte zu erstellen, um Algorithmen für maschinelles Lernen zu trainieren, beispielsweise in selbstfahrenden Fahrzeugen, und um die Entwicklung von Spielen zu beschleunigen. Ob es zu etwas so Lukrativem kommt, wie KI-Bildgeneratoren und ihre Unterstützer es vorschlagen, bleibt abzuwarten.

AKTIE