Zur Generierung der Bilder verwende ich das Open Source KI-Programm “Stable Diffusion”, welches unter Python in einem Rechenzentrum mit einer TPU betrieben wird. Die Bilder werden dann mit weiteren Programmen weiterverarbeitet.
Technischer Hintergrund
Das Stable Diffusion-Modell unterstützt die Fähigkeit, neue Bilder von Grund auf neu zu generieren. Stable Diffusion ist ein Text-zu-Bild-Modell für maschinelles Lernen , um digitale Bilder aus Beschreibungen in natürlicher Sprache zu generieren. Der zugrunde liegende Ansatz wurde an der LMU München entwickelt und dann durch eine Zusammenarbeit von StabilityAI, LMU und Runway mit Unterstützung von EleutherAI und LAION erweitert.
Dies markierte eine Abkehr von früheren proprietären Text-zu-Bild-Modellen wie DALL-E und Midjourney , die nur über Cloud-Dienste zugänglich waren.
Der Code und die Modellgewichte von Stable Diffusion wurden veröffentlicht und es kann prinzipiell auf normaler Consumer-Hardware ausgeführt werden, die mit einer normalen GPU ausgestattet ist. Da es zwar prinzipiell funktioniert, Stable Diffusion auf einem normalen PC zu betreiben, sich die Installation aber sehr umfangreich und fehleranfällig gestaltet, verwende ich Colab. Colab ist eine Cloud-gehostete Version von Jupyter notebook . Darüber hinaus bietet Colab freien Zugriff auf Computerinfrastruktur wie Speicher, Arbeitsspeicher, Verarbeitungskapazität, Grafikprozessoren (GPUs) und Tensor-Verarbeitungseinheiten (TPUs).
Google hat dieses Cloud-basierte Python-Codierungstool speziell unter Berücksichtigung der Bedürfnisse von Programmierern für maschinelles Lernen, Big-Data-Analysten, Datenwissenschaftlern, KI-Forschern und Python-Lernern programmiert.
Postprozess
Nach der Generierung des Bildes verwende ich Programme wie Gigapixel AI zum hochskalieren, sowie Lightroom, Photoshop und Topaz AI Software um das Bild fertig zu stellen.
Jedes Bild ist quasi ein Unikat, da selbst bei gleichen Ausgangsbedingungen, nie zwei identisch Bilder generiert werden. Hier ein Beispiel eines Versuchs sechs gleiche Bilder zu erstellen, ohne dabei irgend etwas zu verändern. Sie werden leicht erkennen, welchen Stil und Maler die KI imitieren sollte. (Claude Monet) Als Motiv waren zwei Menschen, die sich im Sonnenuntergang am Strand umarmen, vorgegeben. Da die KI weiß, dass es sich um ein Gemälde handelt und Gemälde oft Signaturen aufweisen, hat es im ersten Bild auch eine dazu erfunden.