Anbieter für KI

Bei der Erstellung der Bilder beschränke ich mich weitgehend auf die Algorithmen, die von der Plattform Nightcafe angeboten werden. Als Einsteiger bekommt man einige Credits kostenlos, und kann auch welche durch täglichen Besuch, Publizieren von Bildern usw. bekommen. Die Preise für den Kauf sind sehr moderat: ca. 8 € für 200 Credits.

Welche Algorithmen werden geboten?







Stable Diffusion 

ist ein Deep-Learning-Text-zu-Bild Generator. Es wird hauptsächlich zur Generierung detaillierter Bilder auf der Grundlage von Textbeschreibungen verwendet, kann aber auch für andere Aufgaben wie Inpainting, Outpainting und die Generierung von Bild-zu-Bild-Übersetzungen auf der Grundlage einer Textaufforderung eingesetzt werden.

Stable Diffusion verwendet ein latentes Diffusionsmodell, eine Variante eines tiefen generativen neuronalen Netzes, das von der CompVis-Gruppe an der LMU München entwickelt wurde. Das Modell wurde in Zusammenarbeit von Stability AI, CompVis LMU und Runway mit Unterstützung von EleutherAI und LAION entwickelt. Im Oktober 2022 erhielt Stability AI in einer von Lightspeed Venture Partners und Coatue Management angeführten Finanzierungsrunde 101 Millionen US-Dollar.

Der Code und die Modellgewichte von Stable Diffusion wurden veröffentlicht und können auf den meisten Consumer-Hardware-Systemen ausgeführt werden, die mit einer durchschnittlichen GPU mit mindestens 8 GB Grafikspeicher, ausgestattet sind. Dies stellt eine Abkehr von früheren proprietären Text-zu-Bild-Modellen wie DALL-E und Midjourney dar, die nur über Cloud-Dienste zugänglich waren.

Stable Diffusion beansprucht keine Rechte an den generierten Bildern und räumt den Nutzern die Nutzungsrechte für alle aus dem Modell generierten Bilder ein, vorausgesetzt, der Bildinhalt ist nicht illegal oder schädlich für Personen. Die den Nutzern gewährte Freiheit bei der Verwendung der Bilder hat zu einer Kontroverse über die Ethik des Eigentums geführt, da Stable Diffusion und andere generative Modelle anhand von urheberrechtlich geschützten Bildern ohne die Zustimmung des Eigentümers trainiert werden.

Da visuelle Stile und Kompositionen nicht dem Urheberrecht unterliegen, wird häufig die Auffassung vertreten, dass Benutzer von Stable Diffusion, die Bilder von Kunstwerken generieren, nicht gegen das Urheberrecht von visuell ähnlichen Werken verstoßen. Allerdings können Personen, die in den generierten Bildern abgebildet sind, durch Persönlichkeitsrechte geschützt sein, wenn ihr Konterfei verwendet wird, und geistiges Eigentum wie erkennbare Markenlogos bleiben weiterhin durch das Urheberrecht geschützt. Dennoch haben bildende Künstler ihre Besorgnis darüber geäußert, dass der weit verbreitete Einsatz von Bildsynthese-Software wie Stable Diffusion dazu führen könnte, dass menschliche Künstler sowie Fotografen, Models, Kameraleute und Schauspieler allmählich ihre kommerzielle Rentabilität gegenüber KI-basierten Konkurrenten verlieren.

Im Vergleich zu anderen kommerziellen Produkten, die auf generativer KI beruhen, ist Stable Diffusion deutlich freizügiger, was die Art der Inhalte angeht, die die Nutzer erstellen dürfen, wie etwa gewalttätige oder sexuell eindeutige Bilder. Emad Mostaque, CEO von Stability AI, entgegnet den Bedenken, dass das Modell zu missbräuchlichen Zwecken eingesetzt werden könnte: „Es liegt in der Verantwortung der Menschen, ob sie diese Technologie auf ethische, moralische und legale Weise einsetzen“, und dass die Technologie trotz möglicher negativer Folgen einen Nettonutzen bringen würde, wenn die Fähigkeiten von Stable Diffusion der Öffentlichkeit zugänglich gemacht würden. Darüber hinaus argumentiert Mostaque, dass die Absicht hinter der offenen Verfügbarkeit von Stable Diffusion darin besteht, die Kontrolle von Unternehmen über solche Technologien zu beenden, die bisher nur geschlossene KI-Systeme für die Bildsynthese entwickelt haben. Dies spiegelt sich in der Tatsache wider, dass alle Beschränkungen, die Stability AI für die von den Nutzern erzeugten Inhalte auferlegt, aufgrund der Open-Source-Natur der Lizenz, unter der Stable Diffusion veröffentlicht wurde, leicht umgangen werden können.


DALL-E 

(stilisiert als DALL·E) und der Nachfolger DALL-E 2 sind von OpenAI entwickelte Computerprogramme, die Bilder aus Textbeschreibungen aufgrund von maschinellem Lernen erstellen können. Der Name bildet ein Kofferwort aus dem kleinen animierten Roboter Wall-E aus dem gleichnamigen Film und dem spanischen Surrealisten Salvador Dalí. Das Programm nutzt künstliche neuronale Netzwerke, ⁣um Wörter als Input in Anordnungen von Pixeln als Output zu transferieren. Mithilfe von Textanordnungen können von dem Programm fotorealistische Bilder erstellt werden. Die künstliche Intelligenz kann dabei völlig neue Konzepte abbilden und Bilder in verschiedenen künstlerischen Stilrichtungen kreieren. Um Bilder erzeugen zu können, wurde das Modell mithilfe von Millionen im Internet verfügbaren Bildern trainiert. Das Programm basiert auf dem ebenfalls von OpenAI entwickelten Generative Pre-trained Transformer 3 (GPT-3), einem Textgenerator, welcher Texte, Textzusammenfassungen und sogar Gedichte verfassen kann.

Die Leistungsfähigkeit des Modells wurde als „beeindruckend“ und „unheimlich“ bezeichnet. So wurde DALL-E von einigen Beobachtern aufgrund seiner scheinbaren Kreativität als mögliche Vorstufe zu Artificial General Intelligence interpretiert und als Zeichen für die starken Fortschritte im Machine Learning angesehen. Andere betonten, dass es sich bei DALL-E um keine mit dem Menschen vergleichbare Intelligenz handelt, da es keinerlei generelles Verständnis von Konzepten ausweist. Zudem würde es weiterhin viele Fehler machen, welche auf seinem fundamental fehlenden Verständnis der physischen Welt und der Objekte in ihr beruhen. Das Modell könnte dennoch starken Einfluss auf Künstler und Grafikdesigner haben. Die Generierung von Desinformation und gefälschten Bildern wurde in einem Artikel der New York Times befürchtet. Auch könnte das Programm eine kulturelle Voreingenommenheit besitzen, da es allein auf der englischen Sprache beruht und die Bilder zum Training des Programms zum größten Teil aus dem westlichen Kulturkreis stammen und generierte Bilder deshalb stereotype Vorstellungen widerspiegeln können.

Der Coherent-Algorithmus 

ist eine neuere Ergänzung von NightCafe und darauf spezialisiert, Bilder zu erstellen, die (normalerweise) tatsächlich den Gesetzen der Physik gehorchen. Der kohärente Algorithmus kann ein wenig mehr Erfolg haben als der künstlerische Algorithmus, aber die meisten Top-Künstler auf NightCafe bevorzugen den kohärenten Algorithmus. Der technische Name für den kohärenten Algorithmus lautet „CLIP-Guided Diffusion“.

Der künstlerische Algorithmus (Artistic)

ist der ursprüngliche Text-zu-Bild-KI-Kunstalgorithmus. Der technische Name lautet „VQGAN+CLIP“. Der künstlerische Algorithmus ist großartig darin, schöne Texturen und Landschaften basierend auf beschreibenden Schlüsselwörtern (Modifikatoren) zu erzeugen, aber die Bilder scheinen oft nicht "den Gesetzen der Physik zu gehorchen". Beispielsweise ist es üblich, ein Gebäude am Himmel schweben zu sehen, oder ein sich wiederholendes Muster im gesamten Bild.

Style Transfer

Besonders empfehlenswert für Einsteiger! Mit diesem Algorithmus können Sie eigene Bilder hochladen und mithilfe von vordefinierten Kunststilen (Presets, auch in Kombination) mit wenig Aufwand in oft überraschend gelungene Kunstwerke verwandeln lassen.



Kommentare

Beliebte Posts aus diesem Blog