Stable Diffusion 3 çıktı: Yapay zeka görsellerindeki metinler mükemmelleşti

Stability AI, yeni nesil metinden görüntüye modeli Stable Diffusion 3.0’ı tanıttı. Henüz halka açılmayan model, daha net görüntüler, geliştirilmiş çoklu konu işleme ve önemli ölçüde geliştirilmiş metin oluşturma vaat ediyor. Midjourney ve özellikle Dall-E de metin oluşturma adına önemli adımlar atmıştı ancak görünüşe göre Stable Diffusion 3 ile standartlar daha da yükseliyor.

Stable Diffusion 3 çıktı

Stable Diffusion 3, okunaklı metin oluşturma ve oluşturulan görsellerde doğru yazımları sağlama konusunda önemli bir ilerleme sunmayı amaçlıyor. En azından şimdiye kadar gördüğümüz örneklerde bu hedef tutturulmuş gibi görünüyor. Hemen aşağıda yer alan otobüs görselinde olduğu gibi Stable Diffusion 3, artık son derece gerçekçi resimlerin yanında ayırt etmesi hayli zor olacak şekilde kaliteli metinler oluşturabiliyor.

Bundan birkaç ay önce hemen hemen tüm metinden görüntüye yapay zeka modelleri, oluşturdukları görsellere metin eklemekte zorlanıyordu. Eklenen metinler de genellikle bozuk oluyordu. Ancak Stable Diffusion 3 ve bir önceki sürümüne baktığımızda aradaki fark muazzam. Stability AI CEO’su Emad Mostaque’ye göre, OpenAI’ın son Sora modeline benzer bir “difüzyon transformatörü” kullanılıyor.
Stable Diffusion 3.0, karmaşık veri dağılımlarını daha iyi modellemek için yapay zeka sistemlerini eğitmeye yönelik yeni bir yöntem olan “akış eşleştirme” gibi güncel teknikleri de barındırıyor. Akış eşleştirmenin arkasındaki araştırmacılar, geleneksel difüzyon yöntemlerine kıyasla daha hızlı eğitim, daha verimli örnekleme ve gelişmiş genel performans sağladığını iddia ediyor.

Yukarıda dediğimiz gibi Stable Diffusion 3, henüz halka açık değil ve şimdilik sadece bekleme listesine kayıt olunabiliyor. Stability AI, yeni modelin piyasaya sürüldüğünde 800 milyon ila 8 milyar parametre aralığını kapsayacağını söylerken bu süreçte geri bildirim toplamaya ve güvenlik önlemleri almaya odaklandıklarını söylüyor.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

x