Google Gemini, yapay zekayı bir üst seviyeye taşıyor: Tek bir komutla arka planı, saç stilini değiştirin ve fotoğrafları birleştirin

Google Gemini güncellemesi, Google DeepMind tarafından geliştirilen "nano muz" görüntü modelini kullanıyor. Bu özellik artık hem ücretsiz hem de ücretli kullanıcılar için dünya çapında mevcut. En büyük gücü, diğer yapay zeka araçlarının sıklıkla zorlandığı bir konu olan, görüntülerdeki yüzleri ve nesneleri tutarlı tutabilmesi.

DeepMind Ürün Lideri Nicole Brichtova, "Görüntü kalitesini ve modelin talimatları takip etme yeteneğini gerçekten zorladık," dedi. "Bu güncelleme, düzenlemeyi daha sorunsuz hale getiriyor ve sonuçlar her türlü amaç için kullanılabilecek kadar iyi."

Her fotoğrafta "kendinizi" tutun

Yapay zeka fotoğraflarının sahte görünmesinin nedenlerinden biri, küçük ayrıntıların bozulmasıdır. Google, Gemini'nin bu sorunu çözdüğünü ve yüz ve ifadeyi aynı tutarken tüm sahneyi değiştirmenize olanak tanıdığını söylüyor. Görüntü bozulması konusunda endişelenmeden yeni bir saç modeli deneyebilir, duvarın rengini değiştirebilir veya sahneye bir evcil hayvan getirebilirsiniz.

Fotoğrafları bir araya getirin.gif — Google Gemini'yi kullanarak iki mevcut görselden yeni bağlamla fotoğrafları birleştirin. Kaynak: Google

Gemini ayrıca birden fazla fotoğrafı birleştirerek tek bir fotoğrafta birleştirmenize de olanak tanır. Örneğin, kedinizle çektiğiniz bir portreyi birleştirerek yolda birlikte gezdiğiniz bir fotoğraf elde edebilirsiniz.

Gemini, kullanıcıların bir alana duvar kağıdından mobilyalara, boya rengine kadar her ayrıntıyı eklemelerine olanak tanıyan çoklu düzenlemeyi destekler. Artısı, yalnızca düzenlenmesi gereken kısmın değişmesi, geri kalanının aynı kalmasıdır.

Ayrıca, İkizler burcu fotoğraflar arasında farklı stilleri bir arada kullanabilir. Örneğin, yağmur çizmelerini çiçek desenli ayakkabılara dönüştürebilir veya kelebek desenli bir elbise yaratabilirsiniz.

Teknoloji devleri arasında yapay zeka ile görüntü oluşturma yarışı

Google'ın bu güncellemesi, yapay zeka görüntüleme savaşının kızıştığı bir dönemde geldi. OpenAI, daha önce doğrudan görüntü üretebilen GPT-4o'yu piyasaya sürmüş ve Studio Ghibli tarzı bir dizi görselle viral olmuştu. CEO Sam Altman, kullanıcı sayısının o kadar arttığını, şirketin GPU'larının neredeyse "eridiğini" açıkladı.

Meta, bu trende ayak uydurmak için Midjourney ile ortaklık kurduğunu duyururken, Alman girişimi Black Forest Labs ise FLUX modeliyle birçok grafiğe hükmediyor.

çok turlu düzenleme.gif — Google Gemini'nin çok adımlı fotoğraf düzenleme yetenekleri. Kaynak: Google

Google, Gemini'nin ChatGPT ile aradaki farkı kapatabileceğini umuyor. CEO Sundar Pichai'ye göre, Gemini'nin şu anda aylık 450 milyon kullanıcısı var; bu sayı, haftalık 700 milyondan fazla kullanıcısı olan ChatGPT'den çok daha düşük.

Brichtova, Gemini'nin oturma odalarını ve bahçeleri görselleştirmekten eğlenceli fotoğraflar oluşturmaya kadar gerçek dünya senaryoları için tasarlandığını söyledi. Model daha iyi bir " dünya bilgisine" sahip ve birden fazla fotoğraf ve renk paletini tek bir görselde birleştirebiliyor.

Ancak Google, katı sınırlamalar da getiriyor. Oluşturulan tüm görsellerin meta verilerinde net bir filigran ve gizli tanımlayıcılar bulunuyor. Şirket, deepfake kötüye kullanımını önlemek için hassas görsellerin istem dışı oluşturulmasını kesinlikle yasaklıyor.

Google, Gemini'nin hatalı tarihsel görüntüleri için daha önce özür dilemişti. Şirket, bu sefer yaratıcılık ve güvenlik arasında bir denge kurduğuna inanıyor. Brichtova , "Kullanıcıların yaratıcı olmasını istiyoruz, ancak her şeye izin verilmiyor," diye vurguladı.

Google, Gemini 2.5 Flash Image ile yapay zeka fotoğraf düzenleme deneyimini bir üst seviyeye taşımaya, OpenAI, Meta ve diğer rakiplerle kıyasıya bir teknoloji yarışında hem eski kullanıcıları elinde tutmayı hem de yeni kullanıcılar çekmeyi hedefliyor.

(TechCrunch, Tom's Guide'a göre)

Nvidia, beyin başına 85 milyon VND karşılığında, insanların robot ürettiği çağın önünü açıyor. Nvidia, makinelerin insanlar gibi görmesine, düşünmesine ve hareket etmesine yardımcı olabilecek, "robot beyin" olarak adlandırılan bir çip olan Jetson AGX Thor'u 3.499 ABD doları fiyatla piyasaya sürdü ve fiziksel yapay zeka yarışını başlattı.

Source: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html