Model generowania obrazów AI jest lepszy niż ChatGPT.

Mówi się, że V7, model firmy MidJourney, będzie w stanie odtwarzać detale takie jak wskazówki z większą precyzją. Zdjęcie: Xeophon .

Midjourney, jedno z pierwszych narzędzi do tworzenia obrazów w sieci wykorzystujących sztuczną inteligencję, właśnie wypuściło na rynek swój pierwszy nowy model od prawie roku.

Model o nazwie V7 został udostępniony w fazie testów beta o północy 4 kwietnia (czasu amerykańskiego). Tydzień wcześniej OpenAI uruchomiło podobną funkcję w ChatGPT, która szybko stała się sensacją w mediach społecznościowych, zapoczątkowując nowy trend tworzenia zdjęć w stylu Ghibli.

Jeśli dopiero zaczynasz korzystać z Midjourney, najpierw musisz ocenić 200 sugerowanych przez narzędzie obrazów, opartych na Twoich preferencjach. Następnie narzędzie utworzy spersonalizowany profil, aby wygenerować obrazy dopasowane do Twojej estetyki. Wersja 7 to pierwszy model Midjourney z domyślnie włączoną personalizacją.

Możesz włączyć lub wyłączyć wersję 7, klikając pasek narzędzi „wersja” na stronie internetowej. Dodatkowo, ten model można wykorzystać na serwerze Discord Midjourney.

Dyrektor generalny Midjourney, David Holz, opisał V7 jako „zupełnie inną architekturę” w poście na X. „V7 jest o wiele inteligentniejsze, jeśli chodzi o obsługę poleceń tekstowych” – Holz ogłosił dalej na Discordzie.

Zauważył, że model całkiem dobrze radzi sobie również z oryginalnymi zdjęciami. Jakość obrazu jest zauważalnie lepsza, a poziom szczegółowości wysoki. Od części ciała, takich jak dłonie i stopy, po piegi i wzory ceramiczne, wszystko jest spójne, aż po najdrobniejsze szczegóły.

Niektóre przykładowe obrazy zostały stworzone przy użyciu modelu V7. Zdjęcie: X/MidJourney.

Oprócz dwóch trybów: Turbo (droższego) i Relax, V7 obsługuje nowe narzędzie o nazwie Draft Mode, które pozwala na tworzenie obrazów nawet 10 razy szybciej i za połowę kosztów trybu standardowego. Obrazy w trybie Draft będą miały niższą jakość, ale użytkownicy mogą je skalować i tworzyć ponownie jednym kliknięciem.

Według Holza, niektóre standardowe funkcje Midjourney są obecnie niedostępne w wersji V7, w tym skalowanie i reteksturyzacja. Dodał, że funkcje te zostaną dodane w najbliższej przyszłości, prawdopodobnie w ciągu najbliższych dwóch miesięcy.

„To zupełnie nowy model z własnymi mocnymi stronami, a być może i kilkoma słabymi stronami” – napisał Holz na Discordzie. Zauważył, że wersja 7 może wymagać nowego stylu pisania w wierszu poleceń i zachęcił wszystkich do wypróbowania tej wersji, aby uzyskać konstruktywny feedback.

Reporter Techcrunch, Kyle Wiggers, skomentował, że V7 bez problemu wykonywał jego podstawowe polecenia. „Model Midjourney nie jest specjalnie zoptymalizowany pod kątem stylu Ghibli, przynajmniej oficjalnie, ale nadal może tworzyć estetyczne dzieła” – dodał.

Według ekspertów ds. sztucznej inteligencji z Wietnamu, funkcja generowania obrazu ChatGPT może być łatwiejsza i wygodniejsza w użyciu niż wcześniejsze narzędzia do generowania obrazu, takie jak MidJourney i Stable Diffusion. Jednak model OpenAI nie dokonał jeszcze przełomu w jakości obrazu i może być gorszy od poprzednich narzędzi.

Midjourney to dość wyjątkowa firma. Założona w 2022 roku przez Holza, współzałożyciela firmy produkującej urządzenia peryferyjne Leap Motion, Midjourney nigdy nie otrzymała żadnych zewnętrznych inwestycji.

Firma nie ujawnia również swoich wyników biznesowych, ale CBInsights szacuje, że przychody Midjourney na koniec 2023 roku wyniosą około 200 milionów dolarów . Niedawno firma ogłosiła, że tworzy zespół sprzętowy do pracy nad kilkoma nieujawnionymi projektami i kontynuuje szkolenie wcześniej ogłoszonych modeli w celu tworzenia filmów i obiektów 3D.

Podobnie jak ChatGPT, MidJourney mierzy się z kilkoma pozwami, w których zarzuca się naruszenie praw milionów artystów poprzez trenowanie narzędzi AI na obrazach pobranych z sieci bez zgody twórców obrazów.

Komentarz (0)