Po raz pierwszy Midjourney zapewnia spójne osobowości w publicznych obrazach AI

Dołącz do Liderów w Bostonie 27 marca na ekskluzywną noc networkingu, pomysłów i rozmów. Poproś o zaproszenie tutaj.

Słynna usługa generowania obrazów sztucznej inteligencji W połowie lotu Wprowadzono jedną z najbardziej oczekiwanych funkcji: możliwość spójnego odtwarzania postaci na nowych obrazach.

Z natury było to dotychczas główną przeszkodą dla generatorów obrazów AI.

Dzieje się tak, ponieważ większość generatorów obrazów AI opiera się na „Modele dyfuzyjne„, narzędzia podobne lub oparte na algorytmie generowania obrazów typu open source Stability AI Stable Diffusion, który działa z grubsza na podstawie tekstu wprowadzonego przez użytkownika i próbuje złożyć obraz piksel po pikselu pasujący do tego opisu, tak jak to odkryliśmy wyciągnąłem wnioski z podobnych eksperymentów z obrazami i znacznikami tekstowymi w grupie Ogromne (i kontrowersyjne) dane szkoleniowe obejmujące miliony obrazów generowanych przez ludzi.

Dlaczego spójne osobowości są tak potężne – i nieuchwytne – dla generatywnej sztucznej inteligencji

Jednakże, podobnie jak w przypadku dużych modeli języka tekstowego (LLM), takich jak ChatGPT OpenAI lub nowy Command-R Cohere, problemem wszystkich generatywnych aplikacji AI jest niespójność odpowiedzi: sztuczna inteligencja generuje coś nowego dla każdego wprowadzonego w niej monitu , nawet jeśli twierdzenie się powtarza lub używane są te same słowa kluczowe.

Wydarzenie V.B

Wycieczka pod wpływem sztucznej inteligencji – Boston

Nie możemy się doczekać kolejnego przystanku AI Impact Tour w Bostonie 27 marca. To ekskluzywne, sponsorowane wydarzenie organizowane we współpracy z firmą Microsoft obejmie dyskusje na temat najlepszych praktyk w zakresie integracji danych w roku 2024 i później. Liczba miejsc jest ograniczona, dlatego poproś o zaproszenie już dziś.

Poproś o zaproszenie

Świetnie nadaje się do tworzenia zupełnie nowych treści – w przypadku Midjourney obrazów. Ale co, jeśli tworzysz film, powieść, powieść graficzną, komiks lub inne media wizualne, które lubisz Ten sam Postać lub postacie, po których można się poruszać i pojawiać w różnych scenach i sceneriach, z różnymi wyrazami twarzy i rekwizytami?

READ Mac to potężne narzędzie

Dokładny scenariusz, który jest zwykle niezbędny do zapewnienia ciągłości narracji, był bardzo trudny do osiągnięcia przy użyciu generatywnej sztucznej inteligencji – aż do teraz. Ale Midjourney pracuje teraz nad tym problemem, wprowadzając nowy znacznik „–cref” (skrót od „odniesienie do znaku”), który użytkownicy mogą dodać na końcu podpowiedzi tekstowych w Midjourney Discord i będzie próbował dopasować twarz postaci. Cechy, typ sylwetki, a nawet ubiór z adresu URL, który użytkownik wkleja w kolejnym wspomnianym tagu.

W miarę rozwoju i ulepszania tej funkcji, Midjourney może przestać być fajną grą lub źródłem pomysłów i stać się bardziej profesjonalnym narzędziem.

Jak korzystać z nowej, spójnej funkcji osobowości Midjourney

Tag działa najlepiej z wcześniej utworzonymi obrazami Midjourney. Na przykład przepływ pracy użytkownika polegałby na utworzeniu lub pobraniu adresu URL wcześniej wygenerowanej postaci.

Zacznijmy od zera i powiedzmy, że tworzymy nową postać za pomocą tej podpowiedzi: „Łysy, muskularny mężczyzna z koralikiem i przepaską na oku”.

Uaktualnimy obraz, który nam się najbardziej podoba, a następnie klikniemy go z klawiszem Control na serwerze Midjourney Discord, aby znaleźć opcję „Kopiuj link”.

Następnie możemy napisać nowy monit w „Załóż biały smoking, stojąc w willi -cref”. [URL]” i wklej adres URL właśnie utworzonego obrazu, a Midjourney spróbuje utworzyć tę samą postać co poprzednio w nowo wpisanych ustawieniach.

Jak zobaczysz, wyniki są dalekie od oryginalnych danych (ani nawet naszych pierwotnych twierdzeń), ale z pewnością są zachęcające.

Ponadto użytkownik może w pewnym stopniu kontrolować „wagę” tego, jak bardzo nowy obraz jest tworzony względem oryginalnego znaku, poprzez zastosowanie flagi „-cw”, po której następuje liczba od 1 do 100 na końcu nowego znaku zachęty ( po „-cref [URL]”, więc tak: „-cref [URL] – CW 100.” Im niższa liczba „CW”, tym większy kontrast uzyskanego obrazu. Im wyższa liczba „CW”, tym nowy wynikowy obraz bardziej odpowiada oryginalnemu wzorcowi.

READ Jack i Daxter są „przenoszeni” z PS2 na PC przez fanów

Jak widać w naszym przykładzie, bardzo niskie wprowadzenie „cw 8” faktycznie zwróciło to, czego chcieliśmy: biały smoking. Chociaż teraz usunął charakterystyczną opaskę na oku naszej postaci.

Cóż, nie ma niczego, czego „inny obszar” nie mógłby naprawić – prawda?

Cóż, przepaska została założona na niewłaściwe oko… ale udało się!

Możesz także połączyć wiele znaków w jeden, używając dwóch znaczników „–cref” wraz z ich odpowiednimi adresami URL.

Funkcja została uruchomiona dziś wieczorem, ale artyści i twórcy testują ją już teraz. Wypróbuj sam, jeśli masz Midjourney. Przeczytaj także pełną notatkę założyciela Davida Holza na ten temat poniżej:

Cześć @wszyscy tutaj, testujemy dzisiaj nową funkcję Odniesienia do znaku. Jest ona podobna do funkcji Odniesienia do wzorca, z tą różnicą, że zamiast dopasowywać wzorzec odniesienia, próbuje dopasować znak do obrazu Odniesienia do znaku.

Jak to działa

On pisze --cref URL Po wyświetleniu monitu o podanie adresu URL zdjęcia profilowego
możesz użyć --cw Aby dostosować „siłę” odniesienia od 100 do 0
Siła 100 (--cw 100) Domyślny i używa twarzy, włosów i ubrania
(zdecydowanie 0)--cw 0) skupi się tylko na twarzy (dobre do zmiany ubrania/włosów itp.)

Do czego to służy

Ta funkcja działa najlepiej, gdy używasz postaci utworzonych z obrazów Midjourney. Nie jest przeznaczony dla prawdziwych ludzi/obrazów (i prawdopodobnie zniekształci je, tak jak robią to normalne podpowiedzi dotyczące obrazów)
Cref działa podobnie do zwykłych podpowiedzi obrazkowych, z tą różnicą, że „koncentruje się” na cechach charakteru
Dokładność tej techniki jest ograniczona, nie odwzorowuje ona dokładnie dołków/piegów/logo koszuli.
Cref współpracuje ze zwykłymi modelami Niji i MJ, ale można go również łączyć z --sref

Zaawansowane opcje

Możesz użyć więcej niż jednego adresu URL, aby wymieszać informacje/znaki z wielu obrazów takich jak ten --cref URL1 URL2 (Jest to podobne do monitów o wiele obrazów lub stylów)

Jak to działa w Alpha Web?

Przeciągnij lub wklej obraz na pasek wizualizacji, gdzie zawiera teraz trzy ikony. Określ te grupy, niezależnie od tego, czy są to wektor obrazu, odniesienie do stylu, czy odniesienie do znaku. Shift+Wybierz opcję użycia obrazu w wielu kategoriach

Pamiętaj, chociaż MJ V6 jest w fazie alfa, inne funkcje mogą się nagle zmienić, ale oficjalna wersja beta V6 już wkrótce. Chcielibyśmy podzielić się przemyśleniami wszystkich na temat pomysłów i funkcji. Mamy nadzieję, że spodoba ci się ta wczesna wersja i że pomoże ci ona w budowaniu historii i światów

Misja VentureBeat Ma być cyfrowym rynkiem, na którym decydenci techniczni będą mogli zdobywać wiedzę na temat technologii transformacyjnych i transakcyjnych dla przedsiębiorstw. Odkryj nasze podsumowania.

READ Microsoft rozpoczyna testowanie systemu Windows 11 24H2 wraz z debiutem tegorocznej dużej aktualizacji

Konrad Borkowski

„Subtelnie czarujący nerd popkultury. Irytująco skromny fanatyk bekonu. Przedsiębiorca”.

Dlaczego spójne osobowości są tak potężne – i nieuchwytne – dla generatywnej sztucznej inteligencji

Wydarzenie V.B

Jak korzystać z nowej, spójnej funkcji osobowości Midjourney

Ta ładowarka GaN o mocy 100 W jest cienka i składana

Plaud wypróbowuje prostszy pin AI

Stare i nowe procesory Ryzen zyskują większą prędkość dzięki opcjonalnej aktualizacji systemu Windows

Yelp pozywa Google za naruszenie przepisów antymonopolowych

Krokodyl i rekin pożarły prehistoryczną krowę morską, odsłaniając skamielinę

Ta ładowarka GaN o mocy 100 W jest cienka i składana

Plaud wypróbowuje prostszy pin AI

Dlaczego spójne osobowości są tak potężne – i nieuchwytne – dla generatywnej sztucznej inteligencji

Wydarzenie V.B

Jak korzystać z nowej, spójnej funkcji osobowości Midjourney

Dodaj komentarz Anuluj pisanie odpowiedzi

More Stories

Ta ładowarka GaN o mocy 100 W jest cienka i składana

Plaud wypróbowuje prostszy pin AI

Stare i nowe procesory Ryzen zyskują większą prędkość dzięki opcjonalnej aktualizacji systemu Windows

You may have missed

Yelp pozywa Google za naruszenie przepisów antymonopolowych

Krokodyl i rekin pożarły prehistoryczną krowę morską, odsłaniając skamielinę

Ta ładowarka GaN o mocy 100 W jest cienka i składana

Plaud wypróbowuje prostszy pin AI