Co to jest DALL·E 2?

DALL·E 2 to program sztucznej inteligencji, który tworzy obrazy z opisów tekstowych, ujawniony w czwartek przez firmę badawczą OpenAI.

Wykorzystuje 12-miliardową wersję uczącą parametrów modelu transformatora GPT-3 do interpretacji danych wejściowych w języku naturalnym i generowania odpowiednich obrazów. Na przykład, gdy podano zdanie „czarno-białe zdjęcie małego psa”, generowało prawidłowo renderowany czarno-biały obraz chihuahua.

System nie jest doskonały — czasami tworzy obrazy, które są trudne do interpretacji lub zupełnie nietrafione. Na przykład, gdy poproszono o wygenerowanie obrazu „osoby jadącej na monocyklu po linie nad wulkanem”, wytworzył (moim zdaniem piękny), ale zupełnie niepowiązany obraz zachodu słońca nad wodą z małą postacią na pierwszym planie .

Mimo to wyniki są imponujące, a OpenAI twierdzi, że DALL·E 2 „jest pierwszym modelem AI generującym obrazy z opisów tekstowych, które mogą dorównać jakością profesjonalnym artystom”.

System został przeszkolony na zbiorze danych par tekst-obraz, składającym się z około 1,3 miliona obrazów i podpisów z Internetu, które zostały zeskrobane i opracowane przez OpenAI. Dane treningowe zostały następnie wykorzystane do dostrojenia modelu GPT-3, tak aby mógł generować obrazy z opisów tekstowych.

OpenAI twierdzi, że system może generować obrazy „wysokiej jakości” z szerokiej gamy opisów tekstowych, w tym abstrakcyjnych, konkretnych, a nawet poetyckich.

Oprócz przykładu Chihuahua, inne przykłady obrazów wyprodukowanych przez DALL·E 2 obejmują poprawnie wyrenderowany portret Adolfa Hitlera, obraz smoka wykonany z warzyw oraz obraz Mona Lisy wykonany z grzanki.

System jest również w stanie generować obrazy rzeczy, które nie istnieją, takie jak „floof” (wymyślone zwierzę) lub „tulpa” (myślokształt).

Ogólnie rzecz biorąc, wyniki są imponujące, a OpenAI twierdzi, że system 'otwiera nowe możliwości generowania obrazów z opisów tekstowych'.

Z E2 Ten System CLIP konwertuje informacje tekstowe na informacje wizualne. Jest to paradygmat koder-dekoder, co oznacza, że po wprowadzeniu tekstu jest on najpierw konwertowany na dane wejściowe maszyny, następnie przetwarzany przez system, a na koniec przekazywany do dekodera, który przekształca zakodowane dane w obraz.

Co to jest DALL E2

Co to jest DALL·E 2?

To najnowsza generacja DALL·E, generatywnego modelu językowego, który używa fraz do tworzenia zupełnie nowych efektów wizualnych. DALL E 2 to ogromny model 3,5 V, choć nie tak masywny jak GPT-3. Co ciekawe, jest też lżejszy od swojego poprzednika (12B). Pod względem wyrównania opisu i fotorealizmu DALL·E 2 jest o 70% lepszy niż DALL·E 2, pomimo większych rozmiarów.

DALL.E 2- wyjaśnienie dla początkujących z przykładami

W szczególności DALL·E 2 jest hierarchicznym, warunkowym modelem syntezy obrazów tekstowych, który łączy głębokie uczenie się do przetwarzania języka naturalnego z wizją komputerową do generowania obrazów. Jego celem jest wytrenowanie dwóch modeli, a zestaw treningowy składa się ze sparowanych zdjęć i opisów. Pierwszy to a priori, który, biorąc pod uwagę pisemny tytuł, można wyszkolić do generowania osadzonego obrazu CLIP. Mamy wtedy dekoder, który podczas osadzania obrazu CLIP (i podpisu, jeśli jest obecny), może wygenerować przeszkolony obraz.

DALLE 2 jest szkolony przy użyciu setek milionów zdjęć z podpisami z Internetu, a niektóre z tych zdjęć są usuwane i ponownie tasowane, aby zmienić to, czego uczy się model. Pobiera wiele opcji obrazu Załączniki CLIP a następnie użyj go dekoder przejść przez każdą z nich. Następnie tworzy interesującą mieszankę wszystkich tych informacji, biorąc pod uwagę dane wprowadzone przez użytkownika.

Przykład DALL IS 2

Zagrajmy w małą grę, aby zrozumieć DALL·E. Podzielmy to na kolejne trzy kroki.

Wyobraź sobie tęcze, chmury i jednorożce latające po błękitnym niebie. Wyobraź sobie, jak mógłby wyglądać obraz w Twojej wyobraźni. Ludzie są najbliższą rzeczą, jaką mamy, idealną analogią osadzonego obrazu, a obraz, który właśnie pojawił się w twojej głowie, jest tego doskonałym przykładem. Możesz tylko zgadywać o produkcie końcowym, ale masz dobre pojęcie o tym, co powinno się znaleźć. Model aprioryczny prowadzi czytelnika od słów w zdaniu do sceny w jego wyobraźni.
Teraz możesz zacząć rysować. To, co robi unCLIP, to przekształcenie twojego mentalnego obrazu w prawdziwy szkic. Teraz możesz dokładnie odtworzyć inną postać z tego samego opisu, z tymi samymi podstawowymi statystykami, ale z zupełnie nowym stylem wizualnym. DALL·E 2 może również generować unikalne obrazy z istniejącego obrazu osadzonego w ten sposób.
Zwróć uwagę na wykonany szkic. Tak się dzieje, gdy naszkicujesz opis „jednorożca pośrodku chmur i tęczy wznoszącej się na tle nieba”. Teraz przyjrzyj się obrazowi i tekstowi, aby określić, co najlepiej ilustruje inne (słońce, dom, drzewo itp.), a co najlepiej ilustruje temat, styl, kolory itp. Funkcja CLIP polega na kodowaniu cech. tekst i obrazy.

Teraz, gdy wiemy, czym jest DALL-E, przejdźmy do następnej sekcji i poznajmy jego funkcje.

Wskazówka: Jak tworzyć realistyczne obrazy za pomocą usługi AI DALL-E-2

Zawiera DALL E 2

Poniżej znajdują się specyfikacje DALL·E 2.

Wariacje
Kolorowanie
Różnice tekstowe

Porozmawiajmy o nich szczegółowo.

jak robić wizytówki w słowie 2010

1] Wariacje

DALL·E 2 wykracza poza zwykłe tłumaczenie zdania na obraz. OpenAI może eksperymentować z procesem generatywnym, uzyskując różne wyniki dla danej sygnatury dzięki solidnym osadzeniom CLIP. To, co CLIP „widzi” w swoim „umyśle”, jest tym, co uważa za ważne z danych wejściowych (pozostaje takie samo dla wszystkich obrazów) i co można zastąpić (co zmienia się dla różnych obrazów). Tam, gdzie to możliwe, DALL·E 2 zachowa zarówno „istotne informacje… jak i aspekty estetyczne”.

2] Kolorowanie

DALL·E 2 może modyfikować istniejące zdjęcia za pomocą automatycznego wypełniania. W poniższym przykładzie obraz po lewej stronie jest obrazem oryginalnym, a na środkowym i prawym zdjęciu element jest narysowany w różnych miejscach. DALL·E 2 dopasowuje dodatkowy element do Stylu obrazów. Aktualizuje również tekstury i odbicia, aby odzwierciedlić nowy element.

Czytać : Co możesz zrobić z ChatGPT

3] Różnice w tekście

DALL·E 2 konwertuje obrazy przy użyciu różnic tekstowych. DALL·E 2 posiada również zaawansowane możliwości interpolacji, które pozwalają modyfikować obiekty. Jeden użytkownik Twittera był w stanie „odmordować” swojego iPhone'a. twitter.com aby to sprawdzić.

Jeśli podobają Ci się te funkcje, wszystko, co musisz zrobić, to przejść do openai.com a następnie zarejestruj się. Możesz utworzyć nowe konto lub użyć istniejących kont Microsoft lub Google, aby się zarejestrować. Gdy to zrobisz, otrzymasz darmowe kredyty, jeśli chcesz więcej, musisz za to zapłacić.

To tylko niektóre z cech DALL·E 2, ma wiele świetnych zastosowań, jednak zawsze zaleca się, aby nie polegać zbytnio na narzędziach AI. W końcu są tylko narzędziami służącymi do wykonania pracy, nigdy nie zastąpią inteligencji emocjonalnej człowieka.

Przeczytaj także: Najlepsze aplikacje, oprogramowanie i strony internetowe Deepfake.