Vad är DALL·E 2?

DALL·E 2 är ett artificiell intelligensprogram som skapar bilder från textbeskrivningar, avslöjade på torsdagen av OpenAI, ett forskningsföretag.

Den använder en 12 miljarder parameterutbildningsversion av GPT-3-transformatormodellen för att tolka de naturliga språkinmatningarna och generera motsvarande bilder. Till exempel, när den försågs med meningen 'ett svartvitt foto av en liten hund' gav den en korrekt återgiven svartvit bild av en Chihuahua.

Systemet är inte perfekt – det producerar ibland bilder som är svåra att tolka, eller helt utanför marken. Till exempel, när den blev ombedd att skapa en bild av 'en person som cyklar på en enhjuling på lina över en vulkan', producerade det en (vacker, enligt min mening) men helt orelaterade bild av en solnedgång över vatten med en liten figur i förgrunden .

Ändå är resultaten imponerande, och OpenAI säger att DALL·E 2 'är den första AI-modellen som genererar bilder från textbeskrivningar som kan konkurrera med kvaliteten hos professionella mänskliga konstnärer.'

Systemet tränades på en datauppsättning av text-bildpar, bestående av cirka 1,3 miljoner bilder och bildtexter från Internet som skrapats och kurerats av OpenAI. Träningsdatan användes sedan för att finjustera GPT-3-modellen så att den kunde generera bilder från textbeskrivningar.

OpenAI säger att systemet kan generera 'högkvalitativa' bilder från ett brett utbud av textbeskrivningar, inklusive de som är abstrakta, konkreta eller till och med poetiska.

Förutom Chihuahua-exemplet inkluderar andra exempel på bilder producerade av DALL·E 2 ett korrekt renderat porträtt av Adolf Hitler, en bild av en drake gjord av grönsaker och en bild av Mona Lisa gjord av rostat bröd.

Systemet kan också generera bilder av saker som inte finns, till exempel en 'floof' (ett påhittat djur) eller en 'tulpa' (en tankeform).

Sammantaget är resultaten imponerande, och OpenAI säger att systemet 'öppnar upp nya möjligheter för att generera bilder från textbeskrivningar.'

FRÅN E 2 Detta CLIP-system konverterar textinformation till visuell information. Detta är ett kodare-avkodarparadigm, vilket innebär att när inmatad text tillhandahålls, konverteras den först till maskininmatning, bearbetas sedan av systemet och skickas slutligen till avkodaren, som omvandlar den kodade datan till en bild.

Vad är DALL E 2

Vad är DALL·E 2?

Detta är den senaste generationen av DALL·E, en generativ språkmodell som använder fraser för att skapa helt nya visuella effekter. DALL E 2 är en enorm 3,5V-modell, men inte lika massiv som GPT-3. Intressant nog är den också lättare än sin föregångare (12B). När det gäller beskrivningsanpassning och fotorealism är DALL·E 2 70 % bättre än DALL·E 2 trots sin större storlek.

DALL.E 2- förklaring för nybörjare med exempel

Specifikt är DALL·E 2 en hierarkisk modell för villkorlig textbildsyntes som kombinerar djupinlärning för naturlig språkbehandling med datorseende för bildgenerering. Dess mål är att träna två modeller, och träningssetet består av parade bilder och beskrivningar. Den första är a priori som, givet en skriven titel, kan tränas för att generera en CLIP-bildinbäddning. Vi har då en avkodare som, vid inbäddning av en CLIP-bild (och bildtext, om sådan finns), kan generera en tränad bild.

DALLE 2 är tränad med hjälp av hundratals miljoner foton med bildtexter från internet, och några av dessa bilder tas bort och blandas om för att ändra vad modellen lär sig. Den hämtar flera bildalternativ CLIP-tillbehör och sedan använda den avkodare gå igenom var och en av dem. Det skapar sedan en intressant blandning av all information givet användarens input.

Exempel DALL ÄR 2

Låt oss spela ett litet spel för att förstå DALL·E. Låt oss dela upp det i de kommande tre stegen.

Föreställ dig regnbågar, moln och enhörningar som flyger på den blå himlen. Föreställ dig hur en bild kan se ut i din fantasi. Människor är det närmaste vi har den perfekta analogen av en bildinbäddning, och bilden som precis dök upp i ditt huvud är ett perfekt exempel på det. Du kan bara gissa om slutprodukten, men du har en bra uppfattning om vad som ska ingå. A priori-modellen tar läsaren från orden i en fras till en scen i hans eller hennes fantasi.
Nu kan du börja rita. Vad unCLIP gör är att omvandla din mentala bild till en riktig skiss. Nu kan du exakt återskapa en annan karaktär från samma beskrivning, med samma grundläggande statistik, men med en helt ny visuell stil. DALL·E 2 kan också generera unika bilder från en befintlig bild inbäddad på detta sätt.
Var uppmärksam på skissen du gjorde. Detta är vad som händer när du skisserar beskrivningen av 'en enhörning mitt i molnen, och en regnbåge reser sig mot himlen.' Undersök nu bilden och texten för att avgöra vad som bäst illustrerar den andra (sol, hus, träd, etc.) och vad som bäst illustrerar ämnet, stilen, färgerna etc. Vad CLIP gör är att koda egenskaper. text och bilder.

Nu när vi vet vad DALL-E är, låt oss gå vidare till nästa avsnitt och förstå dess funktioner.

Dricks: Hur man skapar realistiska bilder med DALL-E-2 AI-tjänsten

Har DALL E 2

Nedan finns specifikationerna för DALL·E 2.

Variationer
Färg
Textskillnader

Låt oss prata om dem i detalj.

hur man gör visitkort i word 2010

1] Variationer

DALL·E 2 går längre än att bara översätta en mening till en bild. OpenAI kan experimentera med den generativa processen och producera olika resultat för en given signatur tack vare robusta CLIP-inbäddningar. Vad CLIP 'ser' i sitt 'sinne' är vad det anser vara viktigt från ingången (förblir densamma för alla bilder) och vad som kan ersättas (som ändras för olika bilder). När det är möjligt kommer DALL·E 2 att behålla både 'meningsfull information ... och estetiska aspekter'.

2] Färgläggning

DALL·E 2 kan modifiera befintliga foton med automatisk fyllning. I följande exempel är den vänstra bilden originalbilden, och mitt- och högerfotot har elementet ritat på olika ställen. DALL·E 2 matchar ytterligare ett element till bildstilen. Den uppdaterar också texturer och reflektioner för att återspegla det nya elementet.

Läsa : Vad kan du göra med ChatGPT

3] Textskillnader

DALL·E 2 konverterar bilder med hjälp av textskillnader. DALL·E 2 har också avancerade interpolationsmöjligheter som gör att du kan modifiera objekt. En Twitter-användare kunde 'unmordenize' sin iPhone. twitter.com att kolla upp det.

Om du gillar dessa funktioner är allt du behöver göra att gå till openai.com och registrera dig sedan. Du kan skapa ett nytt konto eller använda dina befintliga Microsoft- eller Google-konton för att registrera dig. När du väl gör det får du några gratiskrediter, vill du ha mer måste du betala för det.

Det här är några av funktionerna i DALL·E 2, den har många bra användningsfall, men det rekommenderas alltid att inte lita för mycket på AI-verktyg. De är trots allt inget annat än verktyg som används för att få jobbet gjort, de kan aldrig ersätta en persons känslomässiga intelligens.

Läs även: De bästa Deepfake-apparna, programvaran och webbplatserna.