Misasi see DALL·E 3 üldse on ja kuidas seda kasutada saab?

DALL·E 3 on OpenAI (just-just, sama seltskond kes on ka ChatGPT taga) loodud tehisintellekti mudel, mis on suudab genereerida visuaalseid kujutisi tekstiliste juhiste ehk promptide põhjal. DALLE 3 vanem “õde” (või “vend”) eksisteeris juba varem, kuid uuendatud versioon 3 on eelmistest kordi võimekam ja mitmekülgsem. Seega pakub DALL·E 3 järjest enam senisele turu parimale tegijale Midjourneyle kõvasti konkrentsi ja leiab järjest enam rakendust erinevates valdkondades, alates kunstiliste kujutiste loomisest kuni spetsiifiliste diagrammide, illustratsioonide või reklaammaterjali loomiseni välja. Nagu allpool lugeda saate, siis DALLE 3 ei ole lihtsalt digitaalne pliiats, vaid võimaldab kasutajatel üsna lihtsasti visualiseerida keerulisi ideid, andes neile vahendid mõistete ja narratiivide graafiliseks esitamiseks.

DALL·E 3 saavad kasutada kõik ChatGPT tasulise versiooni kasutajad või Bing Image Creator kasutajad.

ChatGPT-s näeb DALLE3 välja selline:

Dall-E 3 ChatGPT's - tehisintellekti abil saab luua pilte igaüks
Dall-E 3 ChatGPT's


Levinumad probleemid DALL·E 3 pildi promptide kirjutamisel

Täpsuse ja abstraktsuse tasakaal

Üks levinumaid väljakutseid promptide kirjutamisel DALL·E 3 jaoks on leida õige tasakaal täpsuse ja abstraktsuse vahel. Nimelt, liiga abstraktne prompt võib tehisintellektile (nagu ka inimesele) jätta ruumi erinevateks tõlgendusteks, mis kokkuvõttes võib kasutaja ootustele mitte vastavate visuaalideni.

Näiteks, kui kasutaja sisestab prompti "loodusmaastik", võib DALL·E 3 genereerida kõike alates kõrbevaatest kuni mägismaastikuni. Teisalt, ülemäära pikk ja detailne prompt võib olla kujutise loomisel jällegi piirav DALL·E 3-le kui kasutajale endale, sest jätab vähe ruumi loominguliseks üllatuseks.. Seega on oluline leida mõistlik kompromiss, mis sisaldab piisavalt detaile, et juhendada süsteemi, kuid jätta ka ruumi ka kunstilisteks eripäradeks.

Piirangute ja/või konteksti puudumine

Konteksti ja piirangute selge määramine on samuti oluline. Prompt, mis ei sisalda konteksti või mis on liiga laialivalguv, võib tulemuseks anda soovimatuid või ettearvamatuid pilte. Näiteks, kui sisestate prompti "koer palliga", võib DALL·E 3 luua pildi, kus koer hoopis närib palli, selle asemel, et seda püüda vms. Konteksti ja piirangute lisamine, nagu "koer, kes püüab lendavat palli päikeseloojangul", aitab soovitud visuaali kiiremi luua.

Stiili ja kompositsiooni määramatus

Kui võimalik, siis on oluline prompti kirja panna ka soovitud stiili ja kompositsioon. Näiteks võib kasutaja soovida pilti, mis on tehtud akvarelltehnikas või mis järgib kubistlikku stiili. Kui selliseid detaile ei lisata, on tulemuse stiil ja kompositsioon ettearvamatu. Lisaks tasub alati enne prompti kirjutamist läbi mõelda, et kas soovitud visuaalil on olulised ka vaatenurk, valgustus ja kaugus objektist. Kui nii, siis tuleks kõik suunised prompti abil võimalikult täpselt kirja panna.

Kuidas neid probleeme ikkagi vältida ja paremaid visuaale genereerida? Panen alljärgnevalt kirja mõned mõtted ja kui  soovite lugemise kõrvale ise katsetama hakata, siis logige kasvõi kohe ChatGPTsse või Bing Image Creatorisse sisse ja hakkake kaasa proovima :)


Kuidas luua Dall-E3-le paremaid prompte?

Loodud visuaal on juba päris äge, aga tihtipeale tekib soov loodud pilt kas huvitavamaks saada või siis mõni detail enda soovi järgi paremaks muuta. Siit mõned nipid, et kuidas seda paremini teha:

Ole võimalikult täpne

Kui su peas on olemas selge nägemus soovitavast tulemusest, siis pane see võimalikult täpselt kirja. Täpsus ei tähenda enamasti teksti pikkust, vaid selgelt sõnastatud ootust. Näiteks selle asemel, et kirjutada "lind puul", võiks öelda "sinine lind istub tammeoksal". Nii saad olla kindlam, et genereeritav pilt vastab rohkem sinu ootustele.

Sinine lind tammeoksal. Tehisintellekti abil saab luua pilte igaüks

Kasuta kirjeldavaid omadussõnu

Omadussõnade kasutamine aitab anda pildile rohkem sügavust ja konteksti. Näiteks "särav päikeseloojang" või "müstiline mets" võivad tekitada palju tugevama visuaalse mulje kui lihtsalt "päikeseloojang" või "mets".

Kirjelda ka pildil oleva stseeni tausta või lugu

Tihti unustatakse, et soovitud objekti ümber või taga on samuti midagi. Loodava “peategelase” tausta ja olukorra konteksti kirjeldamine aitab samuti kiiremini soovitud tulemuseni jõuda. Näiteks "laps mängib rannas palliga" annab tehisintellektile palju rohkem teavet kui lihtsalt "laps ja pall".

Täpsusta vaatenurka ja kadreeringut

Vaatenurga määramine võib pildil olevat kompositsiooni oluliselt mõjutada. Kas objekt on kujutatud lähedalt või kaugelt, ülevalt või alt. Kui sulle on need visuaali loomisel olulised, siis võiksid kohe prompti lisada. Kui visuaal peaaegu sobib, kuid midagi jääb “kripeldama”, siis võid proovida prompti vaatenurga või kadreeringu kirjeldamise abil täiendada.

Lisa näiteid tuntud teostest ja/või stiilidest

Kui endal on parasjagu loomeblokk ees, siis võib inspiratsiooni saamiseks kasutada tuntud kunstnike või kunstivoolude tunnuseid. Viidates tuntud kunstiteostele või fotodele võib aidata genereerida keerukamaid ja huvitavamaid pilte. Näiteks võiks kasutada prompti "Portree kollasest koerast, Salvador Dali stiilis".

Koer Salvador Dali stiilis. Tehisintellekti abil saab luua pilte igaüks

Eelista võimalusel lühemat prompti

Täpne ja konkreetne prompt ei tähenda alati seda, et kõik peas olevad mõtted tuleks detailselt kirja panna. Liiga pikk ja keeruline prompt võib algoritmi segadusse ajada. Parema tulemuse saamiseks püüa sõnastada prompt lühidalt, kuid detailirohkelt. Oma kogemuse pealt saan öelda, et visuaali loomiseks on parim prompti pikkus umbes 3-4 lauset.

Kuidas DALL·E 3 jaoks need promptid kirja panna?

Eri tüüpi promptid võimaldavad kasutajal väljendada erinevaid eesmärke ja soove visuaalide loomiseks. Siit viis peamist prompti tüüpi, mis on kasulikud DALL·E 3 pildigeneraatori kasutamisel.

Kirjeldavad promptid

Kirjeldavad promptid keskenduvad objektide ja stseenide kirjeldamisele. Need on tavaliselt väga konkreetsed ja sisaldavad mitmeid detaile, mis aitavad luua täpse pildi.

Näide: "Punane jalgratas seisab kollase maja ees, mille aknal on lilla kardin."

Jutustavad promptid

Jutustavad promptid lisavad pildile loo või konteksti. Need võivad olla pikemad ja sisaldada mitu lauset, mis seovad kokku erinevaid elemente.

Näide: "Laps istub kaldal ja vaatab päikeseloojangut, samal ajal kui tema koer mängib rannas palliga."

Metafoorsed promptid

Metafoorsed promptid võimaldavad kasutada kujundlikku keelt, et tekitada abstraktsemaid või sügavamaid tähendusi.

Näide: "Kell, mis tiksub aeglaselt sügavas ookeanis, kujutades endas aja suhtelisust."

Tehisintellekti abil saab luua pilte igaüks. Kasuta näiteks Dall-E 3'e

Kontseptuaalsed promptid

Kontseptuaalsed promptid keskenduvad laiematele ideedele või teemadele. Need võivad olla abstraktsemad ja võivad nõuda vaatajalt rohkem tõlgendamist.

Näide: "Inimõiguste puu, mille oksad on erinevad põhiõigused ja juured on demokraatia."

Stiilipõhised promptid

Stiilipõhised promptid keskenduvad konkreetsele kunstilisele stiilile või tehnikale. Neid saab kasutada, et mõjutada pildi üldist väljanägemist, mitte ainult selle sisu.

Näide: "Pariisi öövaade impressionistlikus stiilis."

Iga prompti tüüp toob endaga kaasa oma unikaalsed võimalused ja piirangud. Oluline on mõista nende erinevusi ja kasutusala, et saavutada DALL·E 3 või teiste pildigeneraatoritega soovitud tulemus.

Lisanipid DALL·E 3 piltide tuunimiseks

Kui olete juba veidi katsetanud ning oma soovides nõudlikumaks läinud, siis siin on lisaks ülaltoodud nõuannetele veel mõned nipid, kuidas DALL·E 3 pilte paremaks saada.

Formaadi määramine

Mitmed DALL·E 3 versioonid ja/või kasutajaliidesed võimaldavad määrata ka pildi formaati.

Kui kasutad Dall-E3 läbi ChatGPT, siis saad määrata, kas pilt esitatakse ruudu (1024x1024 pikslit), portree (1024x1792 pikslit) või laiformaadina (1792x1024 pikslit). Kasutage selleks oma promptis siis kas inglise või eestikeelseid täpsustusi.  

Näiteks: “Kevadiselt lilleõites aas, hommikuses udus, laiformaat pildina”.

Variatsioonide kasutamine

DALL·E 3 võimaldab tavaliselt samast promptist mitmed erinevaid variante genereerida. Kui loodud visuaali puhul suurem osa on meelepärane, kuid midagi jääb silma kriipima, siis .... Pea meeles, et kui kasutad Dall-E3 läbi ChatGPT, siis ChatGPT ise juba varieerib sinu prompte veidi.

Piltide resolutsiooni parandamine (upscaling)

Kui genereeritud pilt ei vasta soovitud resolutsioonile, võib selle erinevate pilditöötlusvahendite abil üles skaleerida. Need, kellel on Adobe loovvahendite litsentsid, leiavad üles skaleerimise näiteks Adobe Lightroomist. Lisaks on kiidusõnu saanud Topaz Labsi upscaler. Mina ise kasutan hoopis ühte vabavara nimega SwinIR, mis annab samuti väga häid tulemusi.

Kokkuvõte

Kokkuvõtvalt, AI’ga piltide loomisel ei ole mingeid erilisi salanippe. Vast kõige keerulisem osa ongi oma visiooni konkreetsesse sõnastusse seadmine. Klassikaline “tee see pilt ägedamaks!” ei aita ei inimkujundajat ega ka mitte tehisintellekti.

Loodetavasti need mõned soovitused ülal aitavad teil teha esimesi samme ja vältida mõningaid tüüpilisemaid vigasid (mida ma ka ise teinud olen), kuid parimate tulemuste saavutamiseks on muidugi vaja lihtsalt proovida ja harjutada. :)

Seega head katsetamist ja harjutamist!