Se non sai dirlo, non sai farlo
Modelli come DALL-E 2, Midjourney e Stable Diffusion permettono di ottenere immagini realistiche e creative a partire da semplici descrizioni testuali. Alla base di questa capacità ci sono i concetti di prompt positivo e negativo. Questo articolo affronta la definizione di tali concetti e propone alcuni spunti di riflessione in merito allo stato di fatto e ai suoi possibili sviluppi.
Tu Vuò Fà L'Ammericano
Tutti gli esempi riportati nell'articolo sono in inglese perché, sebbene i principali sistemi generativi accettino anche prompt in italiano, i risultati migliori si ottengono costruendo i comandi nella loro lingua madre.
La Via del Rinoceronte
Le vicende del Rinoceronte di Dürer sono note: nel 1515, anno in cui Dürer realizzò la sua famosa stampa, l'animale era sconosciuto in Europa e l'autore non aveva mai avuto occasione di vederne uno, ma ne conobbe la descrizione contenuta in una lettera inviata da Lisbona a Norimberga e su questa base eseguì l'incisione con la tecnica della xilografia su legno. A distanza di 500 anni, abbiamo elevato una fortuita coincidenza a metodo creativo.
Un prompt, nel contesto delle Intelligenze Artificiali Generative, è un'istruzione in linguaggio naturale che fornisce al sistema le informazioni necessarie per creare un'immagine.
La descrizione dell'immagine che si vuole ottenere è un prompt positivo. Ad esempio, se vogliamo generare immagini di paesaggi montani, un prompt positivo potrebbe essere:
Mountain landscape with blue sky and some trees around the shore of a lake
In questo caso, molto elementare, il prompt positivo specifica le caratteristiche desiderate dell'immagine, come il tipo di paesaggio, i colori predominanti e gli elementi presenti.
Anche un prompt negativo è una istruzione in linguaggio naturale, che descrive però gli aspetti da evitare nell'immagine.
Ad esempio, riutilizzando il prompt positivo dell'immagine precedente e aggiungendone uno negativo, composto solo dai termini cloud
e clouds
, otteniamo un risultato molto simile, ma con un cielo privo di nubi.
Non tutti i modelli comprendono e interpretano correttamente i prompt negativi. Ad esempio Stable Diffusion XL, che pure dovrebbe supportarli, appare a volte piuttosto impermeabile alle dichiarazioni negative, per motivi non ancora chiarissimi.
I prompt positivi, se correttamente formulati, non debbono necessariamente raffigurare situazioni "sensate": anche la surreale richiesta di un cavallo in una tuta da astronauta viene correttamente interpretata.
Full body photo of a horse in a space suit, Kenneth x Dall-E (2023, immagine di repertorio)
La sola cosa importante è che i prompt siano formulati in modo sufficientemente chiaro per essere intesi senza fraintendimenti dal modello in uso. Più il prompt è preciso e migliore sarà l'immagine generata.
Il peso del gatto e quello di Picasso
Quasi tutti i sistemi e i modelli più avanzati permettono di raffinare i risultati ottenibili attraverso l'uso di "pesi" — ovvero valori numerici che vanno riportati in modi specifici e variabili da modello a modello — che indicano quanta attenzione deve essere riservata ad un determinato soggetto, in relazione agli altri componenti dell'immagine.
Ad esempio, usando un prompt molto semplice come A cat by Picasso
in Midjourney, si ottiene un risultato simile.
Midjourney comprende il prompt e decide autonomamente da quanto "gatto" e da quanto "Picasso" deve essere composta l'immagine. Ma se scriviamo invece: A cat:: by Picasso::
imponiamo a Midjourney di dare la medesima importanza ai due termini fondamentali e i risultati ottenuti esprimono in maniera più chiara lo stile del pittore.
Se poi usiamo A cat:: by Picasso::.5
dimezziamo il peso di "Picasso" in relazione a quello di "gatto" e i risultati ottenuti, pur mantenendo una certa riconoscibilità stilistica, esprimono con forza minore l'influenza dell'autore di riferimento.
I pesi possono essere applicati tanto ai prompt positivi quanto ai prompt negativi e ogni modello usa sintassi sue proprie, di solito facilmente rinvenibili nella manualistica di riferimento.
Prompt Engineering e olio di serpente
Da quanto esposto sinora, dovrebbe apparire chiaro come la formulazione di un prompt davvero efficace sia cruciale per ottenere risultati specifici e da qualche tempo si è iniziato a considerare il prompt engineering, ovvero l'insieme dei metodi e dei processi di progettazione e formulazione di prompt, come di una vera e propria disciplina che potrebbe prefigurare una professione completamente nuova.
A centinaia di siti che promettono il "copia&incolla" definitivo, si sono affiancati altrettanti libri e corsi specifici.
Ma nella gran parte dei casi, tutte queste offerte sono poco più di quel che negli Stati Uniti viene chiamato "olio di serpente": marketing al limite del truffaldino che propone prodotti inefficaci, quando non dannosi.
A vintage snake oil bottle with some leaflets
.La verità è che l'unico metodo per costruire prompt efficaci si compone di tre soli elementi: cultura nell'ambito di riferimento, buona padronanza linguistica e una pazienza a prova di bomba.
L'esigenza di una solida cultura non dovrebbe avere bisogno di molte spiegazioni: se avete necessità di ottenere l'immagine di un quadro che evochi lo stile di Turner e non siete in grado di ricordare almeno qualche sua opera e qualche artista suo coetaneo, sarà difficile che riusciate a ottenere quello che state cercando.
Allo stesso modo, se non avete sufficiente padronanza linguistica per sapere esprimere con precisione l'idea che vi abita, sarà improbabile che riuscirete a trasformarla in una immagine condivisibile.
La pazienza e un pizzico d'intuito vi saranno poi necessari per comprendere eventuali blocchi nella comunicazione col sistema e il metodo migliore per rimuoverli o aggirarli, mentre state battendo la pista in caccia di una preda avvistata, ma non ancora afferrata.
Non esistono parole o combinazioni di parole standard che possano garantire risultati certi, un po' come non esistono più keyword che possano garantire in eterno il primo posto sulla pagina dei risultati di Google. E per quanto riguarda il prompt engineering come professione del futuro, dovrebbe bastare la lettura di questo articolo del prof Oguz A. Acar, titolare della cattedra di Marketing presso la King's Business School al King's College di Londra. Meglio scommettere su qualcosa di più solido...
Logicamente, la lettura della documentazione di riferimento è sempre obbligatoria, ad esempio per saper controllare bene i pesi dei soggetti, ma ciò di cui avrete davvero bisogno per scrivere un buon prompt sono un grande amore verso Arte e Cultura, la curiosità d'un bambino e la tenacia di un cane da tartufi.
Amore per Arte e Cultura, gioiosa curiosità e tenacia nella ricerca dei risultati non sono qualità molto diffuse di questi tempi e ciò potrebbe spiegare perché, pur disponendo di strumenti tanto potenti da sembrare quasi magici, per ora ne stiamo cavando soprattutto banalità. Il fake di una personalità pubblica lo può generare qualsiasi sciocco, in pochi istanti, ma quanti saprebbero costruire il prompt corretto per ottenere qualcosa di simile ai quadri di Wolfe von Lenkiewicz?
Aiutare la maturazione delle capacità necessarie a saper dire correttamente ciò che si vorrebbe fare mi sembra un ottimo punto di partenza per una didattica in questo ambito.
Il resto, è tutto da inventare.