I generatori di immagini dotati di intelligenza artificiale stanno spopolando

Strumenti di I.A. come DALL-E, in grado di generare immagini a partire da un input di testo, stanno diventando molto popolari per chi crea contenuti, ma sono anche preoccupanti per gli artisti che temono di essere sostituiti da un’I.A. Tuttavia, dopo la diffusione di DALL-E sono nati nuovi strumenti e Midjourney sembra il suo primo concorrente.

Secondo Vice, Midjourney ha lanciato la sua versione beta riservata, consentendo a chiunque di creare un account e creare rendering fantastici ed in modo gratuito anche se limitati ad un certo numero. Il sistema, che è all’altezza di DALL-E nella capacità di produrre rendering fantastici e talvolta inquietanti, è stato sottoposto a uno stress test in seguito all’afflusso di nuovi utenti.

Rispetto a DALL-E, Midjourney sembra avere uno spiccato talento nell’allestire le scene, in particolare le ambientazioni fantascientifiche e distopiche, con un’illuminazione drammatica che ricorda i concept art realistici di un videogioco. È anche incredibilmente efficace nel creare bizzarre fusioni che imitano molti movimenti artistici.

Il test ha dato il via a una beta completamente libera, che consente a chiunque di iscriversi e unirsi al canale Discord del progetto. La beta funziona interamente tramite Discord: gli utenti digitano le loro richieste direttamente nell’interfaccia della chat e ricevono messaggi da un bot che mostra il rendering delle loro generazioni in tempo reale. Gli utenti possono quindi scegliere di ingrandire e migliorare un’immagine da ogni serie di generazioni, o creare più varianti a partire dallo stesso prompt.

Tuttavia, a ogni utente è consentito solo un certo numero di generazioni durante questo periodo di “prova gratuita” prima che il bot chieda di abbonarsi. Per uso non commerciale, il piano più economico costa 10 dollari al mese e offre 200 foto; il piano più costoso costa 30 dollari al mese e offre infinite generazioni. (I creatori di DALL-E hanno recentemente interpellato i beta tester sui potenziali prezzi e hanno anche intenzione di far pagare l’accesso al loro strumento di intelligenza artificiale).

Il requisito che chiunque utilizzi le foto generate in “qualsiasi cosa legata alle tecnologie blockchain” paghi una royalty del 20% su qualsiasi guadagno superiore a 20.000 dollari al mese è un altro modo utilizzato da Midjourney per scoraggiare le persone dal coniare NFT.

Mentre i creatori di DALL-E si sono sforzati di ridurre alcune delle distorsioni nel processo di addestramento che sono intrinseche a questi modelli, tra cui i contenuti violenti e sessuali, Midjourney non ha fatto alcuna rivelazione riguardo ai set di dati e alle tecniche utilizzate per addestrare il suo strumento di intelligenza artificiale e non sembra avere alcuna protezione esplicita dei contenuti oltre al blocco automatico di parole chiave specifiche. Mentre i creatori di DALL-E si sono sforzati di ridurre alcune delle distorsioni nel processo di addestramento che sono insite in questi modelli, tra cui i contenuti violenti e sessuali, Midjourney non ha fatto alcuna rivelazione riguardo ai set di dati e alle tecniche utilizzate per addestrare il suo strumento di intelligenza artificiale e non sembra avere alcuna protezione esplicita dei contenuti oltre al blocco automatico di parole chiave specifiche. Tuttavia, la censura a monte potrebbe portare a un uso limitato dello strumento, anche laddove non vi siano intenzioni malevole, ma solo artistiche. È anche vero però che poter produrre materiale estremamente realistico con contenuti violenti che coinvolga persone reali sarebbe deleterio, ma uno stesso contenuto in uno stile chiaramente non realistico lo sarebbe sicuramente meno.

La sezione “Contenuti e moderazione” della guida per l’utente di Midjourny fornisce agli utenti istruzioni su come evitare di creare contenuti visivamente scioccanti o inquietanti, compreso il materiale per adulti e il gore, nonché su come evitare di creare immagini o utilizzare messaggi di testo intrinsecamente irrispettosi, aggressivi o altrimenti offensivi. Oltre alle foto discutibili di persone pubbliche, le norme vietano anche il materiale che può essere percepito come razzista, omofobico, inquietante o in qualche modo denigratorio per una comunità.

Questi strumenti di intelligenza artificiale stanno cambiando il modo in cui i creator e gli artisti si approcciano all’arte e ai contenuti. I creator utilizzeranno in massa questi strumenti? O li adotteranno solo come aiuto? Abbiamo già testi generati attraverso strumenti di IA, ma in futuro potremmo vedere contenuti completamente generati da Intelligenze Artificiali. Le IA saranno in grado di creare musica, video, testi e immagini e in parte lo fanno già. Quindi, gli artisti dovranno essere più innovativi per essere originali? O utilizzeranno questa tecnologia per creare una nuova forma d’arte?

Ecco una breve cronologia dell’evoluzione delle caratteristiche di Midjourney:

  • Midjourney V2: Rilasciata il 12 aprile 2022, questa versione ha introdotto l’upscaling e i pulsanti per ottenere varianti, oltre a un nuovo modello. Il team di Midjourney ha messo a punto un piano di prezzi concreto ed è passato a una beta a pagamento.
  • Midjourney V3: Rilasciata il 25 luglio 2022, questa versione ha introdotto i parametri --stylize e --quality. Valori bassi di stilizzazione producono immagini che corrispondono strettamente al prompt, ma sono meno artistiche. Valori elevati di stilizzazione creano immagini molto artistiche ma meno legate al prompt.--quality, invece, modifica il tempo impiegato per generare un’immagine. Le impostazioni di qualità più elevate richiedono più tempo per l’elaborazione e producono più dettagli. Valori più alti significano anche più minuti di GPU utilizzati per ogni lavoro. L’impostazione della qualità non influisce sulla risoluzione.
  • Midjourney V4: Rilasciata il 5 novembre 2022, questa versione ha portato un livello di qualità senza precedenti, ben al di là di quanto potesse produrre qualsiasi modello di Stable Diffusion esistente. Questo modello è dotato di una base di codice completamente nuova e di una nuovissima architettura AI progettata da Midjourney e addestrata sul nuovo supercluster AI di Midjourney. Questa versione ha aumentato la sua conoscenza di creature, luoghi e oggetti rispetto ai modelli precedenti. Ha anche un’altissima Coerenza ed eccelle con i prompt di immagini.
  • Midjourney V5: Rilasciata il 15 marzo 2023, questa versione continua gli aggiornamenti di qualità e versatilità della versione precedente. Questa versione produce immagini che corrispondono fedelmente alla richiesta, ma può richiedere richieste più lunghe per ottenere l’estetica desiderata.
  • Midjourney V5.1: Rilasciato il 3 maggio 2023. Questo modello ha un’estetica predefinita più marcata rispetto alle versioni precedenti, che lo rende più facile da usare con semplici richieste di testo. Ha inoltre un’elevata Coerenza, eccelle nell’interpretazione accurata delle richieste in linguaggio naturale, produce meno artefatti e bordi indesiderati, ha una maggiore nitidezza dell’immagine e supporta funzioni avanzate come la ripetizione dei motivi con il parametro --tile.
  • Midjourney V5.2: Rilasciato il 23 giugno 2023. Da questa versione, è possibile perfezionare i risultati con il parametro --style per ridurre l’estetica predefinita di Midjourney. Questo modello produce risultati più dettagliati e nitidi, con colori, contrasto e composizioni migliori. Ha anche una comprensione leggermente migliore dei prompt rispetto ai modelli precedenti ed è più sensibile all’intera gamma dei parametri --stylize.
  • Midjourney V6: Rilasciato il 21 dicembre 2023, dopo 9 mesi di sviluppo. Ha apportato notevoli miglioramenti alla qualità dell’immagine e ha favorito la semplificazione dei prompt. Ecco i principali cambiamenti:
    • Gli upscale sono ora due volte più veloci (e consumano due volte meno minuti di GPU)
    • Estetica, coerenza, aderenza ai prompt e qualità delle immagini migliorate.
    • Miglioramento della resa del testo (è necessario inserire il testo all’interno delle “virgolette” nel prompt).
    • Prestazioni migliorate con valori elevati di --stylize.

Ecco l’evoluzione delle caratteristiche di Dall-E:

  • DALL-E V2: Rilasciato nel 2022, DALL-E 2 ha mirato a generare immagini più realistiche ad alta risoluzione, combinando concetti, attributi e stili. Per raggiungere questo obiettivo, DALL-E 2 ha migliorato le tecniche utilizzate. Per esempio, DALL-E 2 genera immagini di qualità superiore utilizzando un modello di Stable Diffusion che integra i dati del modello CLIP (Contrastive Language-Image Pre-Training), addestrato su 400 milioni di immagini etichettate.
  • DALL-E V3: rilasciato nel novembre 2023, DALL-E 3 rappresenta un passo significativo nella generazione artistica basata sull’intelligenza artificiale. Migliora molte delle limitazioni dei suoi predecessori, DALL-E e DALL-E 2, e genera media più accurati rispetto a Midjourney.