Stable Cascade, cosa è e come funziona il nuovo generatore immagini IA

Stable Cascade rappresenta l'ultima frontiera nel vasto panorama dei generatori di immagini basati sull'intelligenza artificiale.

Stable Cascade, cosa è e come funziona i
Lorenzo Pascucci 

Stable Cascade rappresenta l'ultima frontiera nel vasto panorama dei generatori di immagini basati sull'intelligenza artificiale. Sviluppato da Stability AI, la stessa compagnia che ha lanciato il celebre Stable Diffusion, si distingue per la sua capacità di ridurre significativamente i costi di addestramento grazie all'impiego di un'architettura innovativa chiamata Würstchen. Ma come funziona esattamente Stable Cascade e quali vantaggi offre rispetto ai suoi predecessori?

L'architettura Würstchen e la sua efficienza

Il cuore pulsante di Stable Cascade è proprio l'architettura Würstchen, un sistema autoregressivo che si occupa della compressione delle immagini. Questo metodo consente di anticipare il valore di ogni pixel in base ai precedenti, costruendo un'immagine compressa da blocchi di pixel, come ad esempio blocchi 8x8, e riducendo significativamente i dati da processare nell'atto della generazione.

Lo schema di funzionamento è relativamente semplice: durante l'addestramento, il modello apprende a riconoscere i pattern visivi delle immagini di esempio, assegnando a ciascuno di essi una probabilità di comparsa nella sequenza. Dopo l'addestramento, il generatore opera creando un'immagine compressa che suddivide in tokens, codificati grazie al dizionario creato nella fase di addestramento. Questo processo assicura una velocità di elaborazione superiore grazie alla drastica riduzione della quantità di dati necessari.

Il processo di generazione in tre fasi

Stable Cascade è strutturato su tre fasi successive, denominate Stage A, Stage B e Stage C. In breve, lo Stage C trasforma le descrizioni testuali in immagini latenti 24x24, le quali sono poi elaborate e decodificate negli Stadi A e B che riducono la compressione a un tasso impressionante di 42 rispetto al tasso 8 della precedente versione.

L'architettura suddivisa in fasi permette l'ottimizzazione e l'addestramento personalizzato di ogni singola parte, apportando miglioramenti mirati e conseguendo, così, una riduzione di costi fino a 16 volte inferiore rispetto all'addestramento di un modello di dimensioni comparabili di Stable Diffusion.

Le potenzialità di Stable Cascade

Il mondo immersivo creato da Stable Cascade si manifesta in una pluralità di opzioni: dalla generazione di immagini ad alta risoluzione al miglioramento della definizione delle fotografie esistenti, fino alla possibilità di effettuare modifiche quali l'inpainting e l'outpanding, e di trasformare i bordi delle immagini esistenti in nuove creazioni corroborate dall'intelligenza artificiale.

Stable Cascade si configura, quindi, come una risorsa preziosa per sviluppatori e ricercatori, essendo già disponibile al download da GitHub. Sebbene al momento non sia accessibile per un uso commerciale diffuso, il suo potenziale di cambiare il settore della generazione di immagini è indubbio e i primi test confermano la sua superiorità in termini di prestazioni e velocità rispetto a Stable Diffusion, anche grazie alla diminuzione dei requisiti di memoria.

Nonostante l'entusiasmo generale, occorre considerare l'aspetto dei requisiti in termini di VRAM per l'inferenza, che si stimano essere di circa 20 GB. Questo valore può essere ridotto optando per varianti di modello più piccole.