Cos'è Dalle-mini e come funziona?

Cos E Dalle Mini E Come Funziona



Dalle-mini è un modello di deep learning in grado di generare immagini di alta qualità dal testo di input dell'utente. Si basa sul modello DALL-E, rilasciato da OpenAI nel gennaio 2021. DALL-E sta per ' Linguaggio districato ed espressione latente ' è una rete neurale basata su trasformatore che può codificare testo e immagini in uno spazio latente comune e quindi decodificarli nuovamente in entrambe le modalità.

Questo articolo spiegherà il seguente contenuto:







Cos'è il Dalle-mini?

Dalle-mini è una versione più piccola e veloce di DALL-E, creata da EleutherAI, un collettivo di ricerca open source. Dalle-mini utilizza solo 6 miliardi di parametri, rispetto ai 12 miliardi di DALL-E, e può essere eseguito su una singola GPU. Dalle-mini utilizza anche un tokenizzatore e un vocabolario diversi per l'inserimento del testo, che lo rende più compatibile con lingue e domini diversi:




Nota : Gli utenti possono generare immagini gratuite utilizzando Dalle-mini seguendo il file collegamento .



Qual è il funzionamento di Dalle-mini?

L'idea principale alla base di Dalle-mini è la potenza dei trasformatori, che sono reti neurali. Possono apprendere dipendenze a lungo raggio e modelli complessi in dati sequenziali, come testo o immagini.





I trasformatori sono costituiti da due parti principali: un codificatore e un decodificatore. La prima parte prende un input (una descrizione testuale) e lo trasforma in vettori nascosti. Successivamente, il decodificatore lo prende e genera un output (un'immagine) rilevante per l'input.

Qual è la differenza tra Dalle-mini e DALL-E?

Il Dalle-mini e il DALL-E utilizzano un'architettura codificatore-decodificatore condivisa sia per il testo che per le immagini. Possono codificare e decodificare entrambe le modalità utilizzando la stessa rete. Ciò consente loro di apprendere uno spazio latente comune che cattura la relazione semantica tra testo e immagini. Successivamente, consente loro di eseguire la generazione intermodale, come la creazione di immagini dal testo o viceversa.



Come funziona Dalle-mini?

Per generare un'immagine da una descrizione testuale, Dalle-mini prima tokenizza il testo utilizzando un algoritmo di codifica a coppie di byte (BPE), che suddivide il testo in unità di sottoparole in base alla loro frequenza e ricorrenza:


Andiamo nel dettaglio delle lavorazioni interne di Dalle-mini:

Lavorazioni interne di Dalle-mini

Supponiamo, la parola ' giocando ” potrebbe essere suddiviso in “ pla ' E ' ying ”. I token vengono quindi mappati su ID numerici utilizzando un vocabolario di 8192 token. Gli ID vengono inseriti nel codificatore, producendo una rappresentazione latente di dimensioni 256 x 64:


Il decodificatore quindi prende la rappresentazione latente e genera un'immagine di dimensioni 256 x 256 pixel. Il decoder utilizza un processo autoregressivo, il che significa che genera ogni pixel uno per uno, condizionato dai pixel precedenti e dalla rappresentazione latente.

Come generare un'immagine dalla descrizione del testo usando Dalle-mini?

Per generare una descrizione testuale da un'immagine utilizzando Dalle-mini, inserisci il testo nella finestra di richiesta. Ad esempio, digita ' Un dipinto di fiori casuali ' nel prompt e premi ' Correre pulsante ':


L'output mostra che Dalle-mini ha generato immagini pertinenti in base al testo di input.

Conclusione

Dalle-mini è un modello notevole che dimostra il potenziale dei trasformatori per la generazione intermodale. Possono creare immagini realistiche e diverse dalle descrizioni in linguaggio naturale, nonché testi coerenti e pertinenti dalle immagini. Possono anche gestire composizioni complesse, come la combinazione di più oggetti o attributi in un'unica immagine o testo. Questo articolo ha spiegato in dettaglio il Dalle-mini e il suo funzionamento.