Cos'è Dalle-mini e come funziona?

Dalle-mini è un modello di deep learning in grado di generare immagini di alta qualità dal testo di input dell'utente. Si basa sul modello DALL-E, rilasciato da OpenAI nel gennaio 2021. DALL-E sta per ' Linguaggio districato ed espressione latente ' è una rete neurale basata su trasformatore che può codificare testo e immagini in uno spazio latente comune e quindi decodificarli nuovamente in entrambe le modalità.

Questo articolo spiegherà il seguente contenuto:

Cos'è il Dalle-mini?

Dalle-mini è una versione più piccola e veloce di DALL-E, creata da EleutherAI, un collettivo di ricerca open source. Dalle-mini utilizza solo 6 miliardi di parametri, rispetto ai 12 miliardi di DALL-E, e può essere eseguito su una singola GPU. Dalle-mini utilizza anche un tokenizzatore e un vocabolario diversi per l'inserimento del testo, che lo rende più compatibile con lingue e domini diversi:

Nota : Gli utenti possono generare immagini gratuite utilizzando Dalle-mini seguendo il file collegamento .

Qual è il funzionamento di Dalle-mini?

L'idea principale alla base di Dalle-mini è la potenza dei trasformatori, che sono reti neurali. Possono apprendere dipendenze a lungo raggio e modelli complessi in dati sequenziali, come testo o immagini.

I trasformatori sono costituiti da due parti principali: un codificatore e un decodificatore. La prima parte prende un input (una descrizione testuale) e lo trasforma in vettori nascosti. Successivamente, il decodificatore lo prende e genera un output (un'immagine) rilevante per l'input.

Qual è la differenza tra Dalle-mini e DALL-E?

Il Dalle-mini e il DALL-E utilizzano un'architettura codificatore-decodificatore condivisa sia per il testo che per le immagini. Possono codificare e decodificare entrambe le modalità utilizzando la stessa rete. Ciò consente loro di apprendere uno spazio latente comune che cattura la relazione semantica tra testo e immagini. Successivamente, consente loro di eseguire la generazione intermodale, come la creazione di immagini dal testo o viceversa.

Come funziona Dalle-mini?

Per generare un'immagine da una descrizione testuale, Dalle-mini prima tokenizza il testo utilizzando un algoritmo di codifica a coppie di byte (BPE), che suddivide il testo in unità di sottoparole in base alla loro frequenza e ricorrenza:

Andiamo nel dettaglio delle lavorazioni interne di Dalle-mini:

Lavorazioni interne di Dalle-mini

Supponiamo, la parola ' giocando ” potrebbe essere suddiviso in “ pla ' E ' ying ”. I token vengono quindi mappati su ID numerici utilizzando un vocabolario di 8192 token. Gli ID vengono inseriti nel codificatore, producendo una rappresentazione latente di dimensioni 256 x 64:

Il decodificatore quindi prende la rappresentazione latente e genera un'immagine di dimensioni 256 x 256 pixel. Il decoder utilizza un processo autoregressivo, il che significa che genera ogni pixel uno per uno, condizionato dai pixel precedenti e dalla rappresentazione latente.

Come generare un'immagine dalla descrizione del testo usando Dalle-mini?

Per generare una descrizione testuale da un'immagine utilizzando Dalle-mini, inserisci il testo nella finestra di richiesta. Ad esempio, digita ' Un dipinto di fiori casuali ' nel prompt e premi ' Correre pulsante ':

L'output mostra che Dalle-mini ha generato immagini pertinenti in base al testo di input.

Conclusione

Dalle-mini è un modello notevole che dimostra il potenziale dei trasformatori per la generazione intermodale. Possono creare immagini realistiche e diverse dalle descrizioni in linguaggio naturale, nonché testi coerenti e pertinenti dalle immagini. Possono anche gestire composizioni complesse, come la combinazione di più oggetti o attributi in un'unica immagine o testo. Questo articolo ha spiegato in dettaglio il Dalle-mini e il suo funzionamento.

Cos'è Dalle-mini e come funziona?

Cos'è il Dalle-mini?

Qual è il funzionamento di Dalle-mini?

Qual è la differenza tra Dalle-mini e DALL-E?

Come funziona Dalle-mini?

Come generare un'immagine dalla descrizione del testo usando Dalle-mini?

Conclusione

Categoria

Messaggi Popolari

Come copiare un oggetto in Java

Icona della piastrella della schermata iniziale di Google Chrome grande (correzione) - Winhelponline

Come accedere in remoto a un PC da un dispositivo mobile?

Imposta più attributi su un elemento utilizzando JavaScript

Come barrare il testo in Discord

Possiamo alimentare Arduino Nano tramite Vin Pin

Come creare modelli di prompt in LangChain?

Come utilizzare il metodo Java.lang.Class.getMethod()?

Come creare diverse varianti di immagini AI utilizzando MidJourney?

Come utilizzare MFA con AWS CLI

Come funziona 'createInterface()' in Node.js?

Verifica la compatibilità del tema e dei plugin di WordPress con PHP 7 - Winhelponline

Come utilizzare la funzione Upper_bound() in C++

Come funziona Readline moveCursor() in Node.js?

Come ordinare l'array 2d in Java

Modifica le autorizzazioni delle impostazioni del sito in Android

Funzione Serial.readBytesUntil() nella programmazione Arduino

LWC – Selezionatoreinterrogazione()

Come installare e utilizzare Docker su Fedora e CentOS?

Utilizzo del filtro ActiveX in Internet Explorer 9 - Winhelponline