Come utilizzare i tokenizzatori nei trasformatori di volti abbracciati?

Come Utilizzare I Tokenizzatori Nei Trasformatori Di Volti Abbracciati



L'elaborazione del linguaggio naturale (NLP) opera sulla forma grezza dei dati. I modelli di machine learning vengono addestrati su dati complessi, ma non sono in grado di comprendere i dati grezzi. A questa forma grezza di dati deve essere associato un valore numerico. Questo valore determina il valore e l'importanza della parola nei dati e su questa base vengono eseguiti i calcoli.

Questo articolo fornisce una guida passo passo sull'utilizzo dei token in Hugging Face Transformers.

Cos'è un tokenizzatore?

Il tokenizer è un concetto importante della PNL e il suo obiettivo principale è tradurre il testo grezzo in numeri. Esistono varie tecniche e metodologie presenti a questo scopo. Tuttavia, vale la pena notare che ciascuna tecnica ha uno scopo specifico.
Come utilizzare i tokenizzatori nei trasformatori di volti abbracciati?







Come utilizzare i tokenizzatori nei trasformatori di volti abbracciati?

La libreria tokenizer deve essere installata prima di utilizzarla e importare funzioni da essa. Successivamente, addestra un modello utilizzando AutoTokenizer e quindi fornisci l'input per eseguire la tokenizzazione.



Hugging Face introduce tre categorie principali di tokenizzazione che sono riportate di seguito:



  • Tokenizzatore basato su parole
  • Tokenizzatore basato sui personaggi
  • Tokenizzatore basato su sottoparole

Ecco una guida passo passo per utilizzare i tokenizzatori in Transformers:





Passaggio 1: installa Transformers
Per installare i trasformatori, utilizzare il comando pip nel seguente comando:

! pip installare trasformatori



Passaggio 2: importa classi
Dai trasformatori, importa tubatura , E AutoModelForSequenceClassification libreria per eseguire la classificazione:

dalla pipeline di importazione dei trasformatori, AutoModelForSequenceClassification

Passaggio 3: importa il modello
IL ' AutoModelForSequenceClassification ' è un metodo che appartiene ad Auto-Class per la tokenizzazione. IL da_preaddestrato() Il metodo viene utilizzato per restituire la classe del modello corretta in base al tipo di modello.

Qui abbiamo fornito il nome del modello nel campo ' nome del modello 'variabile:

nome del modello = 'distilbert-base-uncased-finetuned-sst-2-english'
pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( nome del modello )

Passaggio 4: importa AutoTokenizer
Fornire il comando seguente per generare token passando il comando ' nome del modello ' come argomento:

dai trasformatori importano AutoTokenizer

il token generato =AutoTokenizer.from_pretrained ( nome del modello )

Passaggio 5: genera token
Ora genereremo token su una frase “Adoro il buon cibo” utilizzando il ' il token generato 'variabile:

parole =genera token ( 'Adoro il buon cibo' )
stampa ( parole )

L'output è dato come segue:

Il codice di cui sopra Google Co è dato qui.

Conclusione

Per utilizzare i tokenizzatori in Hugging Face, installa la libreria utilizzando il comando pip, addestra un modello utilizzando AutoTokenizer, quindi fornisci l'input per eseguire la tokenizzazione. Utilizzando la tokenizzazione, assegna pesi alle parole in base ai quali vengono sequenziate per mantenere il significato della frase. Questo punteggio determina anche il loro valore per l'analisi. Questo articolo è una guida dettagliata su come utilizzare i tokenizzatori in Hugging Face Transformers.