Questo articolo fornisce una guida passo passo sull'utilizzo dei token in Hugging Face Transformers.
Cos'è un tokenizzatore?
Il tokenizer è un concetto importante della PNL e il suo obiettivo principale è tradurre il testo grezzo in numeri. Esistono varie tecniche e metodologie presenti a questo scopo. Tuttavia, vale la pena notare che ciascuna tecnica ha uno scopo specifico.
Come utilizzare i tokenizzatori nei trasformatori di volti abbracciati?
Come utilizzare i tokenizzatori nei trasformatori di volti abbracciati?
La libreria tokenizer deve essere installata prima di utilizzarla e importare funzioni da essa. Successivamente, addestra un modello utilizzando AutoTokenizer e quindi fornisci l'input per eseguire la tokenizzazione.
Hugging Face introduce tre categorie principali di tokenizzazione che sono riportate di seguito:
- Tokenizzatore basato su parole
- Tokenizzatore basato sui personaggi
- Tokenizzatore basato su sottoparole
Ecco una guida passo passo per utilizzare i tokenizzatori in Transformers:
Passaggio 1: installa Transformers
Per installare i trasformatori, utilizzare il comando pip nel seguente comando:
Passaggio 2: importa classi
Dai trasformatori, importa tubatura , E AutoModelForSequenceClassification libreria per eseguire la classificazione:
Passaggio 3: importa il modello
IL ' AutoModelForSequenceClassification ' è un metodo che appartiene ad Auto-Class per la tokenizzazione. IL da_preaddestrato() Il metodo viene utilizzato per restituire la classe del modello corretta in base al tipo di modello.
Qui abbiamo fornito il nome del modello nel campo ' nome del modello 'variabile:
nome del modello = 'distilbert-base-uncased-finetuned-sst-2-english'pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( nome del modello )
Passaggio 4: importa AutoTokenizer
Fornire il comando seguente per generare token passando il comando ' nome del modello ' come argomento:
il token generato =AutoTokenizer.from_pretrained ( nome del modello )
Passaggio 5: genera token
Ora genereremo token su una frase “Adoro il buon cibo” utilizzando il ' il token generato 'variabile:
stampa ( parole )
L'output è dato come segue:
Il codice di cui sopra Google Co è dato qui.
Conclusione
Per utilizzare i tokenizzatori in Hugging Face, installa la libreria utilizzando il comando pip, addestra un modello utilizzando AutoTokenizer, quindi fornisci l'input per eseguire la tokenizzazione. Utilizzando la tokenizzazione, assegna pesi alle parole in base ai quali vengono sequenziate per mantenere il significato della frase. Questo punteggio determina anche il loro valore per l'analisi. Questo articolo è una guida dettagliata su come utilizzare i tokenizzatori in Hugging Face Transformers.