Come utilizzare i set di dati sui volti abbracciati

Come Utilizzare I Set Di Dati Sui Volti Abbracciati



L'applicabilità e l'usabilità dei modelli di Machine Learning vengono testate sui dati. L'affidabilità dei test dipende molto dalla quantità e dalla qualità dei dati su cui vengono applicati questi modelli. È un compito completo di per sé creare, ottenere e pulire un set di dati sufficientemente grande per testare il tuo ' Elaborazione del linguaggio naturale (PNL) “Modello di apprendimento automatico.

Hugging Face offre una soluzione accurata per questo con la sua libreria eccezionalmente ampia di set di dati tra cui scegliere e trovare quello che si adatta perfettamente alle tue esigenze. Qui ti mostreremo come trovare il set di dati ideale e prepararlo per testare adeguatamente il tuo modello.







Come utilizzare i set di dati sui volti abbracciati?

Ti mostreremo come utilizzare i set di dati Hugging Face utilizzando l'esempio del ' TinyStories 'Set di dati da Hugging Face.



Esempio

Il dataset TinyStories conta più di 2 milioni di righe di dati nel train split e ha più di 2mila download sulla piattaforma Hugging Face. Lo useremo nel codice in Google Colab riportato di seguito:



! pippo installare trasformatori
! pippo installare set di dati

dai set di dati importa load_dataset

set di dati = carica_set di dati ( 'roneneldan/TinyStories' )

TinyStories_Storia = 3
stringa_esempio = set di dati [ 'treno' ] [ TinyStories_Storia ] [ 'testo' ]

stampa ( stringa_esempio )


In questo codice, considerare i passaggi indicati di seguito:





Passaggio 01 : Il primo passo è il “ installazione ' dei set di dati dei trasformatori.

Passaggio 02 : Successivamente, importa il set di dati richiesto, ' TinyStories 'nel tuo progetto.



Passaggio 03 : Successivamente, caricare il set di dati selezionato utilizzando il pulsante ' caricare_dataset() ' funzione.

Passaggio 04 : Ora specifichiamo il numero della storia che vogliamo dal set di dati TinyStories. Abbiamo specificato il numero 03 nel nostro esempio di codice.

Passaggio 05 : Infine, utilizzeremo il metodo 'print()' per mostrare l'output.

Produzione



Nota: Il codice e l'output possono anche essere visualizzati direttamente nel nostro Google Colab .

Conclusione

Set di dati di Hugging Face 'rendono incredibilmente efficiente per gli utenti testare i propri modelli di machine learning importando direttamente set di dati di grandi dimensioni dalla propria libreria online. Di conseguenza, l’applicazione degli algoritmi NLP è diventata più semplice e veloce poiché i programmatori possono testare i propri progetti rispetto a un set di dati che ha sia qualità che quantità.