Come concatenare i set di dati in Hugging Face

Come Concatenare I Set Di Dati In Hugging Face



La libreria 'set di dati' di Hugging Face fornisce un modo conveniente per lavorare e manipolare i set di dati per attività di elaborazione del linguaggio naturale. Una funzione utile offerta dalla libreria è concatenate_datasets() che consente di concatenare più set di dati in un singolo set di dati. Di seguito è riportata una breve panoramica della funzione concatenate_datasets() e di come utilizzarla.

concatenate_dataset()

Descrizione:

La libreria 'dataset' di Hugging Face fornisce la funzione concatenate_datasets(). Viene utilizzato per concatenare più set di dati, combinandoli in un singolo set di dati lungo un asse specificato. Questa funzione è particolarmente utile quando si hanno più set di dati che condividono la stessa struttura e si desidera unirli in un set di dati unificato per ulteriori elaborazioni e analisi.







Sintassi:



da set di dati importare concatenare_dataset

set di dati_concatenati = concatenare_dataset ( set di dati , asse = 0 , informazioni = Nessuno )

parametri:

set di dati (elenco di set di dati): un elenco di set di dati che si desidera concatenare. Questi set di dati dovrebbero avere funzionalità compatibili, il che significa che hanno lo stesso schema, nomi di colonna e tipi di dati.



asse (int, opzionale, default=0): l'asse lungo il quale deve essere eseguita la concatenazione. Per la maggior parte dei set di dati NLP viene utilizzato il valore predefinito 0, il che significa che i set di dati sono concatenati verticalmente. Se imposti l'asse=1, i set di dati vengono concatenati orizzontalmente, presupponendo che abbiano colonne diverse come caratteristiche.





informazioni (datasets.DatasetInfo, facoltativo): le informazioni sul set di dati concatenato. Se non fornite, le informazioni vengono dedotte dal primo set di dati nell'elenco.

Ritorna:

set di dati_concatenati (Set di dati): il set di dati risultante dopo aver concatenato tutti i set di dati di input.



Esempio:

# Passaggio 1: installare la libreria dei set di dati

# Puoi installarlo usando pip:

# !pip installa i set di dati

# Passaggio 2: importa le librerie richieste

da set di dati importare caricare_dataset , concatenare_dataset

# Passaggio 3: carica i set di dati delle recensioni dei film IMDb

# Utilizzeremo due set di dati IMDb, uno per le recensioni positive

#e un altro per recensioni negative.

# Carica 2500 recensioni positive

set di dati_pos = caricare_dataset ( 'imdb' , diviso = 'treno[:2500]' )

# Carica 2500 recensioni negative

set di dati_neg = caricare_dataset ( 'imdb' , diviso = 'treno[-2500:]' )

# Passaggio 4: concatena i set di dati

# Concateniamo entrambi i set di dati lungo l'asse=0, come hanno fatto

lo stesso schema ( stesse caratteristiche ) .

set di dati_concatenati = concatenare_dataset ( [ set di dati_pos , set di dati_neg ] )

# Passaggio 5: analizzare il set di dati concatenato

# Per semplicità, contiamo il numero di positivi e negativi

# recensioni nel set di dati concatenato.

num_recensioni_positive = somma ( 1 per etichetta In

set di dati_concatenati [ 'etichetta' ] Se etichetta == 1 )

num_recensioni_negative = somma ( 1 per etichetta In

set di dati_concatenati [ 'etichetta' ] Se etichetta == 0 )

# Passaggio 6: visualizzare i risultati

stampa ( 'Numero di recensioni positive:' , num_recensioni_positive )

stampa ( 'Numero di recensioni negative:' , num_recensioni_negative )

# Passaggio 7: stampa alcune recensioni di esempio dal set di dati concatenati

stampa ( ' \N Alcuni esempi di recensioni:' )

per io In allineare ( 5 ) :

stampa ( F 'Recensione {i + 1}: {concatenated_dataset['text'][i]}' )

Produzione:

Quella che segue è la spiegazione del programma di libreria 'set di dati' di Hugging Face che concatena due set di dati di recensioni di film IMDb. Questo spiega lo scopo del programma, il suo utilizzo e i passaggi coinvolti nel codice.

Forniamo una spiegazione più dettagliata di ogni passaggio del codice:

# Passaggio 1: importa le librerie richieste

da set di dati importare caricare_dataset , concatenare_dataset

In questo passaggio importiamo le librerie necessarie per il programma. Abbiamo bisogno della funzione 'load_dataset' per caricare i set di dati delle recensioni dei film IMDb e di 'concatenate_datasets' per concatenarli in seguito.

# Passaggio 2: caricare i set di dati di revisione dei film IMDb

# Carica 2500 recensioni positive

set di dati_pos = caricare_dataset ( 'imdb' , diviso = 'treno[:2500]' )

# Carica 2500 recensioni negative

set di dati_neg = caricare_dataset ( 'imdb' , diviso = 'treno[-2500:]' )

Qui utilizziamo la funzione 'load_dataset' per recuperare due sottoinsiemi del set di dati IMDb. Il “dataset_pos” contiene 2500 recensioni positive e il “dataset_neg” contiene 2500 recensioni negative. Utilizziamo il parametro split per specificare l'intervallo di esempi da caricare che ci consente di selezionare un sottoinsieme dell'intero set di dati.

# Passaggio 3: concatenare i set di dati

set di dati_concatenati = concatenare_dataset ( [ set di dati_pos , set di dati_neg ] )

In questo passaggio, concateniamo i due sottoinsiemi del set di dati IMDb in un unico set di dati chiamato “concatenated_dataset”. Utilizziamo la funzione “concatenate_datasets” e la passiamo con una lista che contiene i due dataset da concatenare. Poiché entrambi i set di dati hanno le stesse caratteristiche, li concateniamo lungo l'asse=0, il che significa che le righe sono impilate una sopra l'altra.

# Passaggio 4: analizzare il set di dati concatenato

num_recensioni_positive = somma ( 1 per etichetta In

set di dati_concatenati [ 'etichetta' ] Se etichetta == 1 )

num_recensioni_negative = somma ( 1 per etichetta In

set di dati_concatenati [ 'etichetta' ] Se etichetta == 0 )

Qui, eseguiamo una semplice analisi del set di dati concatenati. Utilizziamo le comprensioni dell'elenco insieme alla funzione 'somma' per contare il numero di recensioni positive e negative. Iteriamo attraverso il label' del 'concatenated_dataset' e incrementare i conteggi ogni volta che incontriamo un'etichetta positiva (1) o un'etichetta negativa (0).

# Passaggio 5: visualizzare i risultati

stampa ( 'Numero di recensioni positive:' , num_recensioni_positive )

stampa ( 'Numero di recensioni negative:' , num_recensioni_negative )

In questo passaggio stampiamo i risultati della nostra analisi: il numero di recensioni positive e negative nel set di dati concatenato.

# Passaggio 6: stampare alcune recensioni di esempio

stampa ( ' \N Alcuni esempi di recensioni:' )

per io In allineare ( 5 ) :

stampa ( F 'Recensione {i + 1}: {concatenated_dataset['text'][i]}' )

Infine, mostriamo alcune revisioni di esempio dal set di dati concatenati. Esaminiamo i primi cinque esempi nel set di dati e stampiamo il loro contenuto testuale utilizzando la colonna 'testo'.

Questo codice mostra un semplice esempio di utilizzo della libreria 'set di dati' di Hugging Face per caricare, concatenare e analizzare i set di dati delle recensioni di film di IMDb. Evidenzia la capacità della biblioteca di semplificare la gestione dei set di dati della PNL e mostra il suo potenziale per la creazione di modelli e applicazioni di elaborazione del linguaggio naturale più sofisticati.

Conclusione

Il programma Python che utilizza la libreria 'set di dati' di Hugging Face dimostra con successo la concatenazione di due set di dati di recensioni di film IMDb. Caricando i sottoinsiemi di recensioni positive e negative, il programma li combina in un unico set di dati utilizzando la funzione concatenate_datasets(). Quindi esegue una semplice analisi contando il numero di recensioni positive e negative nel set di dati combinato.

La libreria 'set di dati' semplifica il processo di gestione e manipolazione dei set di dati della PNL, rendendola un potente strumento per ricercatori, sviluppatori e professionisti della PNL. Con la sua interfaccia intuitiva e le funzionalità estese, la libreria consente una preelaborazione, esplorazione e trasformazione dei dati senza sforzo. Il programma presentato in questa documentazione funge da esempio pratico di come sfruttare la libreria per semplificare le attività di concatenazione e analisi dei dati.

Negli scenari di vita reale, questo programma può fungere da base per attività di elaborazione del linguaggio naturale più complesse come l'analisi dei sentimenti, la classificazione del testo e la modellazione del linguaggio. Utilizzando la libreria 'set di dati', ricercatori e sviluppatori possono gestire in modo efficiente set di dati su larga scala, facilitare la sperimentazione e accelerare lo sviluppo di modelli NLP all'avanguardia. Nel complesso, la libreria di “set di dati” di Hugging Face rappresenta una risorsa essenziale nel perseguimento di progressi nell’elaborazione e nella comprensione del linguaggio naturale.