Come analizzare i dati di testo in R: nozioni di base sulla manipolazione delle stringhe

Come Analizzare I Dati Di Testo In R Nozioni Di Base Sulla Manipolazione Delle Stringhe



Le stringhe sono il secondo tipo di dati più popolare nella programmazione R e la manipolazione delle stringhe è un'attività cruciale in R. L'operazione di manipolazione delle stringhe in R è costituita da più funzioni per utilizzare e modificare i dati di testo, inclusa la modifica e l'analisi delle stringhe. In questo articolo approfondiremo alcune delle funzioni che ci aiutano nella manipolazione delle stringhe. Queste funzioni sono integrate in R e utilizzate per vari scopi per eseguire attività sulle stringhe.

Esempio 1: ottenere la posizione del pattern dalla stringa utilizzando la funzione Grep() in R

Per estrarre dalla stringa la posizione del modello specificato, viene utilizzata la funzione grep() di R.

grep('i+', c('fix', 'split', 'corn n', 'paint'), perl=TRUE, valore=FALSE)

Qui utilizziamo la funzione grep() in cui il modello “+i” è specificato come argomento da abbinare all'interno del vettore di stringhe. Impostiamo i vettori di caratteri che contengono quattro stringhe. Successivamente, impostiamo l'argomento 'perl' con il valore TRUE che indica che R utilizza una libreria di espressioni regolari compatibile con Perl e il parametro 'value' viene specificato con il valore 'FALSE' che viene utilizzato per recuperare gli indici degli elementi nel vettore che corrisponde al modello.







La posizione del modello '+i' di ciascuna stringa di caratteri vettoriali viene visualizzata nel seguente output:





Esempio 2: abbinare il modello utilizzando la funzione Gregexpr() in R

Successivamente, recuperiamo la posizione dell'indice insieme alla lunghezza della particolare stringa in R utilizzando la funzione gregexpr().





char_vec <- c('LINGUA DI PROGRAMMAZIONE','RSCRIPT')
gregexpr('GRAMM', char_vec, useBytes = TRUE)

Qui impostiamo la variabile “char_vect” in cui le stringhe vengono fornite con caratteri diversi. Successivamente, definiamo la funzione gregexpr() che accetta il modello di stringa 'GRAMM' da abbinare alle stringhe memorizzate in 'char_vec'. Quindi, impostiamo il parametro useBytes con il valore 'TRUE'. Questo parametro indica che la corrispondenza deve essere ottenuta byte per byte anziché carattere per carattere.

Il seguente output recuperato dalla funzione gregexpr() rappresenta gli indici e la lunghezza di entrambe le stringhe vettoriali:



Esempio 3: contare i caratteri totali nella stringa utilizzando la funzione Nchar() in R

Il metodo nchar() che implementiamo di seguito ci consente anche di determinare quanti caratteri sono presenti nella stringa:

Res <- nchar('Conta ogni carattere')
stampa(Ris)

Qui chiamiamo il metodo nchar() che è impostato all'interno della variabile 'Res'. Il metodo nchar() viene fornito con la lunga stringa di caratteri conteggiata dal metodo nchar() e fornisce il numero di contatori nella stringa specificata. Quindi passiamo la variabile “Res” al metodo print() per vedere i risultati del metodo nchar().

Il risultato viene ricevuto nel seguente output che mostra che la stringa specificata contiene 20 caratteri:

Esempio 4: estrarre la sottostringa dalla stringa utilizzando la funzione Substring() in R

Usiamo il metodo substring() con gli argomenti 'start' e 'stop' per estrarre la sottostringa specifica dalla stringa.

str <- sottostringa('MATTINA', 2, 4)
stampa(str)

Qui abbiamo una variabile 'str' ​​in cui viene richiamato il metodo substring(). Il metodo substring() accetta la stringa 'MORNING' come primo argomento e il valore '2' come secondo argomento che indica che deve essere estratto il secondo carattere dalla stringa, e il valore dell'argomento '4' indica che il quarto carattere deve essere estratto. Il metodo substring() estrae i caratteri dalla stringa compresa nella posizione specificata.

Il seguente output mostra la sottostringa estratta che si trova tra la seconda e la quarta posizione nella stringa:

Esempio 5: concatenare la stringa utilizzando la funzione Paste() in R

La funzione paste() in R viene utilizzata anche per la manipolazione delle stringhe che concatena le stringhe specificate separando i delimitatori.

msg1 <- 'Contenuto'
msg2 <- 'Scrittura'

incolla(msg1, msg2)

Qui specifichiamo rispettivamente le stringhe nelle variabili “msg1” e “msg2”. Quindi, utilizziamo il metodo paste() di R per concatenare la stringa fornita in un'unica stringa. Il metodo paste() accetta la variabile strings come argomento e restituisce la singola stringa con lo spazio predefinito tra le stringhe.

All'esecuzione del metodo paste(), l'output rappresenta la singola stringa con lo spazio al suo interno.

Esempio 6: modificare la stringa utilizzando la funzione Substring() in R

Inoltre, possiamo anche aggiornare la stringa aggiungendo la sottostringa o qualsiasi carattere nella stringa utilizzando la funzione substring() utilizzando il seguente script:

str1 <- 'Eroi'
sottostringa(str1, 5, 6) <- 'ic'

cat('    Stringa modificata:', str1)

Impostiamo la stringa “Heroes” all'interno della variabile “str1”. Quindi, distribuiamo il metodo substring() dove viene specificato 'str1' insieme ai valori di indice 'start' e 'stop' della sottostringa. Al metodo substring() viene assegnata la sottostringa 'iz' che viene posizionata nella posizione specificata all'interno della funzione per la stringa specificata. Successivamente, utilizziamo la funzione cat() di R che rappresenta il valore della stringa aggiornato.

L'output che visualizza la stringa viene aggiornato con quello nuovo utilizzando il metodo substring():

Esempio 7: formattare la stringa utilizzando la funzione Format() in R

Tuttavia, l'operazione di manipolazione delle stringhe in R include anche la formattazione della stringa di conseguenza. Per questo utilizziamo la funzione format() in cui la stringa può essere allineata e impostare la larghezza della stringa specifica.

posizionamento1 <- format('Programmi', larghezza = 10, giustifica = 'l')
posizionamento2 <- format('Programmi', larghezza = 10, giustifica = 'r')
posizionamento3 <- format('Programmi', larghezza = 10, giustifica = 'c')

stampa(posizionamento1)
stampa(posizionamento2)
stampa(posizionamento3)

Qui impostiamo la variabile “placement1” fornita con il metodo format(). Passiamo la stringa “programs” da formattare al metodo format(). La larghezza viene impostata e l'allineamento della stringa viene impostato a sinistra utilizzando l'argomento 'giustifica'. Allo stesso modo, creiamo altre due variabili, “placement2” e “placement2”, e applichiamo il metodo format() per formattare di conseguenza la stringa fornita.

L'output visualizza tre stili di formattazione per la stessa stringa nell'immagine seguente inclusi gli allineamenti sinistro, destro e centrale:

Esempio 8: trasforma la stringa in maiuscolo e minuscolo in R

Inoltre, possiamo anche trasformare la stringa in minuscolo e maiuscolo utilizzando le funzioni tolower() e toupper() come segue:

s1 <- 'Buon Cibo, Buona Vita'
risultato1 <-toinferiore(s1)

stampa(risultato1)

s2 <- 'Il linguaggio di programmazione r in '
risultato2 <- topper(s2)

stampa(risultato2)

Qui forniamo la stringa che contiene i caratteri maiuscoli e minuscoli. Successivamente, la stringa viene mantenuta nella variabile 's1'. Quindi chiamiamo il metodo tolower() e passiamo al suo interno la stringa “s1” per trasformare tutti i caratteri all'interno della stringa in minuscolo. Quindi, stampiamo i risultati del metodo tolower() che è memorizzato nella variabile “result1”. Successivamente, impostiamo un'altra stringa nella variabile “s2” che contiene tutti i caratteri in minuscolo. Applichiamo il metodo toupper() a questa stringa 's2' per trasformare la stringa esistente in maiuscolo.

L'output visualizza entrambe le stringhe nel caso specificato nell'immagine seguente:

Conclusione

Abbiamo imparato i vari modi per gestire e analizzare le stringhe, denominata manipolazione delle stringhe. Abbiamo estratto la posizione del carattere dalla stringa, concatenato le diverse stringhe e trasformato la stringa nel caso specificato. Inoltre, abbiamo formattato la stringa, modificata la stringa e qui vengono eseguite varie altre operazioni per manipolare la stringa.