Funzione campione() in R

Funzione Campione In R



In R, otteniamo casualmente valori campione da un vettore o da una lista usando la funzione sample(). Ci consente di selezionare casualmente un sottoinsieme di dati che è utile in molte applicazioni statistiche. Se l'input è un elenco nella funzione sample(), anche l'output sarà un elenco con lo stesso numero di elementi, ma con gli elementi selezionati. Questo articolo illustra la funzione sample() di R con l'implementazione che imposta i vari argomenti.

Esempio 1: utilizzo della funzione Sample() con l'argomento dati

La funzione sample() di R deve essere fornita con i dati di esempio per generare un numero in modo casuale. I dati di esempio sono l'argomento richiesto della funzione sample() il cui codice è riportato di seguito:

datiX < - C ( 10 , venti , 30 , 40 , cinquanta , 60 , 70 , 80 , 90 , 100 )

campione ( datiX , 3 )

campione ( datiX , 3 )

Qui, per prima cosa generiamo i vettori degli elementi interi all'interno della variabile 'dataX'. Successivamente, chiamiamo la funzione sample() due volte nel codice e passiamo il vettore 'dataX' che abbiamo precedentemente generato come argomento. Il primo utilizzo di sample(dataX, 3) preleva un campione casuale di tre elementi dal vettore 'dataX'. I risultati sono una permutazione casuale di tre elementi da 'dataX'. Successivamente, usiamo di nuovo il campione (a, 5) che prende un altro campione casuale indipendente di tre elementi dal vettore 'dataX'. Questa volta, il risultato è completamente diverso dall'ultimo.







L'output mostra i diversi elementi quando si chiama due volte la funzione sample(). Nota che ogni volta che creiamo il campione in modo casuale, si ottengono elementi diversi dai vettori:





Esempio 2: utilizzo della funzione Sample() con l'argomento Sostituisci

Inoltre, abbiamo l'argomento 'replace' della funzione sample() che assume i valori logici. Un elemento simile può essere selezionato più di una volta se l'elemento viene campionato con l'opzione di sostituzione TRUE. Tuttavia, se il valore è impostato su FALSE, può esserci solo una selezione di ciascun elemento che causa il campionamento degli elementi senza sostituzione.





numeri_casuali = C ( undici , 25 , 12 , 89 , Quattro cinque , 16 , 67 , 38 , 96 , 55 , 73 )

campione ( numeri_casuali , 4 , sostituire = VERO )

campione ( numeri_casuali , 5 , sostituire = VERO )

Qui, per prima cosa definiamo il vettore con alcuni valori numerici nella variabile 'random_numbers'. Successivamente, invochiamo la funzione sample() in cui i 'numeri_casuali' vengono passati come argomento. Il valore di '4' è specificato nella funzione sample() che indica che seleziona solo quattro valori casuali dai vettori in 'random_numbers'.

Successivamente, la funzione replace=TRUE nella funzione sample() specifica che ciascun valore può essere selezionato più di una volta. Quindi, distribuiamo nuovamente la funzione sample() che seleziona questa volta valori casuali '5' dai vettori. Allo stesso modo, impostiamo l'argomento di sostituzione con 'TRUE' come prima per le opzioni di selezione multipla per ciascun valore.



Come possiamo vedere, il primo output mostra il vettore di 4 elementi selezionati casualmente dal vettore 'random_numbers'. L'output successivo, tuttavia, mostra un vettore di '5' elementi selezionati casualmente:

Esempio 3: utilizzo della funzione Sample() con l'argomento Size

L'argomento successivo passato dalla funzione sample() è la 'dimensione'. La “dimensione” è un parametro opzionale che indica il valore dei campioni da prelevare. Il codice della funzione sample() con il parametro “size” è riportato di seguito:

vettori < - 1 : 10

campione ( vettori , misurare = 5 )

Qui, un vettore numerico è definito come una sequenza di numeri interi da 1 a 10 nella variabile “vettori”. La funzione sample() viene quindi impiegata per la selezione casuale degli elementi dal vettore. Come possiamo vedere, la funzione sample() accetta due argomenti. Il primo argomento sono i vettori da cui otteniamo il campione. L'argomento successivo è la dimensione specificata con il valore '5' che indica che ci sono solo cinque elementi da selezionare dal vettore.

Pertanto, gli elementi selezionati vengono restituiti in ordine casuale come un nuovo vettore nel seguente output:

Esempio 4: utilizzo della funzione Sample() per l'elenco R

Inoltre, la funzione sample() può essere utilizzata per l'elenco in R. Questa sezione dell'esempio ottiene valori casuali dall'elenco.

R_lista < - elenco ( 1 : 4 ,

913 ,

C ( 'X' , 'AAAA' , 'BENE' ) ,

'ZZZ' ,

5 )

risultato < - R_lista [ campione ( 1 :lunghezza ( R_lista ) , misurare = 4 ) ]

risultato

Qui, l'elenco di 'R_list' è definito con elementi di diversi tipi tra cui un vettore di valori numerici, un singolo numero, un vettore di caratteri, una stringa e un altro numero. Successivamente, creiamo una variabile 'result' in cui viene richiamata la funzione sample().

All'interno della funzione sample(), impostiamo l'espressione “1:length(R_list)” che indica i vettori degli indici da campionare. Successivamente, abbiamo un argomento 'size' per specificare il numero di elementi da campionare che è '4'. Pertanto, 'R_list' genera tre elementi selezionati casualmente dall'elenco di 'R_list'. Poiché gli elementi nell'elenco di 'R_list' sono di tipi diversi, anche gli elementi risultanti in 'result' possono essere di tipi diversi.

L'output rappresenta il nuovo elenco che contiene un sottoinsieme casuale dell'elenco originale:

Esempio 5: utilizzo della funzione Sample() con l'argomento Prob

Inoltre, abbiamo il parametro 'prob' della funzione sample(). L'argomento 'prob' fornisce la probabilità dell'elemento selezionato nel vettore. Si noti che si presume che tutti gli elementi abbiano la stessa probabilità quando non viene utilizzato l'argomento 'prob'.

i miei dati = C ( 31 , 99 , 5 , 24 , 72 )

campione ( i miei dati , misurare = 10 , sostituire = VERO ,

prob = C ( 0,5 , rappresentante ( 0.1 , 4 ) ) )

Qui, gli elementi dei vettori numerici sono indicati come 'my_data'. Nel passaggio successivo, chiamiamo la funzione sample() in cui i 'my_data' vengono passati a 10 elementi selezionati casualmente da esso. Quindi, viene definito l'argomento 'size' che specifica che il valore da selezionare in modo casuale dovrebbe essere di dimensione '10'. Successivamente, assegniamo 'TRUE' all'argomento 'sostituisci', il che significa che ogni elemento selezionato viene sostituito nel vettore prima di selezionare quello successivo. Il terzo argomento definito nella funzione sample() è 'prob' che definisce la probabilità che ciascun elemento nel vettore 'my_data' venga selezionato. La probabilità del primo elemento è impostata su '0,5'. Per i restanti quattro elementi vettoriali, la probabilità è '0,1'.

Il seguente output viene recuperato con la probabilità più alta del primo elemento nei vettori come previsto:

Esempio 6: utilizzo della funzione Sample() per il rendering del grafico a barre

Infine, la funzione sample() viene utilizzata per costruire il grafico a barre in R per visualizzare la distribuzione di una variabile categoriale con una data distribuzione di probabilità.

sample_data = C ( 1 , 2 , 3 )

barplot ( tavolo ( campione ( sample_data , misurare = 500 , sostituire = VERO , prob = C ( .30 , .60 , .10 ) ) ) )

Qui, dopo aver definito i “sample_data” con il vettore di un valore intero, generiamo il barplot distribuendo la funzione sample(). Innanzitutto, chiamiamo il barplot che richiama la funzione table() per creare una tabella di frequenza del campione risultante. Quindi, specifichiamo la funzione sample() all'interno della funzione table() in cui un campione casuale di dimensione 1000 viene estratto da un vettore di numeri interi da 1 a 3. Quindi, l'argomento 'prob' viene utilizzato per specificare la probabilità di selezionare ciascun numero intero .

Come possiamo vedere ora, il grafico a barre è reso nel seguente con le tre barre, una per ogni intero, e l'altezza delle barre è relativa all'intero che ricorre nel campione:

Conclusione

Abbiamo visto come funziona la funzione sample() con vari esempi. La funzione sample() viene utilizzata con diversi argomenti in cui i dati di esempio sono richiesti e tutti gli altri argomenti sono facoltativi e vengono richiamati su casi specifici. Tuttavia, la funzione sample() è utile nell'analisi statistica o quando si lavora con insiemi di dati di grandi dimensioni.