Come creare un crawler per recuperare i dati dal bucket S3?

AWS Glue viene utilizzato per rilevare dati, integrare dati, eseguire la scansione dei dati e creare un catalogo di dati nel cloud. L'utente può creare un crawler da AWS Glue che eseguirà la scansione dei dati dall'origine specificata e quindi li memorizzerà nel catalogo dati per ottenere informazioni. L'utente deve solo eseguire il crawler e tutto il resto verrà eseguito dal crawler in pochi istanti.

Questa guida spiegherà come creare crawler per recuperare i dati dal bucket S3.

Come creare un crawler per recuperare i dati dal bucket S3?

Per creare un crawler in AWS, visita il ' Colla AWS ' servizio dalla dashboard di Amazon:

Clicca sul ' Banche dati ” dalla sezione Catalogo dati per creare un database:

Clicca sul ' Aggiungi banca dati ” pulsante per avviare la configurazione:

Inserisci il nome del database e lascia tutto come facoltativo prima di cliccare sul pulsante “ Crea banca dati pulsante ':

Il database è stato creato con successo:

Dopodiché, vai semplicemente al ' Crawler ” facendo clic su di essa dal pannello di sinistra:

Clicca sul ' Crea crawler pulsante ':

Digita il nome del crawler e fai clic su ' Prossimo pulsante ':

Clicca sul ' Aggiungi un'origine dati ” pulsante per selezionare la fonte dei dati:

Per verificare il percorso in cui sono archiviati i dati, visitare il servizio S3:

Accedi al bucket S3 in cui vengono caricati i dati. L'utente può creare un secchio e caricamento dati su di esso dal dashboard AWS S3:

Clicca sul ' Sfoglia S3 ” pulsante per scegliere il percorso dei dati:

Selezionare la cartella contenente i dati, quindi fare clic su ' Scegliere pulsante ':

Il percorso S3 è stato selezionato, ora fai clic sul pulsante ' Aggiungi un'origine dati S3 pulsante ':

Una volta aggiunta l'origine dati, è sufficiente fare clic sul pulsante ' Prossimo pulsante ':

Aggiungere il ruolo IAM e quindi fare clic su ' Prossimo pulsante ':

Immettere il database di destinazione creato in precedenza, quindi digitare il nome della tabella:

Selezionare la pianificazione On demand per il crawler e fare clic sul pulsante ' Prossimo pulsante ':

Esamina il crawler e fai clic su ' Crea crawler pulsante ':

Il crawler è stato creato con successo, fai clic sul pulsante ' Correre ” dopo averlo selezionato:

Ci vorranno alcuni istanti per eseguire il crawler e recupererà i dati e creerà una tabella per archiviare i dati:

Entra nel “ Tabelle ” dalla dashboard di Glue:

Seleziona la tabella cliccando sul suo nome:

Sono stati visualizzati i dettagli del conto contenenti i metadati dei dati recuperati:

Scorri la pagina e seleziona la sezione per visualizzare la tabella contenente i dati:

Si tratta di creare un crawler per recuperare i dati dal bucket S3.

Conclusione

Per creare un crawler per recuperare i dati dal bucket S3, crea un database su AWS Glue in cui verranno archiviati i dati scansionati. Configura il crawler dalla dashboard di Glue fornendo l'origine dei dati (bucket S3) e il database di destinazione. Esegui il crawler e recupera i dati dal bucket S3 alla tabella del database come spiegato in dettaglio in questa guida.

Come creare un crawler per recuperare i dati dal bucket S3?

Come creare un crawler per recuperare i dati dal bucket S3?

Conclusione

Categoria

Messaggi Popolari

Esegui il server PostGIS come contenitore Docker

Elenco di telecomandi per un repository Git?

Risolto il problema con Discord Camera che non funziona su PC Windows

Come eliminare un ramo Git localmente?

Come installare TimeShift su Raspberry Pi

Installazione di Python semplificata su Ubuntu

Vettore C++ di coppie

Modello di fabbrica in C++

Pandas Dataframe Unico

Come scaricare ed eseguire CCleaner Professional in Windows?

Come rimuovere immagini Docker, contenitori e volumi

Come utilizzare il costruttore di prototipi di array in JavaScript

Comando snmpwalk in Linux

Qual è la differenza tra query fuzzy e query con corrispondenza?

Come collego il mio account Discord su Crunchyroll

Come realizzare impalcature in Minecraft

Come reimpostare/disinstallare completamente NextCloud AIO

ES6 mappa una matrice di oggetti per restituire una matrice di oggetti con nuove chiavi

Redis GETEX

Come mostrare e nascondere un Div con la transizione in CSS