Generatore Checklist Pulizia Dati
Il Generatore di Checklist per la Pulizia Dati produce un piano di pulizia strutturato e specifico per il tuo dataset, così puoi individuare problemi di qualità prima che compromettano l'analisi. Invece di applicare una checklist generica, adatta i suggerimenti alle tue colonne, ai tipi di dato e al dominio specifico.
Analisti di dati, data scientist e chiunque prepari dati per report o machine learning usano questo template all'inizio di un nuovo progetto di analisi. È particolarmente utile quando si lavora con dati esterni poco strutturati (export CSV, dump da API, dataset di terze parti) dove i problemi di qualità sono frequenti ma imprevedibili.
Il prompt funziona chiedendoti di descrivere la struttura del dataset, per poi generare controlli organizzati per categoria (completezza, coerenza, accuratezza, validità). Ogni controllo include le colonne specifiche da ispezionare, cosa cercare e una correzione suggerita, rendendolo operativo e non solo teorico.
This prompt is just the starting point
Score it with AI, optimize it with one click, track versions, and build your prompt library.
The Prompt
Genera una checklist di pulizia dati su misura per il seguente dataset: **Descrizione del Dataset**: [DESCRIVI IL TUO DATASET, es. "Dati di ordini e-commerce esportati da Shopify, da gennaio 2024 a dicembre 2024"] **Numero di Righe (approssimativo)**: [CONTEGGIO RIGHE, es. 50.000] **Colonne e Tipi**: ``` [ELENCA LE TUE COLONNE, es. order_id (string) - identificativo univoco ordine customer_email (string) - indirizzo email del cliente order_date (datetime) - data di creazione dell'ordine total_amount (float) - totale ordine in EUR status (string) - pending, completed, refunded, cancelled product_name (string) - nome del prodotto acquistato quantity (integer) - numero di articoli] ``` **Problemi Noti (se presenti)**: [EVENTUALI PROBLEMI GIÀ IDENTIFICATI, es. "Alcune date ordine sono nel 2019, prima del nostro lancio"] Genera una checklist di pulizia organizzata in queste categorie: ### 1. Controlli di Completezza Per ogni colonna, identifica: tasso atteso di valori mancanti, come rilevare null/vuoti e gestione raccomandata (eliminare, imputare, contrassegnare). ### 2. Rilevamento Duplicati Cosa costituisce un duplicato in questo dataset? Suggerisci controlli di corrispondenza esatta e approssimativa sulle colonne più soggette a duplicazione. ### 3. Controlli di Coerenza Identifica le colonne che devono seguire formati specifici (date, email, numeri di telefono, valute) e come validarle. Segnala colonne che si riferiscono l'una all'altra (es. quantità * prezzo deve corrispondere al totale). ### 4. Rilevamento Outlier Per le colonne numeriche, suggerisci metodi statistici per identificare outlier (IQR, z-score, intervalli specifici del dominio) e quali soglie usare. ### 5. Controlli di Validità Identifica le colonne con intervalli o insiemi di valori attesi (es. lo status deve essere uno dei 4 valori previsti) e come trovare voci non valide. Per ogni controllo, fornisci: - Cosa cercare (condizione specifica) - Quale/i colonna/e ispezionare - Correzione o approccio di gestione suggerito - Priorità (ALTA/MEDIA/BASSA) Concludi con una sezione "Statistiche Rapide": suggerisci 5 statistiche di riepilogo da calcolare per prime (prima della pulizia) per comprendere la qualità di base dei dati.
Usage Tips
- Includi tutte le tue colonne: anche quelle che sembrano pulite (come un ID auto-incrementale). L'AI potrebbe individuare problemi di validazione incrociata tra colonne che non avevi considerato.
- Menziona i problemi noti: se hai già individuato anomalie (intervalli di date sbagliati, formati email sospetti), segnalali. La checklist li includerà e suggerirà controlli correlati che potresti aver trascurato.
- Usa questa checklist prima di qualsiasi analisi: completarla richiede circa 30 minuti, ma può far risparmiare giorni di debug su conclusioni errate causate da dati sporchi.
- Esporta la checklist come lista di attività: copia l'output nel tuo strumento di project management come lista di task, spunta le voci man mano che le completi e documenta le correzioni applicate.
Get more from this prompt
Save it, score it with AI, optimize it, and track every version. Free to start.