Torna ai template
Analisi DatiBaseUser Prompt

Generatore Checklist Pulizia Dati

29 marzo 2026·🇬🇧 English

Il Generatore di Checklist per la Pulizia Dati produce un piano di pulizia strutturato e specifico per il tuo dataset, così puoi individuare problemi di qualità prima che compromettano l'analisi. Invece di applicare una checklist generica, adatta i suggerimenti alle tue colonne, ai tipi di dato e al dominio specifico.

Analisti di dati, data scientist e chiunque prepari dati per report o machine learning usano questo template all'inizio di un nuovo progetto di analisi. È particolarmente utile quando si lavora con dati esterni poco strutturati (export CSV, dump da API, dataset di terze parti) dove i problemi di qualità sono frequenti ma imprevedibili.

Il prompt funziona chiedendoti di descrivere la struttura del dataset, per poi generare controlli organizzati per categoria (completezza, coerenza, accuratezza, validità). Ogni controllo include le colonne specifiche da ispezionare, cosa cercare e una correzione suggerita, rendendolo operativo e non solo teorico.

Questo prompt e' solo il punto di partenza

Analizzalo con l'AI, ottimizzalo con un click, tieni traccia delle versioni e costruisci la tua libreria.

Punteggio AI su 6 criteri di qualita'
Ottimizzazione con 3 strategie in un click
Storico versioni per monitorare i progressi

Il Prompt

Genera una checklist di pulizia dati su misura per il seguente dataset:

**Descrizione del Dataset**: [DESCRIVI IL TUO DATASET, es. "Dati di ordini e-commerce esportati da Shopify, da gennaio 2024 a dicembre 2024"]
**Numero di Righe (approssimativo)**: [CONTEGGIO RIGHE, es. 50.000]
**Colonne e Tipi**:
```
[ELENCA LE TUE COLONNE, es.
order_id (string) - identificativo univoco ordine
customer_email (string) - indirizzo email del cliente
order_date (datetime) - data di creazione dell'ordine
total_amount (float) - totale ordine in EUR
status (string) - pending, completed, refunded, cancelled
product_name (string) - nome del prodotto acquistato
quantity (integer) - numero di articoli]
```
**Problemi Noti (se presenti)**: [EVENTUALI PROBLEMI GIÀ IDENTIFICATI, es. "Alcune date ordine sono nel 2019, prima del nostro lancio"]

Genera una checklist di pulizia organizzata in queste categorie:

### 1. Controlli di Completezza
Per ogni colonna, identifica: tasso atteso di valori mancanti, come rilevare null/vuoti e gestione raccomandata (eliminare, imputare, contrassegnare).

### 2. Rilevamento Duplicati
Cosa costituisce un duplicato in questo dataset? Suggerisci controlli di corrispondenza esatta e approssimativa sulle colonne più soggette a duplicazione.

### 3. Controlli di Coerenza
Identifica le colonne che devono seguire formati specifici (date, email, numeri di telefono, valute) e come validarle. Segnala colonne che si riferiscono l'una all'altra (es. quantità * prezzo deve corrispondere al totale).

### 4. Rilevamento Outlier
Per le colonne numeriche, suggerisci metodi statistici per identificare outlier (IQR, z-score, intervalli specifici del dominio) e quali soglie usare.

### 5. Controlli di Validità
Identifica le colonne con intervalli o insiemi di valori attesi (es. lo status deve essere uno dei 4 valori previsti) e come trovare voci non valide.

Per ogni controllo, fornisci:
- Cosa cercare (condizione specifica)
- Quale/i colonna/e ispezionare
- Correzione o approccio di gestione suggerito
- Priorità (ALTA/MEDIA/BASSA)

Concludi con una sezione "Statistiche Rapide": suggerisci 5 statistiche di riepilogo da calcolare per prime (prima della pulizia) per comprendere la qualità di base dei dati.

Consigli d'uso

  • Includi tutte le tue colonne: anche quelle che sembrano pulite (come un ID auto-incrementale). L'AI potrebbe individuare problemi di validazione incrociata tra colonne che non avevi considerato.
  • Menziona i problemi noti: se hai già individuato anomalie (intervalli di date sbagliati, formati email sospetti), segnalali. La checklist li includerà e suggerirà controlli correlati che potresti aver trascurato.
  • Usa questa checklist prima di qualsiasi analisi: completarla richiede circa 30 minuti, ma può far risparmiare giorni di debug su conclusioni errate causate da dati sporchi.
  • Esporta la checklist come lista di attività: copia l'output nel tuo strumento di project management come lista di task, spunta le voci man mano che le completi e documenta le correzioni applicate.

analystanalysisquality-improvement

Ottieni di piu' da questo prompt

Salvalo, analizzalo con l'AI, ottimizzalo e tieni traccia di ogni versione. Gratis per iniziare.

Punteggio AI su 6 criteri di qualita'
Ottimizzazione con 3 strategie in un click
Storico versioni per monitorare i progressi