What Makes Good Data?

Context: why “good data” matters

Data quality is not an abstract ideal; it is a practical requirement for reliable analytics, operational processes, and regulatory reporting. When data is inaccurate, incomplete, inconsistent, late, or poorly governed, downstream outcomes degrade: metrics drift, models mislead, teams stop trusting dashboards, and remediation costs rise. A useful starting point (aligned with DAMA-DMBOK and widely cited data quality research) is to treat data quality as fitness for use: “good” means the data is suitable for a specific decision or operational process, with clearly defined expectations and tolerances.

What “good data” means: fitness-for-use and requirements

“Good data” is data that meets explicit, testable requirements for a defined context:

Use case: What decisions, processes, or products depend on the data?
Consumers: Who uses it (finance, operations, data science, customers via a data product)?
Risk and criticality: What happens if the data is wrong or late (regulatory exposure, customer impact, revenue loss)?
Quality thresholds: What error rates, freshness, and completeness are acceptable? This framing turns data quality from a general aspiration into an engineering and governance practice: define quality expectations, implement controls, monitor continuously, and remediate with clear ownership.

Core data quality dimensions (common set)

Many organizations use a common set of data quality dimensions as a vocabulary for requirements and measurement. The following six dimensions are frequently used in data governance programs and are consistent with how DAMA-DMBOK describes data quality concerns.

Accuracy: Values correctly represent the real-world entity/event they describe.
- Example checks: compare to authoritative sources; validate calculated fields; reconcile totals to systems of record.
Completeness: Required data is present at the needed level of coverage.
- Example checks: non-null for required fields; record-level coverage (e.g., all stores reporting); event coverage (e.g., all orders have a shipment).
Consistency: The same concept has the same value/meaning across datasets and systems.
- Example checks: cross-system reconciliation; consistent code sets; consistent aggregation logic; consistent definitions in the semantic layer.
Timeliness (freshness): Data is available when needed and reflects the appropriate point-in-time state.
- Example checks: latency against an SLA; “data is updated by 9:00 AM local time”; event arrival delay distributions.