Data Mining ist ein analytischer Prozess, der eine möglichst autonome und effiziente Identifizierung und Beschreibung von interessanten Datenmustern aus großen Datenbeständen ermöglicht.
Bei Data Mining handelt es sich um einen interdisziplinären Ansatz, der Methoden aus der Informatik und der Statistik verwendet. Häufig kommen Verfahren aus dem Bereich der künstlichen Intelligenz und des maschinellen Lernens zum Einsatz.
Eine allgemeingültige Definition für Data Mining gibt es nicht. Jedoch ist es wichtig eine Abgrenzung zur sogenannten Wissensentdeckung in Datenbanken – dem Knowledge Discovery in Data Bases (KDD) – herzustellen. Viele Werke schreiben diesen Begriffen dieselbe Bedeutung zu. Das ist jedoch nicht ganz richtig. Die Wissensentdeckung in Datenbanken ist ein umfassenderer Prozess, der die Data-Mining-Methoden einschließt. Er beinhaltet darüber hinaus jedoch auch Aufgaben, wie die Vorbereitung der Daten, die Überprüfung auf Interferenzen oder die Visualisierung der Ergebnisse.
Die Zielsetzung von Data Mining ist in der Regel die Generierung von Hypothesen aus einem Datenbestand, eine so genannte hypothesenfreie Bottom-Up-Vorgehensweise.