Zum Hauptinhalt springen
CSV First Aid

Doppelte Zeilen aus einer CSV entfernen

Gleiche Zeile drei Mal — kaputter Join, fehlendes DISTINCT, gestriges Skript zwei Mal gelaufen. Wir vergleichen jede Zeile mit jeder anderen und entfernen die exakten Treffer, behalten das erste Vorkommen.

Duplikate entfernt

Vorher

A,B
1,2
1,2
3,4

Nachher

A,B
1,2
3,4

CSV-Datei hier ablegen

oder zum Auswählen klicken

Die Reparatur „duplicate rows" wird automatisch erkannt.

Was ist das und warum ist es wichtig?

Doppelte Zeilen entstehen beim Zusammenführen von Tabellen, Re-Export von Daten, Copy-Paste von Einträgen oder Kombinieren überlappender Quellen. In großen Dateien leicht zu übersehen — Zeilenzahlen wirken aufgebläht, Summen stimmen nicht, und man weiß nicht, welche Datensätze echt sind.

CSV First Aid vergleicht jede Zeile mit jeder anderen und markiert exakte Duplikate. Das erste Vorkommen bleibt immer erhalten, nur die Wiederholungen werden entfernt.

Da dieser Fix nach anderen läuft (Trimmen, unsichtbare Zeichen entfernen), findet er auch Zeilen, die erst nach der Bereinigung zu Duplikaten werden — z. B. zwei Zeilen, die wegen versteckter Leerzeichen unterschiedlich aussahen.

So funktioniert es

  1. 1CSV ablegen. Wir vergleichen jede Zeile, um exakte Duplikate zu finden.
  2. 2Die Diagnose zeigt, wie viele Duplikate gefunden wurden. Dieser Fix ist NICHT standardmäßig aktiv — Sie aktivieren ihn manuell, da Duplikate manchmal beabsichtigt sind.
  3. 3Aktivieren, Anwenden → Duplikate werden entfernt. Der Report zeigt, wie viele Zeilen rausgeflogen sind.

FAQ

Warum ist dieser Fix opt-in statt standardmäßig aktiv?

Manche Datensätze haben legitimerweise identische Zeilen (z. B. Transaktionslogs, Zeitreihen). Standardmäßiges Entfernen könnte Datenverlust verursachen. Sie müssen es bewusst aktivieren.

Werden Fast-Duplikate (fuzzy matching) erkannt?

Aktuell nur exakte Duplikate (alle Zellen identisch). Fuzzy-Deduplizierung braucht domänenspezifische Regeln und ist für ein zukünftiges Release geplant.

Welches Vorkommen bleibt — das erste oder letzte?

Das erste bleibt immer. Alle nachfolgenden identischen Zeilen werden entfernt.

Ähnliche Tools