Doppelte Zeilen aus einer CSV entfernen
Gleiche Zeile drei Mal — kaputter Join, fehlendes DISTINCT, gestriges Skript zwei Mal gelaufen. Wir vergleichen jede Zeile mit jeder anderen und entfernen die exakten Treffer, behalten das erste Vorkommen.
Duplikate entfernt
Vorher
A,B 1,2 1,2 3,4
Nachher
A,B 1,2 3,4
CSV-Datei hier ablegen
oder zum Auswählen klicken
Die Reparatur „duplicate rows" wird automatisch erkannt.
Was ist das und warum ist es wichtig?
Doppelte Zeilen entstehen beim Zusammenführen von Tabellen, Re-Export von Daten, Copy-Paste von Einträgen oder Kombinieren überlappender Quellen. In großen Dateien leicht zu übersehen — Zeilenzahlen wirken aufgebläht, Summen stimmen nicht, und man weiß nicht, welche Datensätze echt sind.
CSV First Aid vergleicht jede Zeile mit jeder anderen und markiert exakte Duplikate. Das erste Vorkommen bleibt immer erhalten, nur die Wiederholungen werden entfernt.
Da dieser Fix nach anderen läuft (Trimmen, unsichtbare Zeichen entfernen), findet er auch Zeilen, die erst nach der Bereinigung zu Duplikaten werden — z. B. zwei Zeilen, die wegen versteckter Leerzeichen unterschiedlich aussahen.
So funktioniert es
- 1CSV ablegen. Wir vergleichen jede Zeile, um exakte Duplikate zu finden.
- 2Die Diagnose zeigt, wie viele Duplikate gefunden wurden. Dieser Fix ist NICHT standardmäßig aktiv — Sie aktivieren ihn manuell, da Duplikate manchmal beabsichtigt sind.
- 3Aktivieren, Anwenden → Duplikate werden entfernt. Der Report zeigt, wie viele Zeilen rausgeflogen sind.
FAQ
Warum ist dieser Fix opt-in statt standardmäßig aktiv?
Manche Datensätze haben legitimerweise identische Zeilen (z. B. Transaktionslogs, Zeitreihen). Standardmäßiges Entfernen könnte Datenverlust verursachen. Sie müssen es bewusst aktivieren.
Werden Fast-Duplikate (fuzzy matching) erkannt?
Aktuell nur exakte Duplikate (alle Zellen identisch). Fuzzy-Deduplizierung braucht domänenspezifische Regeln und ist für ein zukünftiges Release geplant.
Welches Vorkommen bleibt — das erste oder letzte?
Das erste bleibt immer. Alle nachfolgenden identischen Zeilen werden entfernt.
Ähnliche Tools
CSV-Whitespace-Trimmer
Ein einziges nachgestelltes Leerzeichen ist der Grund, warum SVERWEIS nichts findet, warum zwei Zeilen wie Duplikate aussehen aber keine sind, warum der Join stillschweigend die Hälfte verliert. Ein Durchlauf trimmt jede Zelle — Matches funktionieren wieder.
Unsichtbare Zeichen aus einer CSV entfernen
NBSP, Zero-Width-Joiner, versprengte Control-Bytes — Excel zeigt sie nicht, aber SVERWEIS sieht sie und matcht nicht. Wir scannen jede Zelle und entfernen, was nicht hingehört.
CSV zu Excel (XLSX)
CSV rein, .xlsx raus. Kodierung wird aus den Bytes erkannt, Sonderzeichen überleben den Roundtrip, Spaltenbreiten passen sich automatisch an. Öffnet sich gleich in Excel, Google Sheets und Numbers.