Zum Hauptinhalt springen
CSV First Aid

Kaputte CSV reparieren — vollständige Anleitung

CSV-Dateien gehen auf Dutzende Arten kaputt — verstümmelte Zeichen, verschobene Spalten, Geister-Leerzeilen, falsch sortierte Daten. Diese Anleitung behandelt jeden typischen Ausfall, erklärt die Ursache und zeigt die Reparatur (manuell und mit CSV First Aid).

1. Verstümmelte Zeichen (Kodierungsprobleme)

Sehen Sie verstümmelte Sequenzen wie é statt lesbarer Zeichen, wurde die Datei in Windows-1252 oder Latin-1 gespeichert, aber als UTF-8 geöffnet. Das nennt man Mojibake.

Manuell: in Python mit encoding='cp1252' öffnen. In Excel: Textimport-Assistent und '65001: Unicode (UTF-8)' oder '1252: Westeuropäisch' wählen, je nach tatsächlicher Kodierung.

Automatisch: Datei in CSV First Aid ablegen. Die Kodierungserkennung identifiziert Windows-1252-Muster und dekodiert zu sauberem UTF-8.


2. Erste Spaltenüberschrift beginnt mit Müll (BOM)

Sieht Ihre erste Überschrift wie id oder \ufeffid aus, hat die Datei ein UTF-8-BOM (Byte Order Mark). Drei unsichtbare Bytes an Position 0, die Excel beim Speichern als 'CSV UTF-8' hinzugefügt hat.

Manuell: in einem Hex-Editor die Bytes EF BB BF löschen. In Python: open('file.csv', encoding='utf-8-sig').

Automatisch: CSV First Aid entfernt das BOM beim Einlesen.


3. Daten in falsche Spalten verschoben (kaputte Quotes)

Enthält ein Feld ein Komma oder einen Zeilenumbruch und ist nicht korrekt gequotet, zersplittert der Parser es über mehrere Spalten oder Zeilen. Ein einziges nicht geschlossenes Quote verschiebt jedes folgende Feld.

Manuell: das problematische Feld suchen (nach nicht paarweisen Quotes), fehlendes schließendes Quote ergänzen, innere Quotes durch Verdoppeln escapen ("").

Automatisch: der tolerante Parser von CSV First Aid erholt sich von nicht geschlossenen Quotes und re-quotet alle Felder beim Export korrekt.


4. Alles in einer Spalte (falsches Trennzeichen)

Erscheinen Ihre Daten in einer einzigen Spalte, nutzt die Datei ein anderes Trennzeichen als Ihr Tool erwartet. Europäische Exporte nutzen oft Semikolons, weil Kommas dort Dezimaltrennzeichen sind.

Manuell: neu importieren mit korrektem Trennzeichen. In Excel: Daten → Text in Spalten → Getrennt → richtiges Zeichen wählen. In Pandas: pd.read_csv('file.csv', sep=';').

Automatisch: CSV First Aid erkennt das Trennzeichen und lässt Sie in jedes Standardformat konvertieren.


5. Falsch sortierte oder fehlinterpretierte Daten

Mischt eine Spalte Formate (01/03/2024 vs 2024-03-01 vs 1. März 2024), scheitert die Sortierung und Imports interpretieren die Daten falsch. Ist 01/02/2024 der 2. Januar oder der 1. Februar?

Manuell: Regex-Ersetzung oder ein Skript, das jedes Format parst und ISO 8601 (JJJJ-MM-TT) ausgibt.

Automatisch: CSV First Aid erkennt gemischte Datumsmuster pro Spalte und normalisiert auf ISO 8601.


6. Unsichtbare Probleme (Whitespace, NBSP, Zero-Width-Zeichen)

Die frustrierendsten CSV-Bugs sind unsichtbar. Nachgestellte Leerzeichen lassen SVERWEIS scheitern. Geschützte Leerzeichen (NBSP) sehen aus wie normale, matchen aber nicht. Zero-Width-Zeichen aus Web-Scraping brechen stillschweigend Joins.

Manuell: in Python entfernt strip() Whitespace, aber kein NBSP. Sie brauchen Regex: re.sub(r'[\u00a0\u200b\ufeff]', '', text).

Automatisch: CSV First Aids Invisible-Character-Cleaner plus Whitespace-Trimmer erledigen das alles in einem Durchlauf.


7. Leerzeilen und abschließende Zeilenumbrüche

Zusätzliche Leerzeilen blähen Zeilenzahlen auf, brechen Importer, die dichte Daten erwarten, und erzeugen Geister-NULL-Datensätze in Datenbanken.

Manuell: in einem Texteditor öffnen und Leerzeilen löschen. Vorsicht beim abschließenden Zeilenumbruch — laut RFC 4180 gültig, aber viele Parser erzeugen daraus eine leere Endzeile.

Automatisch: den 'Leere Zeilen'-Fix in CSV First Aid aktivieren.


8. Die 'Unnamed: 0'-Spalte (Pandas-Index-Leak)

Sehen Sie einen numerischen Index als erste Spalte mit dem Header 'Unnamed: 0', wurde die Datei mit Pandas' df.to_csv() ohne index=False erstellt.

Manuell: pd.read_csv('file.csv', index_col=0) oder die erste Spalte löschen.

Automatisch: CSV First Aid erkennt und entfernt die Spalte mit fortlaufenden Ganzzahlen.

Keine Lust, das von Hand zu machen? Datei in CSV First Aid ablegen — die gleichen Prüfungen laufen automatisch.

CSV jetzt reparieren →

Ähnliche Tools