Zum Hauptinhalt springen
CSV First Aid

CSV-Kodierungsprobleme beheben — UTF-8 vs Windows-1252

Kodierungsprobleme sind die Nummer eins bei verstümmeltem Text in CSV-Dateien. Diese Anleitung erklärt, was Kodierung ist, warum UTF-8 und Windows-1252 kollidieren, und wie man es in allen gängigen Tools behebt.

Was ist Zeichenkodierung?

Zeichenkodierung ist die Abbildung von Bytes auf Zeichen. UTF-8 nutzt 1–4 Bytes pro Zeichen und deckt jedes Unicode-Zeichen ab. Windows-1252 (auch CP-1252 oder Latin-1) nutzt genau 1 Byte pro Zeichen und deckt westeuropäische Sprachen ab.

Das Problem: eine Byte-Sequenz wie 0xC3 0xA9 bedeutet é in UTF-8, wird aber in Windows-1252 als zwei Zeichen falsch gelesen. Mit der falschen Kodierung dekodiert, bekommen Sie Mojibake — verstümmelten Text, der wie zufällige Symbole aussieht.


Wie erkennt man die Kodierung einer CSV-Datei?

In Python: import chardet; chardet.detect(open('file.csv','rb').read()) gibt die Kodierung mit einem Konfidenz-Score zurück. Der 'file'-Befehl auf Unix: file -i data.csv zeigt den erkannten Zeichensatz.

In der Praxis sind die beiden häufigsten Fälle: (1) die Datei ist gültiges UTF-8, oder (2) sie ist Windows-1252 und enthält Zeichen mit Codes über 0x7F. CSV First Aid prüft automatisch beides.


Kodierung in Python reparieren

Lesen: pd.read_csv('file.csv', encoding='cp1252') wenn die Datei Windows-1252 ist. Konvertieren: mit der richtigen Kodierung lesen, dann als UTF-8 schreiben: df.to_csv('clean.csv', encoding='utf-8', index=False).

Wenn die Kodierung unsicher ist: erst UTF-8 versuchen. Sehen Sie Ersatzzeichen (\ufffd), auf cp1252 zurückfallen. Das macht CSV First Aid intern genau so.


Kodierung in Excel reparieren

Excel auf Windows: Daten → Aus Text/CSV → Dateiursprung → '65001: Unicode (UTF-8)' wählen. Excel auf Mac: Datei → Importieren → CSV → Kodierung einstellen.

Der BOM-Trick: fügen Sie ein UTF-8-BOM (EF BB BF) am Dateianfang hinzu, erkennt Excel automatisch UTF-8. CSV First Aid kann beim Export auf Wunsch ein BOM hinzufügen, für Excel-Kompatibilität.


Best Practices

Immer als UTF-8 exportieren. Kodierung beim Lesen immer explizit angeben (nicht auf Defaults vertrauen). Nach der Konvertierung immer validieren — Datei öffnen und prüfen, ob Umlaute korrekt angezeigt werden.

Im Zweifel durch CSV First Aid laufen lassen. Es erkennt die Kodierung, konvertiert nach UTF-8 und entfernt das BOM in einem Schritt.

Keine Lust, chardet- oder iconv-Flags zu raten? CSV First Aid übernimmt die Erkennung.

CSV jetzt reparieren →

Ähnliche Tools