CSV-Kodierung reparieren — Windows-1252 zu UTF-8
é, ü, ö statt é, ü, ö? Die Datei wurde in einer Kodierung gespeichert und in einer anderen gelesen. Wir finden heraus, welche, und konvertieren nach UTF-8 — dann sieht Müller wieder wie Müller aus.
Kodierung repariert
Vorher
ä, ö, ü, é
Nachher
ä, ö, ü, é
CSV-Datei hier ablegen
oder zum Auswählen klicken
Die Reparatur „encoding" wird automatisch erkannt.
Was ist das und warum ist es wichtig?
Eines der häufigsten CSV-Probleme. Namen, Adressen und Produktbeschreibungen erscheinen als Kauderwelsch — Müller wird Müller, café wird café. Die Daten sind nicht kaputt, sie werden nur mit den falschen Einstellungen gelesen.
Das passiert typischerweise bei Exporten aus älteren Systemen, europäischer Software, SAP oder älteren Excel-Versionen. Die Datei wurde in einem Textformat gespeichert, Ihr Rechner liest sie in einem anderen.
CSV First Aid erkennt das Originalformat und konvertiert den Text so, dass Akzente, Umlaute und Sonderzeichen wieder korrekt erscheinen.
So funktioniert es
- 1CSV ablegen. Wir erkennen, in welchem Textformat sie gespeichert wurde.
- 2Wenn wir verstümmelte Zeichen finden, zeigt die Diagnose die erkannte Kodierung.
- 3Fix anwenden — der Text liest sich korrekt. Herunterladen.
FAQ
Was ist der Unterschied zwischen Windows-1252 und ISO-8859-1?
Fast identisch. Windows-1252 erweitert ISO-8859-1 um druckbare Zeichen im Bereich 0x80–0x9F (geschwungene Anführungszeichen, Gedankenstriche). CSV First Aid verarbeitet beide.
Kann das auch Chinesisch oder Japanisch reparieren?
Aktuell nur Konvertierung zwischen UTF-8 und Windows-1252/Latin-1. CJK-Probleme (Shift_JIS, GB2312, EUC-KR) brauchen einen anderen Ansatz. Unterstützung ist möglicherweise geplant.
In Excel sieht die Datei okay aus, in Python bricht sie. Warum?
Excel erkennt die Kodierung automatisch. Pythons csv.reader nimmt standardmäßig UTF-8 an. Bei einer Windows-1252-Datei sieht Python Müll. Lösung: hier nach UTF-8 konvertieren, oder encoding='cp1252' an pandas.read_csv() übergeben.
Ähnliche Tools
UTF-8-BOM aus Ihrer CSV entfernen
Erste Spalte zeigt 'ID' statt 'ID'? Das ist ein UTF-8-BOM — drei unsichtbare Bytes, die die meisten Export-Tools hinterlassen. Wir entfernen sie und die Überschrift liest sich wieder sauber.
Unsichtbare Zeichen aus einer CSV entfernen
NBSP, Zero-Width-Joiner, versprengte Control-Bytes — Excel zeigt sie nicht, aber SVERWEIS sieht sie und matcht nicht. Wir scannen jede Zelle und entfernen, was nicht hingehört.
CSV-Kodierungs-Konverter
CSV zwischen UTF-8, Windows-1252, ISO-8859-1, Shift_JIS, GBK, EUC-KR, Big5 umkodieren. Wir lesen die Bytes und raten die Quelle — ein BOM fehlt oft, aber die Statistik verrät sie.