Починить кодировку CSV — Windows-1252 в UTF-8
Видите é, ü, ö вместо é, ü, ö? Файл сохранили в одной кодировке, прочитали в другой. Мы определяем, в какой именно, и конвертируем в UTF-8 — Müller снова выглядит как Müller.
Кодировка починена
До
ä, ö, ü, é
После
ä, ö, ü, é
Перетащите CSV-файл сюда
или нажмите, чтобы выбрать
Исправление «encoding» будет обнаружено автоматически.
Что это и почему важно?
Одна из самых частых проблем с CSV. Имена, адреса, описания товаров превращаются в абракадабру — Müller становится Müller, café становится café. Данные не испорчены, их просто читают с неправильными настройками.
Типично это случается с файлами из старых систем, европейского софта, SAP, старых Excel. Файл сохранили в одной текстовой кодировке, а компьютер пытается прочитать в другой.
CSV First Aid находит исходный формат и конвертирует текст так, чтобы акценты, умляуты и спецсимволы отображались как должно.
Как это работает
- 1Перетащите CSV. Мы определяем, в какой текстовой кодировке он сохранён.
- 2Если находим искажённые символы — в диагнозе указана определённая кодировка.
- 3Применить — текст читается корректно. Скачать.
FAQ
В чём разница между Windows-1252 и ISO-8859-1?
Почти идентичны. Windows-1252 расширяет ISO-8859-1 печатными символами в диапазоне 0x80–0x9F (фигурные кавычки, длинные тире). CSV First Aid обрабатывает обе.
Можно ли починить проблемы с китайской или японской кодировкой?
Сейчас обнаруживаем и конвертируем между UTF-8 и Windows-1252/Latin-1. Проблемы CJK (Shift_JIS, GB2312, EUC-KR) требуют другого подхода. Возможно, добавим поддержку позже.
В Excel файл выглядит нормально, в Python ломается. Почему?
Excel сам определяет кодировку. csv.reader в Python по умолчанию ждёт UTF-8. Если файл в Windows-1252 — Python видит мусор. Фикс: сконвертировать в UTF-8 здесь, или передать encoding='cp1252' в pandas.read_csv().