Починить кодировку CSV — Windows-1252 в UTF-8

Видите Ã©, Ã¼, Ã¶ вместо é, ü, ö? Файл сохранили в одной кодировке, прочитали в другой. Мы определяем, в какой именно, и конвертируем в UTF-8 — Müller снова выглядит как Müller.

Кодировка починена

До

Ã¤, Ã¶, Ã¼, Ã©

После

ä, ö, ü, é

Перетащите CSV-файл сюда

или нажмите, чтобы выбрать

Исправление «encoding» будет обнаружено автоматически.

Что это и почему важно?

Одна из самых частых проблем с CSV. Имена, адреса, описания товаров превращаются в абракадабру — Müller становится MÃ¼ller, café становится cafÃ©. Данные не испорчены, их просто читают с неправильными настройками.

Типично это случается с файлами из старых систем, европейского софта, SAP, старых Excel. Файл сохранили в одной текстовой кодировке, а компьютер пытается прочитать в другой.

CSV First Aid находит исходный формат и конвертирует текст так, чтобы акценты, умляуты и спецсимволы отображались как должно.

Как это работает

1Перетащите CSV. Мы определяем, в какой текстовой кодировке он сохранён.
2Если находим искажённые символы — в диагнозе указана определённая кодировка.
3Применить — текст читается корректно. Скачать.

FAQ

В чём разница между Windows-1252 и ISO-8859-1?

Почти идентичны. Windows-1252 расширяет ISO-8859-1 печатными символами в диапазоне 0x80–0x9F (фигурные кавычки, длинные тире). CSV First Aid обрабатывает обе.

Можно ли починить проблемы с китайской или японской кодировкой?

Сейчас обнаруживаем и конвертируем между UTF-8 и Windows-1252/Latin-1. Проблемы CJK (Shift_JIS, GB2312, EUC-KR) требуют другого подхода. Возможно, добавим поддержку позже.

В Excel файл выглядит нормально, в Python ломается. Почему?

Excel сам определяет кодировку. csv.reader в Python по умолчанию ждёт UTF-8. Если файл в Windows-1252 — Python видит мусор. Фикс: сконвертировать в UTF-8 здесь, или передать encoding='cp1252' в pandas.read_csv().