Починить кодировку CSV — Windows-1252 в UTF-8
Видите é, ü, ö вместо é, ü, ö? Файл сохранили в одной кодировке, прочитали в другой. Мы определяем, в какой именно, и конвертируем в UTF-8 — Müller снова выглядит как Müller.
Кодировка починена
До
ä, ö, ü, é
После
ä, ö, ü, é
Перетащите CSV-файл сюда
или нажмите, чтобы выбрать
Исправление «encoding» будет обнаружено автоматически.
Что это и почему важно?
Одна из самых частых проблем с CSV. Имена, адреса, описания товаров превращаются в абракадабру — Müller становится Müller, café становится café. Данные не испорчены, их просто читают с неправильными настройками.
Типично это случается с файлами из старых систем, европейского софта, SAP, старых Excel. Файл сохранили в одной текстовой кодировке, а компьютер пытается прочитать в другой.
CSV First Aid находит исходный формат и конвертирует текст так, чтобы акценты, умляуты и спецсимволы отображались как должно.
Как это работает
- 1Перетащите CSV. Мы определяем, в какой текстовой кодировке он сохранён.
- 2Если находим искажённые символы — в диагнозе указана определённая кодировка.
- 3Применить — текст читается корректно. Скачать.
FAQ
В чём разница между Windows-1252 и ISO-8859-1?
Почти идентичны. Windows-1252 расширяет ISO-8859-1 печатными символами в диапазоне 0x80–0x9F (фигурные кавычки, длинные тире). CSV First Aid обрабатывает обе.
Можно ли починить проблемы с китайской или японской кодировкой?
Сейчас обнаруживаем и конвертируем между UTF-8 и Windows-1252/Latin-1. Проблемы CJK (Shift_JIS, GB2312, EUC-KR) требуют другого подхода. Возможно, добавим поддержку позже.
В Excel файл выглядит нормально, в Python ломается. Почему?
Excel сам определяет кодировку. csv.reader в Python по умолчанию ждёт UTF-8. Если файл в Windows-1252 — Python видит мусор. Фикс: сконвертировать в UTF-8 здесь, или передать encoding='cp1252' в pandas.read_csv().
Похожие инструменты
Убрать UTF-8 BOM из CSV
Первая колонка выглядит как 'ID' вместо 'ID'? Это UTF-8 BOM — три невидимых байта, которые оставляет большинство экспортёров. Мы их срезаем, и заголовок снова читается чисто.
Убрать невидимые символы из CSV
NBSP, zero-width joiners, залётные control-байты — вы их не видите в Excel, но VLOOKUP видит и не матчит. Сканируем каждую ячейку и убираем то, чего не должно быть.
Конвертер кодировок CSV
Перекодируйте CSV между UTF-8, Windows-1252, ISO-8859-1, Shift_JIS, GBK, EUC-KR, Big5. Читаем байты и угадываем источник — BOM не всегда есть, но статистика выдаёт.