6 самых частых ошибок импорта CSV и как их починить
Каждый дата-инженер терял часы на отладку CSV-импорта. Вот шесть самых частых ошибок, почему они случаются и самый быстрый способ починить каждую.
Ошибка 1: Искажённые символы (несоответствие кодировки)
Симптом: искажённые последовательности вроде é вместо читаемых символов. Причина: файл сохранён в Windows-1252, открыт как UTF-8. Фикс: перекодировать с правильной кодировкой, или использовать автоопределение CSV First Aid.
Ошибка 2: Первый заголовок начинается с мусора (BOM)
Симптом: заголовок '\ufeffid' вместо 'id'. Key lookup-ы падают. Причина: UTF-8 BOM от Excel-овского 'Сохранить как CSV UTF-8'. Фикс: убрать 3-байтовый BOM-префикс.
Ошибка 3: Данные в одной колонке (неверный разделитель)
Симптом: вся строка оказывается в одной ячейке. Причина: файл использует точку с запятой/табы, но парсер ждёт запятые. Фикс: определить реальный разделитель и переэкспортировать.
Ошибка 4: Съехавшие колонки (битые кавычки)
Симптом: с определённой строки данные оказываются не в тех колонках. Причина: незакрытая или неэкранированная кавычка. Фикс: починить квотинг по RFC 4180.
Ошибка 5: 'Expected N columns, got M' (несогласованное число колонок)
Симптом: импорт отвергает файл или обрезает строки. Причина: у некоторых строк лишние или пропущенные поля. Фикс: добить короткие строки и пометить длинные.
Ошибка 6: Фантомные пустые строки или лишние NULL-записи
Симптом: в БД пустые строки, счётчик раздут. Причина: висячие переводы строк, пустые строки между блоками. Фикс: убрать пустые строки.
Починить все 6 разом
CSV First Aid автоматически диагностирует все эти проблемы и больше (всего 14 типов). Бросьте файл, посмотрите диагноз, примените нужные фиксы, скачайте чистый CSV. Бесплатно, без регистрации, только браузер.