6 самых частых ошибок импорта CSV и как их починить
Каждый дата-инженер терял часы на отладку CSV-импорта. Вот шесть самых частых ошибок, почему они случаются и самый быстрый способ починить каждую.
Ошибка 1: Искажённые символы (несоответствие кодировки)
Симптом: искажённые последовательности вроде é вместо читаемых символов. Причина: файл сохранён в Windows-1252, открыт как UTF-8. Фикс: перекодировать с правильной кодировкой, или использовать автоопределение CSV First Aid.
Ошибка 2: Первый заголовок начинается с мусора (BOM)
Симптом: заголовок '\ufeffid' вместо 'id'. Key lookup-ы падают. Причина: UTF-8 BOM от Excel-овского 'Сохранить как CSV UTF-8'. Фикс: убрать 3-байтовый BOM-префикс.
Ошибка 3: Данные в одной колонке (неверный разделитель)
Симптом: вся строка оказывается в одной ячейке. Причина: файл использует точку с запятой/табы, но парсер ждёт запятые. Фикс: определить реальный разделитель и переэкспортировать.
Ошибка 4: Съехавшие колонки (битые кавычки)
Симптом: с определённой строки данные оказываются не в тех колонках. Причина: незакрытая или неэкранированная кавычка. Фикс: починить квотинг по RFC 4180.
Ошибка 5: 'Expected N columns, got M' (несогласованное число колонок)
Симптом: импорт отвергает файл или обрезает строки. Причина: у некоторых строк лишние или пропущенные поля. Фикс: добить короткие строки и пометить длинные.
Ошибка 6: Фантомные пустые строки или лишние NULL-записи
Симптом: в БД пустые строки, счётчик раздут. Причина: висячие переводы строк, пустые строки между блоками. Фикс: убрать пустые строки.
Починить все 6 разом
CSV First Aid автоматически диагностирует все эти проблемы и больше (всего 14 типов). Бросьте файл, посмотрите диагноз, примените нужные фиксы, скачайте чистый CSV. Бесплатно, без регистрации, только браузер.
Файл с несколькими сразу? CSV First Aid запускает все шесть проверок за один проход.
Почините CSV сейчас →Похожие инструменты
Починить кодировку CSV
Видите é, ü, ö вместо é, ü, ö? Файл сохранили в одной кодировке, прочитали в другой. Мы определяем, в какой именно, и конвертируем в UTF-8 — Müller снова выглядит как Müller.
Убрать UTF-8 BOM из CSV
Первая колонка выглядит как 'ID' вместо 'ID'? Это UTF-8 BOM — три невидимых байта, которые оставляет большинство экспортёров. Мы их срезаем, и заголовок снова читается чисто.
Ремонт кавычек CSV
Одна пропущенная закрывающая кавычка превращает одно поле в многострочного монстра и сдвигает все колонки после. Находим незакрытые, закрываем, переэкранируем внутренние — по RFC 4180.
Фиксер разделителей CSV
Европейские экспорты используют точки с запятой. Дампы БД — табы или пайпы. Ваш импорт ждёт запятые. Мы вынюхиваем, что файл реально использует, и переписываем в нужный формат — запятая, точка с запятой, таб или пайп.
Починить несогласованное число колонок CSV
Заголовок говорит 5 колонок, у некоторых строк 4, у одной 7 — и ваш импорт сдаётся. Добиваем короткие, помечаем длинные и говорим, какие номера строк проверить.
Убрать пустые строки из CSV
Пустые строки прячутся между данными и ломают подсчёт строк, импорт, каждый SUM(). Мы сканируем каждую строку и удаляем те, где все ячейки пусты. Хоть одно значение — строка остаётся.