Arreglar la codificación CSV — Windows-1252 a UTF-8
¿Ves é, ü, ö donde esperabas é, ü, ö? El archivo se guardó en una codificación y se leyó en otra. Descubrimos cuál era y convertimos a UTF-8 — Müller vuelve a verse como Müller.
Codificación arreglada
Antes
ä, ö, ü, é
Después
ä, ö, ü, é
Arrastra tu archivo CSV aquí
o haz clic para elegir
La reparación «encoding» se detectará automáticamente.
¿Qué es esto y por qué importa?
Uno de los problemas CSV más comunes. Nombres, direcciones, descripciones de productos aparecen como jeroglíficos — Müller se vuelve Müller, café se vuelve café. Los datos no están dañados, solo se leen con los ajustes equivocados.
Suele ocurrir con archivos exportados desde sistemas antiguos, software europeo, SAP o Excel antiguo. El archivo se guardó en un formato de texto y tu ordenador intenta leerlo en otro.
CSV First Aid detecta el formato original y convierte el texto para que los acentos, diéresis y caracteres especiales se muestren como deben.
Cómo funciona
- 1Arrastra tu CSV. Detectamos en qué formato de texto se guardó.
- 2Si encontramos caracteres rotos, la diagnosis muestra la codificación detectada.
- 3Aplica el fix — el texto se lee correctamente. Descargar.
Preguntas frecuentes
¿Cuál es la diferencia entre Windows-1252 y ISO-8859-1?
Son casi idénticas. Windows-1252 extiende ISO-8859-1 con caracteres imprimibles en el rango 0x80–0x9F (comillas tipográficas, guiones largos). CSV First Aid maneja ambas.
¿Puede arreglar problemas de codificación china o japonesa?
Actualmente detectamos y convertimos entre UTF-8 y Windows-1252/Latin-1. Los problemas CJK (Shift_JIS, GB2312, EUC-KR) requieren otro enfoque. Es posible que añadamos soporte en el futuro.
Mi archivo se ve bien en Excel pero se rompe en Python. ¿Por qué?
Excel auto-detecta la codificación. El csv.reader de Python usa UTF-8 por defecto. Si el archivo es Windows-1252, Python ve basura. Solución: convierte a UTF-8 aquí, o pasa encoding='cp1252' a pandas.read_csv().
Herramientas relacionadas
Eliminar el BOM UTF-8 de tu CSV
¿La primera columna aparece como 'ID' en vez de 'ID'? Eso es un BOM UTF-8 — tres bytes invisibles que muchos exportadores dejan. Los quitamos y el encabezado se lee limpio.
Eliminar caracteres invisibles de un CSV
NBSP, zero-width joiners, bytes de control perdidos — no los ves en Excel, pero BUSCARV sí, y no matchea. Escaneamos cada celda y quitamos lo que no debería estar.
Convertidor de codificación CSV
Recodifica un CSV entre UTF-8, Windows-1252, ISO-8859-1, Shift_JIS, GBK, EUC-KR, Big5. Leemos los bytes y adivinamos el origen — el BOM no siempre está, pero la estadística lo delata.