Saltar al contenido principal
CSV First Aid

Eliminar filas duplicadas de un CSV

Misma fila apareciendo tres veces — join mal hecho, DISTINCT faltante, el script de ayer corrió dos veces. Comparamos cada fila con cada otra y quitamos las coincidencias exactas, conservando la primera aparición.

Duplicados eliminados

Antes

A,B
1,2
1,2
3,4

Después

A,B
1,2
3,4

Arrastra tu archivo CSV aquí

o haz clic para elegir

La reparación «duplicate rows» se detectará automáticamente.

¿Qué es esto y por qué importa?

Las filas duplicadas aparecen al fusionar hojas, re-exportar datos, copy-paste de entradas o combinar archivos de fuentes solapadas. En archivos grandes es fácil que pasen desapercibidas — los recuentos se ven inflados, los totales están mal, y no sabes qué registros son reales.

CSV First Aid compara cada fila con cada otra y marca los duplicados exactos. La primera aparición siempre se conserva; solo las copias repetidas se marcan para eliminar.

Como este fix corre después de otros (trimmear espacios, limpiar invisibles), también pilla filas que solo se vuelven duplicadas tras la limpieza — p. ej. dos filas que parecían distintas por espacios ocultos.

Cómo funciona

  1. 1Arrastra tu CSV. Comparamos cada fila para encontrar duplicados exactos.
  2. 2La diagnosis muestra cuántos duplicados se encontraron. Este fix NO está activo por defecto — lo activas manualmente, porque a veces los duplicados son intencionales.
  3. 3Actívalo, Aplicar → los duplicados se quitan. El informe muestra cuántas filas cayeron.

Preguntas frecuentes

¿Por qué es opt-in en vez de estar activo por defecto?

Algunos datasets tienen legítimamente filas idénticas (p. ej. logs de transacciones, series temporales). Quitarlas por defecto podría causar pérdida de datos. Tienes que activarlo conscientemente.

¿Detecta cuasi-duplicados (fuzzy matching)?

Actualmente solo duplicados exactos (todas las celdas idénticas). La deduplicación fuzzy requiere reglas de dominio y está planeada para un release futuro.

¿Qué aparición se mantiene — la primera o la última?

La primera siempre. Todas las idénticas posteriores se eliminan.

Herramientas relacionadas