Friedman admite que existe una tensión evidente en este punto. “Cuanto más sucio sea el conjunto de datos con el que se entrena, más difícil será para ese modelo aprender y lograr el éxito”, afirma. “Sin embargo, al mismo tiempo, para que sea completamente funcional en el mundo real, necesitará poder operar en esos entornos más sucios”.
Los LLM, en particular, necesitan poder responder a entradas incorrectas. Eliminar coloquialismos, errores ortográficos o diferencias regionales en el idioma puede dificultar la capacidad de un modelo para manejar el uso del lenguaje en el mundo real. “Entender cómo responder a datos sucios e, idealmente, a datos limpios: es bueno comenzar con los datos limpios, pero con el tiempo debe ser robusto”, agrega Friedman.
Tendencias perdidas
Limpiar los datos antiguos y nuevos de la misma manera puede generar otros problemas. Es probable que los nuevos sensores sean más precisos y exactos, las solicitudes de soporte al cliente se referirán a versiones más nuevas de sus productos u obtendrá más metadatos sobre nuevos clientes potenciales a partir de su huella en línea. Cualquiera que sea la fuente de datos, puede haber nueva información para capturar o las características de los datos pueden cambiar con el tiempo. En la India, por ejemplo, el divorcio se reconoció oficialmente hace poco. No se puede agregar eso a los registros antiguos, pero no se debe eliminar de los nuevos para mantener la coherencia. Por lo tanto, tenga cuidado de que la limpieza de datos no oculte la diferencia entre los datos antiguos y los nuevos, lo que daría lugar a modelos que no tengan en cuenta las tendencias cambiantes.
“Incluso para el mismo caso de uso, los datos subyacentes pueden cambiar con el tiempo”, advierte Swaminathan. “Un punto de referencia de oro que establezcamos en octubre de 2024 para responder las preguntas de los clientes, por ejemplo, podría quedar obsoleto en tres meses cuando se produzca un desastre natural y, de repente, haya escasez de papel higiénico. Incluso en la misma tarea en la misma empresa para los mismos clientes, el punto de referencia puede quedar obsoleto con el tiempo”.