La capacidad de estos LLM para extraer significado de los datos debe combinarse con datos propios y exclusivos de una organización para obtener beneficios reales. Asegurarse de que los datos están preparados para ello es un paso clave una vez fijados los objetivos empresariales. Gartner estima que preparar los datos para la IA mejora los resultados empresariales en un 20%, lo que significa que los datos deben ser apropiados para los casos de uso previstos, ya sean estructurados o no estructurados. Una razón clave por la que se abandonan el 30% de los proyectos internos de IA, según Gartner, es la mala calidad de los datos introducidos. Esto implica eliminar datos corruptos y duplicados, y rellenar huecos cuando las entradas están incompletas.
Y aunque la calidad es clave, también debe haber suficiente cantidad. Dependiendo de los objetivos y de cómo se ajuste el LLM, esto significa miles de registros como mínimo y posiblemente muchos más.
Puesta a punto
Donde se pueden obtener más beneficios corporativos es en el uso de datos exclusivos propios, desde datos anónimos de clientes y patrones de compra, comentarios de clientes, análisis web e información sobre la cadena de suministro. Los datos de código abierto también pueden ser un complemento útil, pero, por definición, están a disposición de todo el mundo, por lo que no constituyen un factor diferenciador por sí mismos. El uso de datos patentados, siempre que cumplan la normativa sobre privacidad, también reduce las complejidades legales relacionadas con la soberanía de los datos.