Diez formas en que la IA generativa revoluciona la base de datos tradicional - Horno de envejecimiento Co., Ltd de Zhuhai

Por Peter Wayner

Escritor colaborador, InfoWorld |

A pesar de todo el destello y el carisma de la IA generativa, las mayores transformaciones de esta nueva era pueden estar enterradas en lo profundo de la pila de software. Ocultos a la vista, los algoritmos de IA están cambiando el mundo, una base de datos a la vez. Están revolucionando sistemas creados para rastrear los datos del mundo en infinitas tablas regulares, reemplazándolos con capacidades de IA más nuevas que son complejas, adaptables y aparentemente intuitivas.

Las actualizaciones llegan a todos los niveles de la pila de almacenamiento de datos. Se están revisando las estructuras de datos básicas. Los creadores de bases de datos están transformando la forma en que almacenamos la información para que funcione mejor con los modelos de IA. El papel del administrador de la base de datos, que alguna vez fue serio y mecanicista, está evolucionando para ser más amplio. Fuera los empleados amantes de los libros y dentro los magos que leen la mente.

Aquí hay 10 formas en que la base de datos está cambiando, adaptándose y mejorando a medida que la IA se vuelve cada vez más omnipresente.

A los desarrolladores de IA les gusta almacenar información como vectores largos de números. En el pasado, las bases de datos almacenaban estos valores como filas, con cada número en una columna separada. Ahora, algunas bases de datos admiten vectores puros, por lo que no es necesario dividir la información en filas y columnas. En cambio, las bases de datos los almacenan juntos. Algunos vectores utilizados para el almacenamiento tienen cientos o incluso miles de números.

Estos vectores suelen combinarse con incrustaciones, un esquema para convertir datos complejos en una única lista de números. El diseño de incrustaciones sigue siendo en gran medida un arte y, a menudo, depende del conocimiento del dominio subyacente. Cuando las incorporaciones están bien diseñadas, las bases de datos pueden ofrecer acceso rápido y consultas complejas.

Algunas empresas como Pinecone, Vespa, Milvus, Margo y Weaviate están creando nuevas bases de datos que se especializan en almacenar vectores. Otros, como PostgreSQL, están agregando vectores a sus herramientas actuales.

Agregar vectores a las bases de datos aporta más que comodidad. Las nuevas funciones de consulta pueden hacer más que simplemente buscar coincidencias exactas. Pueden localizar los valores "más cercanos", lo que ayuda a implementar sistemas como motores de recomendación o detección de anomalías. Incrustar datos en el espacio vectorial simplifica problemas complicados que implican coincidencia y asociación con una mera distancia geométrica.

Las bases de datos vectoriales como Pinecone, Vespa, Milvus, Margo y Weaviate ofrecen consultas vectoriales. Algunas herramientas inesperadas como Lucene o Solr también ofrecen una coincidencia de similitud que puede ofrecer resultados similares con grandes bloques de texto no estructurado.

Los nuevos sistemas de consulta basados en vectores parecen más mágicos y misteriosos que los que teníamos en el pasado. Las consultas antiguas buscarían coincidencias; Estas nuevas bases de datos impulsadas por IA a veces parecen más bien leer la mente del usuario. Utilizan búsquedas de similitud para encontrar elementos de datos que sean "cercanos" y que a menudo coincidan bien con lo que quieren los usuarios. La matemática subyacente puede ser tan simple como encontrar la distancia en un espacio de n dimensiones, pero de alguna manera eso es suficiente para producir lo inesperado. Estos algoritmos se han ejecutado durante mucho tiempo por separado como aplicaciones completas, pero poco a poco se están incorporando a la base de datos, donde pueden admitir consultas mejores y más complejas.

Oracle es sólo un ejemplo de una base de datos dirigida a este mercado. Oracle ha ofrecido durante mucho tiempo varias funciones para búsqueda de coincidencias difusas y similitudes. Ahora ofrece directamente herramientas personalizadas para industrias como el comercio minorista en línea.

En el pasado, las bases de datos creaban índices simples que permitían búsquedas más rápidas por columnas particulares. Los administradores de bases de datos eran expertos en elaborar consultas elaboradas con uniones y cláusulas de filtrado que se ejecutaban más rápido con los índices correctos. Ahora, las bases de datos vectoriales están diseñadas para crear índices que abarquen efectivamente todos los valores de un vector. Recién estamos comenzando a descubrir todas las aplicaciones para encontrar vectores que estén "cercanos" entre sí.

Pero eso es sólo el comienzo. Cuando la IA se entrena en la base de datos, absorbe eficazmente toda la información que contiene. Ahora podemos enviar consultas a la IA en un lenguaje sencillo y la IA buscará de forma compleja y adaptable.

La IA no se trata solo de agregar una nueva estructura a la base de datos. A veces se trata de agregar una nueva estructura dentro de los propios datos. Algunos datos llegan en una pila desordenada de bits. Es posible que haya imágenes sin anotaciones o grandes trozos de texto escritos por alguien hace mucho tiempo. Los algoritmos de inteligencia artificial están empezando a limpiar el desorden, filtrar el ruido e imponer orden en conjuntos de datos desordenados. Completan las tablas automáticamente. Pueden clasificar el tono emocional de un bloque de texto o adivinar la actitud de un rostro en una fotografía. Se pueden extraer pequeños detalles de las imágenes y los algoritmos también pueden aprender a detectar patrones. Están clasificando los datos, extrayendo detalles importantes y creando una vista tabular regular y claramente delineada de la información.

Amazon Web Services ofrece varios servicios de clasificación de datos que conectan herramientas de inteligencia artificial como SageMaker con bases de datos como Aurora.

Las buenas bases de datos manejan muchos de los detalles del almacenamiento de datos. En el pasado, los programadores todavía tenían que dedicar tiempo a analizar varios parámetros y esquemas utilizados por la base de datos para que funcionara de manera eficiente. Para encargarse de estas tareas se estableció el rol de administrador de la base de datos.

Muchas de estas metatareas de alto nivel se están automatizando ahora, a menudo mediante el uso de algoritmos de aprendizaje automático para comprender patrones de consulta y estructuras de datos. Pueden observar el tráfico en un servidor y desarrollar un plan para adaptarse a las demandas. Pueden adaptarse en tiempo real y aprender a predecir lo que necesitarán los usuarios.

Oracle ofrece uno de los mejores ejemplos. En el pasado, las empresas pagaban grandes salarios a los administradores de bases de datos que cuidaban sus bases de datos. Ahora, Oracle considera que sus bases de datos son autónomas porque vienen con sofisticados algoritmos de inteligencia artificial que ajustan el rendimiento sobre la marcha.

Ejecutar una buena base de datos requiere no sólo mantener el software en funcionamiento sino también garantizar que los datos estén lo más limpios y libres de fallos posible. Las IA simplifican esta carga de trabajo buscando anomalías, marcándolas y tal vez incluso sugiriendo correcciones. Es posible que encuentren lugares donde el nombre de un cliente esté mal escrito y luego encuentren la ortografía correcta buscando en el resto de los datos. También pueden aprender los formatos de datos entrantes e ingerir los datos para producir un único corpus unificado, donde todos los nombres, fechas y otros detalles se representan de la manera más consistente posible.

SQL Server de Microsoft es un ejemplo de una base de datos que está estrechamente integrada con los Servicios de calidad de datos para limpiar cualquier dato con problemas como campos faltantes o fechas duplicadas.

Crear un almacenamiento de datos más seguro es una aplicación especial para el aprendizaje automático. Algunos utilizan algoritmos de aprendizaje automático para buscar anomalías en sus datos porque pueden ser un buen indicio de fraude. ¿Alguien va al cajero automático a altas horas de la noche por primera vez? ¿La persona ha utilizado alguna vez una tarjeta de crédito en este continente? Los algoritmos de inteligencia artificial pueden detectar filas peligrosas y convertir una base de datos en un sistema de detección de fraude.

Los servicios web de Google, por ejemplo, ofrecen varias opciones para integrar la detección de fraude en su pila de almacenamiento de datos.

Algunas organizaciones están aplicando estos algoritmos internamente. Las IA no solo intentan optimizar la base de datos para los patrones de uso; también buscan casos inusuales que puedan indicar que alguien está entrando. No todos los días un usuario remoto solicita copias completas de tablas enteras. Una buena IA puede oler algo sospechoso.

Guardium Security de IBM es un ejemplo de una herramienta que se integra con las capas de almacenamiento de datos para controlar el acceso y detectar anomalías.

En el pasado, las IA se mantenían al margen de la base de datos. Cuando llegara el momento de entrenar el modelo, los datos se extraerían de la base de datos, se reformatearían y luego se introducirían en la IA. Los nuevos sistemas entrenan el modelo directamente a partir de los datos existentes. Esto puede ahorrar tiempo y energía en los trabajos más importantes, donde simplemente mover los datos puede llevar días o semanas. También simplifica la vida de los equipos de desarrollo al hacer que entrenar un modelo de IA sea tan simple como emitir un comando.

Incluso se habla de reemplazar la base de datos por completo. En lugar de enviar la consulta a una base de datos relacional, la enviarán directamente a una IA que mágicamente responderá consultas en cualquier formato. Las ofertas de Google Bard y Microsoft están impulsando ChatGPT. Ambos son serios contendientes para reemplazar al motor de búsqueda. No hay ninguna razón por la que no puedan reemplazar también la base de datos tradicional.

El enfoque tiene sus desventajas. En algunos casos, las IA alucinan y dan respuestas totalmente erróneas. En otros casos, pueden cambiar el formato de su salida por capricho.

Pero cuando el dominio es lo suficientemente limitado y el conjunto de entrenamiento es profundo y completo, la inteligencia artificial puede ofrecer resultados satisfactorios. Y lo hace sin la molestia de definir estructuras tabulares y obligar al usuario a escribir consultas que encuentren datos dentro de ellas. El almacenamiento y la búsqueda de datos con IA generativa puede ser más flexible tanto para los usuarios como para los creadores.

A continuación lee esto: