Tendencias en la ciencia de datos e IA para 2021

Como disciplina empresarial, la Ciencia de Datos es la antítesis de la inteligencia artificial. Por un lado, la IA es una disciplina libre cuyos únicos límites son la creatividad, la innovación y la eficacia; por otro lado, la IA está sujeta a innumerables restricciones tecnológicas, de gobernanza, de regulación y a la proverbial cuenta de resultados en este articulo vamos acercarnos a algunas de las tendencias en la ciencia de datos e IA para 2021.

Sin embargo, los beneficios tangibles para el negocio que se promocionan en las aplicaciones empresariales de la IA casi siempre provienen de la ciencia de los datos. La tendencia ModelOps que encabeza la computación cognitiva en la actualidad tiene un correlato importante y único en el campo de la ciencia de los datos. Este modelo pretende garantizar la coherencia operativa en todas las formas de IA, desde la basada en el conocimiento hasta la estadística, los científicos de datos están impulsando implícitamente este movimiento al ampliar los tipos de datos que se incluyen en estos esfuerzos.

Tendencias en la ciencia de datos e IA para 2021
Photo by Markus Winkler on Pexels.com

La mayor parte de los profesionales a los que puedes preguntar te dirán que si las empresas quieren ganar en Ciencia de Datos, tienen que tomarse en serio la amplitud y la diversidad de todos los tipos de datos, no sólo los datos a los que se pueden aplicar métodos estadísticos.

Al aprovechar todos los datos de que disponen, las empresas pueden explorar las fronteras de la Ciencia de Datos y dominar la generación inteligente de características, la explicabilidad, la preparación de datos y la estandarización y selección de modelos.

Tendencias en la ciencia de datos e IA para 2021

Generación inteligente de características

Los datos de aprendizaje automático “perceptivos o visibles para el ordenador” invocan directamente los fundamentos estadísticos de la IA. Construir un modelo de aprendizaje automático requiere identificar características que aumenten la precisión del modelo, por ejemplo, para aplicaciones de visión por ordenador para controlar los defectos en los procesos de las cadenas de montaje industriales de Internet. La construcción de características inteligentes se reduce a lo que es importante para el dominio y cómo se procesan esos datos.

Por ejemplo, si se quiere identificar características para ver si un paciente tiene una determinada afección cardíaca, Se podria aplicar tecnicas de redución de ruido, se observa el patrón periódico, se aplica el análisis para encontrar los picos y se mide la distancia entre los picos. La distancia entre los picos es la característica.

Tendencias en la ciencia de datos e IA para 2021
Photo by luis gomes on Pexels.com


Consultas simplificadas.

El modelo entidad-evento configurado en forma de grafo que soporta las bases de conocimiento de la IA simplifica enormemente el esquema y reduce la longitud de las consultas para representar una serie infinita de eventos temporales asociados a entidades importantes como clientes, pacientes y productos.Con un grafo complejo sin un modelo entidad-evento, hay que escribir consultas complejas para extraer características para el aprendizaje automático. Con este enfoque, puedes escribir una simple consulta para recuperar los datos.


Generación Inteligente de caracteristicas.

El uso de bases de datos específicas para la generación de características es un avance particular en la ciencia de los datos, por ejemplo el caso de uso del vehículo autónomo en la visión por ordenador, donde las características se agrupan en escenas y éstas se representan como grafos. Las escenas pueden estar compuestas por otras escenas, y las características se extraen mediante un enfoque estadístico basado en reglas. Una escena representa un escenario de conducción concreto, como un peatón que cruza una calle. Para los vehículos, el reto es entender la respuesta adecuada en cada situación.

En la visión por ordenador, eso es más o menos una selección de características, pero dispuestas espacial y temporalmente.

Incrustación de grafos

En el caso de los datos que cambian rápidamente (por ejemplo, el comercio electrónico, las recomendaciones o las aplicaciones de la Internet de las Cosas), el reconocimiento preciso de las características depende de la reducción del ruido en el ege referenciado. Los científicos de datos utilizan técnicas de aprendizaje no supervisado, similares al clustering, para reducir el número de variables en el modelo de aprendizaje. Los enfoques de reducción de la dimensionalidad, como el análisis de componentes principales (PCA), “pueden separar el fondo de las partes móviles de un vídeo”, afirma Ege.

La incrustación de grafos está ganando adeptos para realizar este importante trabajo de ciencia de datos porque “utiliza las propiedades de los grafos para entender las similitudes entre cosas como los productos y las personas para hacer predicciones e inferencias. Los beneficios de esta aplicación del Gráfico de Conocimiento incluyen.

  • Reducción del tiempo de preparación de los datos: la incorporación de gráficos elimina la compleja canalización que solía acaparar el tiempo de los científicos de datos para preparar los datos en lugar de analizarlos. La transferencia de datos a herramientas como Python para este trabajo de aprendizaje automático requiere mucho tiempo de programación. Sin embargo, cuando se ejecuta en una base de datos de grafos, es mucho más rápido y más iterativo que extraer datos de un grafo y procesarlos a través de los mecanismos de colección de datos.
  • Apoyo a las matrices. Para ser utilizados en modelos de aprendizaje automático, los datos deben ser vectorizados. El uso de un grafos con soporte matricial permite a las empresas trasladar los datos de un gráfico a una matriz. A continuación, pueden realizar funciones similares a las del ACP y ver cómo se correlacionan las distintas partes del conjunto de datos.
  • Los grafos granulares también son ideales para introducir los resultados de los análisis de aprendizaje automático, como el clustering, para mejorar las características y otros aspectos del modelo de entrenamiento. A este respecto, Lo que es más eficaz con los grafos, especialmente en el aprendizaje no supervisado, es poner el resultado de lo que se ha aprendido de nuevo en el grafo.

Explicabilidad

El problema de la explicabilidad, que roza la interpretabilidad, el sesgo del modelo y la IA justa, puede socavar el valor empresarial que se deriva del uso e implementación de modelos de IA estadística. Sin embargo, combinando los aspectos estadísticos y de conocimiento de la IA, las empresas pueden superar este obstáculo de forma consistente. La única solución real a la crisis de explicabilidad son las técnicas mixtas que complementan los modelos estadísticos con la lógica y el formalismo basado en reglas. Una de las principales prioridades de los científicos de datos para el próximo año es ampliar el aprendizaje automático para incluir la base de conocimientos de la IA representada por el aprendizaje basado en reglas.

Esto ampliará los tipos de datos y las técnicas que debe abarcar la ciencia de los datos para incluir lo que Clarke describe como “datos que son conceptuales o categóricos, es decir, sobre conceptos y categorías que existen entre los seres humanos”. El valor empresarial de utilizar estos datos con reglas lógicas facilitará su explicabilidad mediante aplicaciones prácticas de aprendizaje automático.” La mayoría de los datos empresariales no son realmente perceptibles o visibles para los ordenadores”. Por ejemplo, ¿qué es un préstamo de alto riesgo, qué es una compra de alto riesgo, y supone esa persona una amenaza interna para la empresa desde una perspectiva de riesgo y análisis? O, ¿qué parte de la cadena de suministro corre más riesgo en caso de terremoto en Chile? El uso de la IA estadística en combinación con el razonamiento simbólico, el razonamiento semántico y las reglas para analizar estos escenarios puede proporcionar un poder explicativo muy necesario para las organizaciones y los reguladores.

Normas del modelo

Aparte de enfoques como los bosques aleatorios y las técnicas de conjunto como el gradient boosting, explicar los resultados de la gran cantidad de redes neuronales multicapa ha demostrado ser lo más difícil (especialmente con la complejidad computacional y la escala del Deep Learning). Las organizaciones pueden maximizar el uso de estos y otros modelos estandarizándolos y considerando lo siguiente Open Neural Network Exchange (ONNX). Según Wayne Thompson, científico jefe de datos de SAS, “ONNX es un estándar ambiental para compartir modelos de aprendizaje profundo”. Después de desarrollar un modelo en un marco propietario, “otra persona puede llevarlo al código abierto, utilizar mi modelo como ponderación preliminar y entrenarlo más en ese entorno”, señala Thompson.
Sintonización automática. Los científicos de datos pueden acelerar la tediosa tarea de afinar los parámetros de un modelo de aprendizaje automático optando por “construir un algoritmo con muy pocos parámetros de ajuste y añadir valores óptimos por defecto”, aclara Ege.” Hemos introducido un algoritmo independiente para ver cuáles son los parámetros óptimos de ajuste, de modo que no tengamos cientos de miles de parámetros”, revela Ege. Este enfoque funciona bien para los modelos de factor de forma más pequeño en los dispositivos IoT, por ejemplo.
Redes neuronales recurrentes (RNN); las RNN son buenas para la predicción y el análisis de textos”. Thompson añade: “Porque estás viendo un conjunto de puntos de datos”. Una conversación es un conjunto de palabras habladas en un continuo.
Redes neuronales convolucionales (CNN). Una de las principales aplicaciones de las CNN es la visión por ordenador”. Podemos ver mejor que los humanos hoy en día”, dice Thompson”. Así que es muy adecuado para el análisis de imágenes, y hay muchos casos de uso para él”, dice Thompson.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

A %d blogueros les gusta esto: