Ciencia de datos vs Análisis de datos vs Aprendizaje automático

Cuando pensamos sobre Ciencia de datos vs Análisis de datos vs Aprendizaje automático, existe todavia mucha confusion sobre cada una de las disciplinas y los limites de cada uma de ellas. La ciencia de los datos, la analítica de datos y el aprendizaje automático están creciendo a un ritmo vertiginoso, y las empresas buscan cada vez más profesionales que puedan ayudarlas a sacar el máximo beneficio de la mina de oro que son en la actualidad los datos, pada poder tomar las mejores decisiones empresariales de uma forma rápida e eficiente.

IBM prevee que para 2022 el número de puestos de trabajo para los profesionales de los datos en todo el mundo sobrepase los 3.500.000 empleos, muchos de los cuales se quedarán sin cubrir.

Para saber más sobre por qué la ciencia de los datos, la analítica de datos y el aprendizaje automático es un campo tan apasionante y las habilidades que ayudarán a los profesionales a obtener una base sólida en este campo de rápido crecimiento, vamos a intentar responder a algunaa de las principales preguntas que se podrian hacer las personas interesadas en entrar en este mundo.

¿Qué es la ciencia de los datos?


Hace más de una década que se intenta definir la ciencia de los datos, y la mejor manera de responder a esa pregunta es con un diagrama de Venn -creado por Hugh Conway en 2010, está formado por tres círculos: matemáticas y estadística, experiencia en la materia (conocimiento de las áreas de abstracción y computación) y habilidades de hacking. Se compone de tres círculos. Básicamente, si puedes hacer estas tres cosas, ya tienes un alto nivel de experiencia en el campo de la ciencia de los datos.

La ciencia de los datos es un concepto para trabajar con big data e incluye la limpieza, la preparación y el análisis de los datos. Un científico de datos recopila datos de múltiples fuentes y aplica el aprendizaje automático, el análisis predictivo y el análisis de sentimientos para extraer información clave de los conjuntos de datos recopilados. Los científicos de datos entienden los datos desde una perspectiva de negocio, proporcionando predicciones precisas y conocimientos que pueden ser utilizados para tomar decisiones de negocio importantes.

Diagrama de venn

¿Qué habilidades son necesarias para convertirse en un científico de datos?


Si quieres construir una sólida carrera en este campo, tendrás que desarrollar habilidades clave en tres áreas fundamentales: análisis, programación y conocimiento del dominio.

Para dar un paso adelante y hacerse un hueco como científico de datos, necesitarás las siguientes habilidades

  • Sólidos conocimientos de Python, SAS, R y Scala
  • Experiencia práctica en la codificación de bases de datos SQL
  • Capacidad para trabajar con datos no estructurados procedentes de diversas fuentes, incluidos los vídeos y las redes sociales
  • Comprensión de múltiples funciones analíticas
  • Conocimientos de aprendizaje automático

¿Qué es el análisis de datos?


Un analista de datos suele ser alguien que puede realizar estadísticas descriptivas básicas, visualizar datos y comunicar puntos de datos para obtener conclusiones. Requiere una comprensión básica de la estadística, un perfecto sentido de las bases de datos, la capacidad de crear nuevas ideas y la perspicacia para visualizar los datos. El análisis de datos puede describirse como un nivel necesario de la ciencia de datos.

Habilidades necesarias para convertirse en analista de datos


Un analista de datos debe ser capaz de tomar un asunto o tema específico, discutir lo que los datos dicen al respecto y presentar esos datos a las partes interesadas internas. Para ser un analista de datos con éxito, deberá tener las siguientes cuatro habilidades:

  • Conocimientos de estadística matemática
  • Fluidez en R y Python
  • Conocimientos de procesamiento de datos
  • Conocimiento de PIG/HIVE
  • ¿Qué habilidades necesito para convertirme en analista de datos?

La diferencia entre ciencia de datos y análisis de datos
La ciencia de los datos es un término general que engloba la analítica de datos, la minería de datos, el aprendizaje automático y otras disciplinas relacionadas. Se espera que un científico de datos prediga el futuro basándose en patrones pasados, mientras que un analista de datos extrae ideas significativas de una variedad de fuentes de datos. El científico de datos crea preguntas, mientras que el analista de datos encuentra respuestas a las preguntas existentes.

¿Qué es el aprendizaje automático?


El aprendizaje automático puede definirse como la práctica de utilizar algoritmos para extraer datos, aprender de ellos y predecir tendencias futuras sobre un tema. El software de aprendizaje automático tradicional es un análisis estadístico o predictivo, utilizado para descubrir patrones y captar ideas ocultas basadas en los datos que reconoce.

Un buen ejemplo de aplicación del aprendizaje automático es Facebook: los algoritmos de aprendizaje automático de Facebook recogen información sobre el comportamiento de cada usuario en la plataforma social. Basándose en el comportamiento anterior de la persona, el algoritmo predice sus intereses y recomienda artículos y notificaciones para su feed de noticias. Del mismo modo, cuando Amazon recomienda productos o Netflix recomienda películas basándose en comportamientos anteriores, el aprendizaje automático está en marcha.

¿Qué habilidades se necesitan para convertirse en un especialista de aprendizaje automático?

El aprendizaje automático no es más que una perspectiva diferente de la estadística. A continuación se exponen algunas habilidades clave que le ayudarán a iniciar su carrera en este campo de rápido crecimiento.

  • Conocimientos básicos de informática
  • Conocimientos profundos de programación
  • Conocimientos de probabilidad y estadística
  • Capacidades de modelización y evaluación de datos
  • Ciencia de los datos y aprendizaje automático
  • Como la ciencia de los datos es un término amplio que se refiere a varias disciplinas, el aprendizaje automático se sitúa dentro de la ciencia de los datos. El aprendizaje automático utiliza diversas técnicas, como la regresión y la agrupación supervisada. Los “datos” en la ciencia de los datos, por otro lado, pueden o no evolucionar a partir de máquinas o procesos mecánicos. La principal diferencia entre ambas es que la ciencia de los datos en un sentido más amplio no sólo se centra en los algoritmos y la estadística, sino que también se ocupa de la metodología general del procesamiento de datos.
La ciencia de los datos es interdisciplinaria

La ciencia de los datos puede considerarse como la integración de varias disciplinas básicas, como el análisis de datos, la ingeniería de software, la ingeniería de datos, el aprendizaje automático, el análisis predictivo y la analítica de datos. Implica la investigación, recopilación, captura y transformación de grandes cantidades de datos, conocidos colectivamente como Big Data.

La ciencia de los datos se encarga de dar estructura a los big data, buscar patrones convincentes y asesorar a los responsables de la toma de decisiones sobre cómo realizar cambios efectivos para satisfacer las necesidades del negocio. El análisis de datos y el aprendizaje automático son dos de las muchas herramientas y procesos que utilizan los científicos de datos.

La ciencia de los datos, la analítica de datos y el aprendizaje automático son algunas de las áreas más solicitadas en la industria actual.

Si se combinan las aptitudes adecuadas con la experiencia en el mundo real, es posible asegurarse una sólida carrera en estos campos de tendencia.

Poner los datos en contexto con un grafo de conocimiento

Los grafos de conocimiento no son nada nuevo, pero se han convertido en la última y mayor tendencia a medida que las personas y las empresas se han dado cuenta de su versatilidad. Tanto si necesita recomendar mejores productos a sus clientes de comercio electrónico u ofrecer cupones específicos, como si su procesador de pagos necesita detectar el fraude a partir de un enorme conjunto de datos en tiempo real, el grafo de conocimiento es la base de su éxito.

¿Qué es un grafo de conocimiento y cómo se utiliza?

Un gráfo de conocimiento organiza los datos es sobre múltiples entidades y sus relaciones. Un gráfo de conocimiento es una organización estructurada de datos legibles para máquinas que puede utilizarse para comprender la naturaleza de los datos y sus relaciones esenciales. Cuando los datos enlazados están disponibles en un gráfo de conocimiento, pueden ser utilizados por humanos, aplicaciones e inteligencia artificial (IA).

Al pensar en los gráfos de conocimiento, es importante tener en cuenta que la mayor parte de lo que describimos es fácil de reconocer para los humanos, pero difícil de entender para los ordenadores.

En otras palabras, el contexto de una pregunta o frase puede ser obvio para un humano, pero una máquina necesita un gráfo de conocimiento para entender el significado central. Analizar grandes conjuntos de datos y ser capaz de inferir relaciones dentro de los datos es una gran manera de que las máquinas extraigan el significado central.

Google fue una de las primeras empresas de Big Data en construir un gráfo de conocimiento para mejorar la experiencia de búsqueda hace casi una década. El equipo de Google tuvo que enseñar a sus algoritmos de búsqueda qué términos van juntos. Por ejemplo, si busco “película de Santiago Segura”, quiero encontrar películas protagonizadas por este actor, no películas con “Santiago Segura” en el titulo pero si en el reparto.

El Grafo de Conocimienro de Google es la base de su capacidad para ofrecer un cuadro de respuestas superamigables que aparece cuando realizas una búsqueda; puedes preguntar a Siri o Alexa “¿Qué tiempo hace hoy?” o si alguna vez has preguntado a Siri o Alexa “¿Qué tiempo hace hoy?” o has buscado los actores de una serie mientras veías Netflix, obtendrás esos resultados de búsqueda gracias a este concepto.

Los gráfos de conocimiento también pueden ayudarle a descubrir conexiones entre aspectos de tus datos que podrían no ser inmediatamente obvios. Por ejemplo, cuando Uber Eats empezó a hacer recomendaciones, no tenía un conocimiento claro de la cocina ni de la intención de busqueda asociado con este tema. Si buscabas sushi, podrías acabar comprando ramen. Si buscabas comida tailandesa, puede que acabes comprando barbacoa coreana.

Utilizando el gráfo de conocimiento, el equipo de Uber Eats fue capaz de mapear los gustos y preferencias de los clientes por las cocinas más comunes. Esto les permite hacer mejores sugerencias y conseguir más pedidos.

¿Cuando saber si necesitas un gráfo de conocimiento?

Algunos especialistas afirman que todas las empresas necesitan gráfos de conocimiento, pero eso podría ser una sobreestimación. No todas tienen datos que puedan beneficiarse profundamente de la interconexión de un gráfo de conocimiento. Si tienes tablas de personas, direcciones de envío, números de pedido, etc., los enfoques tradicionales como las bases de datos relacionales serán suficientes. Sin embargo, si quieres utilizar esta información para sugerir mejores productos a tus clientes en función de su historial de pedidos, su ubicación o incluso las condiciones meteorológicas de esa región, necesitarás un gráfo de conocimiento para obtener esa información.

Básicamente, los datos están cada vez más conectados/interrelacionados y los usuarios de sistemas exigen experiencias verdaderamente personalizadas. Al integrar los silos de datos, puede obtener una comprensión más profunda de cómo estas relaciones afectan a tu negocio. Un gráfo de conocimiento empresarial toma los datos que tiene tu empresa y les encuentra sentido y valor.

¿Cuando se hace evidente La necesidad de un gráfo de conocimiento?

Los datos aislados impiden una comprensión holística de la empresa. Necesita un acceso más rápido o en tiempo real a los datos y a las consultas complejas.

¿Cuáles son las funciones de um grafo de conocimiento?

Un gráfo de conocimiento requiere una base de datos de grafos. Una base de datos de este tipo puede almacenar no sólo los datos de la entidad para cada pieza de información, sino también las otras entidades con las que la información está relacionada y la naturaleza de las relaciones entre ellas.

Tanto si las relaciones son de referencia inversa, de uno a muchos o de muchos a muchos, las bases de datos de grafos son fundamentales para el éxito de cualquier motor e infraestructura de grafos de conocimiento. Una base de datos de gráfos soporta relaciones muy complejas de la manera más eficiente. Puede tambièn facilitar el almacenamiento de los datos y sus relaciones y la obtención de resultados rápidos de las consultas sobre los mismos.

Entonces, ¿cómo encontrar una base de datos de gráfos para su gráfo de conocimiento? No voy a entrar en detalles sobre lo que hay que tener en cuenta a la hora de buscar la mejor base de datos de grafos, pero las que he visto que creo que son relevantes para tu negocio se dividen en las siguientes categorías

La usabilidad:     Un sistema complicado y engorroso requiere más tiempo (y dinero) para trabajar.

Velocidad: Si necesitas información en tiempo real, debes asegurarte de que tu base de datos es muy rápida para no tener que esperar todo el día y toda la noche para obtener la información que necesitas ahora mismo.        

Rendimiento: Las solicitudes de ajuste suelen pasarse por alto, pero pueden tener un gran impacto en los plazos de implementación y en el rendimiento de su equipo.

La próxima vez que tu sitio de comercio electrónico favorito te recomiende el producto perfecto o que Spotify reproduzca una canción que te mueres por escuchar, sabrás que un grafo de conocimiento lo hizo posible. ¿No te gustaría ofrecer ese tipo de servicio a tus clientes?

Cómo utilizar la ciencia de los datos para la optimización de los motores de búsqueda

La ciencia de los datos es uno de los temas más candentes en la actualidad. Es una de las industrias que han revolucionado el mundo. La Ciencia de los Datos combina dos importantes tecnologías -Big Data e Inteligencia Artificial- y las utiliza para estudiar y procesar conjuntos de datos. También utiliza el aprendizaje automático para mejorar la inteligencia artificial. La ciencia de los datos ha mejorado y modernizado a fondo todos los sectores implicados, incluidos el marketing, las finanzas, las redes sociales y el SEO. Si quieres destacar en tu profesión, lo más probable es que necesites utilizar la Ciencia de Datos en Python. La ciencia de los datos ayuda a los profesionales del SEO de innumerables maneras, incluyendo la personalización de la experiencia del cliente y la comprensión de sus necesidades. He aquí algunas formas notables en que la ciencia de los datos puede ayudar a los profesionales del SEO. 

Predicción.


Los algoritmos predictivos ayudan a predecir las palabras clave populares. El planteamiento básico de estos algoritmos es que permiten a los expertos en SEO hacer una suposición de primer orden sobre cuáles serán los ingresos correspondientes si se sitúan en el número 1 para una determinada palabra clave, dentro de un margen de error factible. También puede ayudarle a encontrar palabras clave y frases específicas que sean relevantes para su búsqueda. Atrae a más usuarios y predice las palabras clave que se ajustan a sus necesidades.

Generación.


La tarea que más tiempo consume en el SEO es la creación de contenidos. El contenido de alta calidad es valioso y costoso. La ciencia de datos de Python tiene un conjunto de algoritmos de generación que le ayudan a crear contenido automáticamente teniendo en cuenta los requisitos del usuario. En muchos casos, un borrador se crea y se actualiza varias veces en función de las necesidades. Los algoritmos de la ciencia de los datos estudian los datos que se les han proporcionado en el pasado y predicen el contenido y las tendencias relevantes basándose en ellos. Esta investigación empírica es fructífera, ya que produce contenidos que atraen cada vez a más personas.


Automatización


El SEO es agitado y requiere una gran cantidad de tiempo y trabajo manual. Requiere muchas tareas repetitivas como el subtitulado de imágenes y vídeos. Numerosos algoritmos de la ciencia de datos pueden eliminar este trabajo manual. Un buen ejemplo de este tipo de algoritmos es TensorFlow, que ayuda a etiquetar imágenes. Este algoritmo también ayuda a optimizar todos los atributos para aumentar la eficiencia de todo el proyecto. Esta aplicación de la ciencia de los datos puede generar contenidos significativos etiquetando anuncios, URLs erróneas e imágenes desconocidas. 

Elección


La ciencia de datos con Python ayuda a los especialistas en SEO a identificar la calidad de los datos. Esto tiene un impacto crítico en los conocimientos obtenidos. Para obtener información significativa, el científico de datos necesita las herramientas adecuadas. La ciencia de los datos permite seleccionar las mejores fuentes para la extracción de datos y las mejores prácticas para extraer información significativa de esas fuentes. La ciencia de los datos asocia varios algoritmos que trabajan simultáneamente para mejorar la calidad de los contenidos.

Integración


Hoy en día, el SEO se integra con múltiples disciplinas de marketing digital como el marketing de contenidos, la gestión de CX, el CRO y las ventas. En estos casos, resulta crucial para el crecimiento que una organización no dependa de una solución concreta para el SEO. No existe una solución única; se tienen en cuenta muchos factores para la clasificación SEO. Es una mezcla acumulativa de diferentes partes que entran en relevancia para concluir el tráfico esperado a un sitio web.
Visualización
Existen dos enfoques generales para el análisis de datos: el enfoque jerárquico y el enfoque visual. Si adopta un enfoque jerárquico, puede perder puntos importantes que están ocultos en sus datos. Al visualizar sus datos, podrá

  • Contrastar y comparar
  • Procesar grandes cantidades de datos en un solo sistema
  • Explorar el conocimiento rápidamente
  • Descubrir consultas secretas
  • Descubrir patrones y tendencias conocidas. 

Conclusión.


La ciencia de los datos con Python es un campo científico muy valioso y puede hacer maravillas en las respectivas industrias si se utiliza correctamente. La ciencia de los datos ha mejorado todas las industrias de innumerables maneras. Puede mejorar drásticamente la experiencia del usuario. La experiencia adquirida con los datos puede aportar valiosas ideas. Estos conocimientos pueden ayudar de muchas maneras, como la creación de contenidos personalizados, el etiquetado de datos desconocidos, la selección de fuentes de confianza y la visualización de los resultados de los análisis. La ciencia de los datos trabaja con una gran variedad de sectores, incluido el SEO. 

Cómo la IA está cambiando la naturaleza de la analítica

La esencia de la inteligencia artificial es que es una herramienta de análisis. El valor de la inteligencia artificial reside en su capacidad para analizar grandes cantidades de datos sin la ayuda de los humanos, para identificar patrones y anomalías, y para explotarlos.

Pero la analítica impulsada por el ser humano existía mucho antes de la era de la informática moderna. ¿Y cómo pueden las empresas ver el valor de esta tecnología una vez desplegada en un entorno de producción?

El contexto es importante.

Un elemento clave que la IA aporta a la analítica es el contexto, según escribieron recientemente Joey Fitts, de Oracle, y Tom Davenport, investigador del MIT, en la Harvard Business Review. En la analítica tradicional, los analistas rara vez son expertos en los sistemas o procesos que analizan. Puede que sean expertos en análisis, pero no en marketing, ventas o redes de datos. Sus recomendaciones finales a menudo carecían del contexto de sus amplios conocimientos y experiencia.

Sin embargo, los marcos potenciados por la IA permiten a los algoritmos aprender y “entender” lo que están analizando, de modo que pueden ingerir más datos a un ritmo más rápido y ofrecer resultados altamente contextualizados. Al poner estas potentes herramientas de análisis a disposición de quienes las necesitan, los analistas pueden, en última instancia, dedicar su tiempo a lo que mejor saben hacer: construir los modelos necesarios para que el análisis de la IA sea más rápido y preciso.

La mejor manera de ilustrar esta necesidad de contexto es aplicarla a funciones empresariales comunes como el marketing. Al ser una de las áreas de la empresa moderna que más datos maneja, el marketing suele tener diferentes interpretaciones de la verdad según el contexto en el que se presenten los datos.

Según Mike Kaput, director de contenidos del Marketing AI Institute, el poder de la IA reside en el análisis predictivo, que es la capacidad de identificar las tendencias futuras basándose en datos pasados y actuales. Naturalmente, esta capacidad es como el oro para los equipos de marketing. Al mismo tiempo, la IA ofrece análisis prescriptivos, la capacidad de hacer recomendaciones basadas en análisis predictivos. En ambos casos, las máquinas de IA actuales son capaces de cribar grandes cantidades de datos para garantizar que esos resultados se presenten en el contexto completo de toda la información disponible, y también tienen la capacidad de utilizar sus propios análisis históricos para perfeccionar sus algoritmos y mejorar ellos mismos.

Aprender el proceso

Esta capacidad de aprendizaje es una de las diferencias clave entre la IA y la automatización pura. Según la empresa de análisis Avora, incluso un sistema automatizado puede analizar una gran cantidad de datos si está correctamente estructurado y adaptado a las necesidades específicas para las que se diseñó el sistema. Por ejemplo, una simple herramienta de informes puede actualizarse con nueva información a lo largo del tiempo, pero no proporcionará nuevas perspectivas sobre los datos cambiantes a menos que alguien cree un cuadro de mando que se lo permita.

Del mismo modo, la simple automatización no puede responder a preguntas generales sobre el bajo rendimiento u otros factores. Esto requiere que los analistas de datos pasen horas recogiendo datos, pero incluso así sólo pueden recoger una cantidad limitada de datos. Por otro lado, un motor de IA adecuadamente entrenado puede proporcionar resultados para múltiples preguntas en cuestión de minutos.

La mejor manera de pensar en la contribución de la IA a la analítica es utilizar uno de los métodos analíticos más antiguos: el modelo de coste-beneficio. En términos de coste, la construcción de la infraestructura subyacente desde el principio requiere una inversión inicial significativa. Sin embargo, este coste se amortiza con el tiempo a medida que crece la escala del servicio. Por otro lado, la IA puede analizar cantidades masivas de datos y extraer datos de diversas fuentes para identificar problemas y oportunidades que de otro modo permanecerían ocultos.

En última instancia, esto pone el poder analítico en manos de los trabajadores del conocimiento, que pueden beneficiarse mejor de los conocimientos adaptados a sus desafíos específicos, aumentando la eficiencia y la productividad en toda la empresa.

Traducción realizada con la versión gratuita del traductor www.DeepL.com/Translator

Conciencia situacional para la ciberseguridad: Una introducción

La conciencia situaciónal o situational awareness (SA) proporciona a los responsables de la toma de decisiones en toda la organización la información y la comprensión que necesitan para tomar buenas decisiones en su trabajo. El conocimiento de la situación puede ser específico para ayudar a las personas y a las organizaciones a proteger sus activos en el ámbito cibernético, o puede ser más amplio; la SA permite obtener información relevante de toda la organización, integrarla y difundirla para ayudar a las personas a tomar mejores decisiones.

En este articulo vamos a explorar el concepto de conciencia situacional en ciberseguridad y en su aplicación en la empresa.

Proteger los activos de la organización

No importa lo pequeña que sea tu organización, hay muchos activos que necesitan ser protegidos de las ciberamenazas.

En un entorno que carece de personal, de fondos y de compromiso, dar prioridad a la protección de ciertos bienes se convierte en una necesidad. Para priorizar, es necesario mejorar la seguridad de los dispositivos individuales, mejorar la seguridad de segmentos específicos de la red o unidades de negocio, responder a las brechas de seguridad y contratar a personas para funciones específicas.

Los activos de una organización existen para llevar a cabo las actividades diarias de la misma. La prioridad de la protección de estos activos debe corresponder a la importancia y a las implicaciones legales de las funciones empresariales que apoyan. Para que esta información influya en el establecimiento de prioridades, los profesionales de la seguridad deben ser capaces de relacionar los activos con las funciones empresariales a las que dan soporte y comprender la importancia de dichas funciones.

No es posible priorizar ni proteger eficazmente sin entender primero qué se protege, por qué, de qué y cómo se protege o no el bien. La parte “qué” de esta información requiere la elaboración y el mantenimiento de una lista detallada de activos. El resto de la información se obtiene a través del contexto de la organización.

Política y gobernanza

La columna vertebral de la protección de los activos es una buena política y gobernanza. Las expectativas de su organización y sus necesidades empresariales determinarán qué actividades constituyen un problema de seguridad. Cuanto más estrictas sean las normas, más fácil será detectar las infracciones y más fácil será evitarlas en primer lugar. Pero para que la detección y la prevención sean eficaces, las políticas y las necesidades deben ser accesibles para los profesionales de la seguridad. Para tomar decisiones precisas, necesitan tener acceso a la información y comprenderla.

Cómo prevenir los incidentes y las violaciones de la seguridad Cómo responder a los incidentes y las violaciones cuando se producen

Cuanto mejor entienda cómo, cuándo y quién utiliza los activos individuales, más probabilidades tendrá de evitar por completo las violaciones de la seguridad, y más rápido podrá detectarlas cuando se produzcan.

Funciones de seguridad

Los elementos de seguridad son los métodos que una organización utiliza para proteger sus activos. Las funciones de seguridad incluyen componentes técnicos, procesos estructurados y prácticas orgánicas. Estas funciones cubren todo el ciclo de vida de los activos, las protecciones y los eventos. Estas funciones suelen abarcar varios equipos, y la información que cada uno genera es necesaria para informar a las demás funciones. Las actividades de la función de seguridad pueden cambiar el entorno de forma proactiva y, como resultado, repercutir en las prioridades y la eficacia de otras funciones, tanto de seguridad como de negocio.

Acerca del conocimiento de la situación (SAA)

Hay muchas explicaciones sobre la conciencia de la situación, incluidas las cuatro funciones de percepción, comprensión, proyección y resolución en el modelo definido por primera vez por Mica Endsley, y el bucle OODA “observar, orientar, decidir, actuar”. Aunque estos modelos son buenos para entender el concepto de conocimiento de la situación, su aplicación práctica a la ciberseguridad no siempre está clara.

En términos prácticos, podemos pensar en el conocimiento de la situación en términos de cuatro elementos

Saber lo que debe ser. Comprender la situación actual. Inferir que lo que es y lo que debería ser no están de acuerdo. Haz algo con la diferencia.

Saber lo que debe ser.

Antes de que pueda entender el estado de la ciberseguridad de su empresa, necesita tener una buena comprensión de lo que debería estar pasando en esa empresa. En particular, debe saber lo siguiente

Usuarios autorizados de sistemas y dispositivos internos y externos Dispositivos autorizados y para qué se utilizan Procesos y aplicaciones autorizadas Dónde están autorizados y cómo contribuyen a la organización

Cuanto más precisa sea la información de que disponen los profesionales de la seguridad, más fácil será deducir y tomar medidas cuando surja un problema de seguridad. Una información precisa significa tener políticas de seguridad claramente definidas, controles de acceso eficaces, un inventario actualizado y diagramas de red detallados. Sin embargo, el reto es que la información de una organización a menudo no está documentada, está incompleta o no está actualizada. En estas situaciones, los analistas se ven obligados a extrapolar la información a través de líneas de base y similares, lo que, en el mejor de los casos, sólo proporciona una imagen semiactual de la situación de la organización.

Comprender la situación actual

Saber lo que debería ser es diferente de saber lo que es: en primer lugar, recopilar información sobre las intenciones de la organización (lo que la organización intenta hacer para alcanzar sus objetivos); en segundo lugar, examinar lo que está ocurriendo realmente en la organización; y en tercer lugar, comprender lo que está ocurriendo en el ciberespacio. Un equipo de seguridad no puede controlar directamente todo lo que hay en el ciberespacio. Deben utilizar las diversas herramientas a su disposición para obtener visibilidad en el ámbito del ciberespacio, geográficamente disperso y en gran medida invisible. En una futura entrada del blog hablaremos con más detalle de cómo conseguir esta visibilidad, pero la idea general es hacer un seguimiento de lo siguiente

Vulnerabilidades conocidas presentes en los dispositivos, procesos/aplicaciones y usuarios observados Vulnerabilidades conocidas presentes en los dispositivos, procesos y aplicaciones observados Cómo cambia el uso de los distintos sistemas y dispositivos Patrones y ciclos de uso presentes en los sistemas, dispositivos y usuarios

Este enfoque aprovecha e integra la información de los puntos de captura para ayudar a los analistas que apoyan la función de seguridad a deducir “lo que debería ser” y “lo que no debería ser”. Sin embargo, la arquitectura de sensores necesaria para seguir la actividad es costosa y requiere muchos recursos. Para que los procesos y los analistas puedan acceder a la información y combinarla eficazmente, es necesario construir un sistema robusto, colaborativo o distribuido para el conocimiento de la situación.

Justificar cuando el objetivo y la realidad no coinciden

Los problemas de seguridad surgen cuando ocurren cosas que no deberían. Por ejemplo, una persona no autorizada accede a un dispositivo, un dispositivo de grabación se configura para escuchar la red o un dispositivo de cifrado se ejecuta en un servidor web. Algunas de estas situaciones pueden detectarse fácilmente si son visibles. Por ejemplo, si el registro de seguridad está activado en un dispositivo, puede utilizar los registros de seguridad para averiguar cuándo un ID de usuario no autorizado intenta acceder al dispositivo. Si todos los puntos finales deben utilizar el resolvedor interno del Sistema de Nombres de Dominio, cualquier dispositivo que no esté en uso se puede encontrar registrando y mirando el tráfico de red que sale de la empresa.

Por desgracia, muchos de los problemas de seguridad que tratamos requieren inferencia. Por ejemplo, los registros de seguridad pueden rastrear el inicio de sesión exitoso de un ID de usuario en un sistema, pero no pueden determinar si ese inicio de sesión fue realizado por la persona a la que se le asignó el ID de usuario o si ese ID de usuario fue robado. Esta determinación requiere una inferencia, que es más difícil. Los métodos de inferencia incluyen

Violaciones directas de la política Desviaciones de los datos históricos (grandes cambios en el estado real) Valores atípicos anómalos que aparecen en el análisis de detección de valores atípicos Identificación de novedades Coincidencia de tácticas, técnicas y procedimientos (TTP).

Estas ideas se explorarán en futuras entradas del blog.

Las diferencias prácticas que deben abordarse no sólo están relacionadas con la seguridad, sino también con el negocio y la eficiencia. El reto aquí es que es técnicamente imposible o prácticamente imposible analizar toda la información relevante para entender “lo que es” y toda la información relevante para entender “lo que debería ser”. Cómo se elige qué subconjunto de observaciones se va a comparar con qué subconjunto de contextos es una cuestión de prioridades y recursos. Por lo tanto, es importante que los contextos, la visibilidad y los recursos disponibles reflejen con exactitud al profesional.

Cómo afrontar las diferencias

Saber lo que debería haber, hacer un seguimiento de lo que hay y pensar en lo que debería haber no tiene sentido a menos que la empresa planee actuar sobre lo que aprende. Las empresas suelen tomar medidas cuando determinan que hay una clara violación de la seguridad. Limpian las infecciones de malware, investigan las posibles violaciones de datos y denuncian el robo de recursos y datos personales. Sin embargo, si una organización no cree que un incidente de seguridad es la diferencia entre lo que debería ser y lo que es, es menos probable que haga algo al respecto. Este fallo dificulta la deducción de incidentes de seguridad en el futuro. Cuantos más elementos no coincidan con lo que deberían ser (por ejemplo, usuarios autorizados, dispositivos, uso), más ruido habrá, lo que dificulta la inferencia.

Las organizaciones deben asegurarse de que la información sobre las

Proceso de conocimiento de la situación

El conocimiento de la situación es el proceso de recopilar información relevante de toda la organización, integrarla en información procesable y compartirla para que las personas de la organización puedan tomar mejores decisiones. Para que el conocimiento de la situación sea eficaz

también requiere tecnologías que apoyen la recogida, el análisis y el almacenamiento de grandes cantidades de datos, así como la capacidad de asignar subconjuntos de datos de observación a los correspondientes subconjuntos de contexto por prioridad para maximizar el uso de los recursos.

Incluso las organizaciones mejor financiadas y más maduras tienen lagunas de información sobre dónde están y dónde deberían estar. Por lo tanto, un conocimiento eficaz de la situación requiere una comprensión de los datos que pueden complementarse para sacar conclusiones adecuadas a partir de la información disponible, así como una comprensión de las limitaciones de esas conclusiones.

Aprende los fundamentos de TensorFlow y Deep Learning con Python

Aprende los fundamentos de TensorFlow y Deep Learning con Python

un curso interesante que te permitirá aprender los fundamentos de TensorFlow y del deep learning a través de Python. El curso está en inglés, pero como el subtitulado es fácil para gente que no domine la lengua inglesa de poder seguir.

Aprende los fundamentos de TensorFlow y Deep Learning con Python Parte I

¿Listo para aprender los fundamentos de TensorFlow y el aprendizaje profundo con Python? Bueno, has venido al lugar correcto.

Después de esta introducción en dos partes, habrás escrito cientos de líneas de código TensorFlow y tendrás experiencia práctica con dos problemas importantes en el aprendizaje automático: regresión (predecir un número) y clasificación (predecir si algo es una cosa u otra).

Abre una ventana de Google Colab (si no estás seguro de lo que es, pronto lo sabrás) y prepárate para codificar.


Consigue todo el código/materiales en GitHub – https://www.github.com/mrdbourke/tens…
Haz una pregunta – https://github.com/mrdbourke/tensorfl…
Ver parte 2 – https://youtu.be/ZUKz4125WNI
Documentación de TensorFlow Python – https://www.tensorflow.org/api_docs/p…

Marcas de tiempo:
0:00 – Introducción/hola/cómo enfocar este vídeo
1:50 – INICIO DEL MÓDULO 0 (fundamentos de TensorFlow/aprendizaje profundo)
1:53 – [Keynote] 1. ¿Qué es el aprendizaje profundo?
6:31 – [Keynote] 2. ¿Por qué utilizar el aprendizaje profundo?
16:10 – [Keynote] 3. ¿Qué son las redes neuronales?
26:33 – [Keynote] 4. ¿Para qué se utiliza realmente el aprendizaje profundo?
35:10 – [Keynote] 5. ¿Qué es y por qué usar TensorFlow?
43:05 – [Keynote] 6. ¿Qué es un tensor?
46:40 – [Keynote] 7. Qué vamos a cubrir
51:12 – [Keynote] 8. Cómo enfocar este curso
56:45 – 9. Creando nuestros primeros tensores con TensorFlow
1:15:32 – 10. Creación de tensores con tf Variable
1:22:40 – 11. Creación de tensores aleatorios
1:32:20 – 12. Barajar el orden de los tensores
1:42:00 – 13. Creación de tensores a partir de matrices NumPy
1:53:57 – 14. 14. Obtención de información de nuestros tensores
2:05:52 – 15. Indexación y expansión de tensores
2:18:27 – 16. Manipulación de tensores con operaciones básicas
2:24:00 – 17. Multiplicación de matrices parte 1
2:35:55 – 18. Multiplicación de matrices parte 2
2:49:25 – 19. Multiplicación de matrices parte 3
2:59:27 – 20. Cambio del tipo de datos de los tensores
3:06:24 – 21. 21. Agregación de tensores
3:16:14 – 22. Solución de problemas con tensores
3:22:27 – 23. Encontrar el mínimo y el máximo posicional de un tensor
3:31:56 – 24. 24. Exprimir un tensor
3:34:57 – 25. 25. Codificación de tensores en caliente
3:40:44 – 26. Probando más operaciones matemáticas con tensores
3:45:31 – 27. 27. Uso de TensorFlow con NumPy
3:51:14 – INICIO DEL MÓDULO 1 (regresión de redes neuronales)
3:51:25 – [Keynote] 28. Introducción a la regresión de redes neuronales con TensorFlow
3:58:57 – [Keynote] 29. Entradas y salidas de un modelo de regresión
4:07:55 – [Keynote] 30. Arquitectura de un modelo de regresión de red neuronal
4:15:51 – 31. Creación de datos de regresión de muestra
4:28:39 – 32. Pasos en la modelización con TensorFlow
4:48:53 – 33. Pasos para mejorar un modelo parte 1
4:54:56 – 34. Pasos para mejorar un modelo parte 2
5:04:22 – 35. Pasos para mejorar un modelo, parte 3
5:16:55 – 36. Evaluación de un modelo parte 1 (“visualizar, visualizar, visualizar”)
5:24:20 – 37. Evaluación de un modelo parte 2 (los 3 conjuntos de datos)
5:35:22 – 38. Evaluación de un modelo parte 3 (resumen del modelo)
5:52:39 – 39. Evaluación de un modelo parte 4 (visualización de las capas)
5:59:56 – 40. Evaluación de un modelo parte 5 (visualización de predicciones)
6:09:11 – 41. Evaluación de un modelo parte 6 (métricas de evaluación de la regresión)
6:17:19 – 42. Evaluación de un modelo de regresión parte 7 (MAE)
6:23:10 – 43. Evaluación de un modelo de regresión parte 8 (MSE)
6:26:29 – 44. Experimentos de modelización parte 1 (empezar con un modelo sencillo)
6:40:19 – 45. Experimentos de modelización parte 2 (aumento de la complejidad)
6:51:49 – 46. Comparación y seguimiento de experimentos
7:02:08 – 47. Guardar un modelo
7:11:32 – 48. Cargar un modelo guardado
7:21:49 – 49. Guardar y descargar archivos de Google Colab
7:28:07 – 50. 50. Reunir lo que hemos aprendido 1 (preparar un conjunto de datos)
7:41:38 – 51. Reunir lo que hemos aprendido 2 (construir un modelo de regresión)
7:55:01 – 52. 52. Reunir lo que hemos aprendido 3 (mejorar nuestro modelo de regresión)
8:10:45 – [Código] 53. Preprocesamiento de datos 1 (conceptos)
8:20:21 – [Código] 54. Preprocesamiento de datos 2 (normalización de datos)
8:31:17 – [Código] 55. Preprocesamiento de datos 3 (ajuste de un modelo en los datos normalizados)
8:38:57 – INICIO DEL MÓDULO 2 (clasificación con redes neuronales)
8:39:07 – [Keynote] 56. Introducción a la clasificación de redes neuronales con TensorFlow
8:47:31 – [Keynote] 57. Entradas y salidas de la clasificación
8:54:08 – [Keynote] 58. Formas del tensor de entrada y salida de la clasificación
9:00:31 – [Keynote] 59. Arquitectura típica de un modelo de clasificación
9:10:08 – 60. Creación y visualización de datos de clasificación para el modelo
9:21:39 – 61. Comprobación de las formas de entrada y salida de nuestros datos de clasificación
9:26:17 – 62. Construyendo un modelo de clasificación no muy bueno
9:38:28 – 63. 63. Intentando mejorar nuestro modelo de clasificación no muy bueno
9:47:42 – 64. Creación de una función para visualizar las predicciones no tan buenas de nuestro modelo
10:02:50 – 65. Haciendo que nuestro pobre modelo de clasificación funcione para un conjunto de datos de regresión

Aprende los fundamentos de TensorFlow y Deep Learning con Python Parte II

Has llegado a la segunda parte de la serie de vídeos más larga de aprendizaje profundo y TensorFlow en YouTube.

Esta parte continúa justo donde lo dejó la primera, así que abre la ventana de Google Colab y prepárate para escribir mucho más código TensorFlow.


Consigue todo el código/materiales en GitHub – https://www.github.com/mrdbourke/tens…
Haz una pregunta – https://github.com/mrdbourke/tensorfl…
Ver parte 1 – https://youtu.be/tpCFfeUEGs8
Documentación de TensorFlow Python – https://www.tensorflow.org/api_docs/p…

Marcas de tiempo:
0:00 – Introducción/hola/¿Has visto la parte 1? Si no, deberías
0:55 – 66. No linealidad parte 1 (líneas rectas y no rectas)
10:33 – 67. No linealidad parte 2 (construir nuestra primera red neuronal con una función de activación no lineal)
16:21 – 68. No linealidad parte 3 (mejorando nuestro modelo no lineal con más capas)
26:40 – 69. No linealidad parte 4 (modelando nuestros datos no lineales)
35:18 – 70. No linealidad parte 5 (reproduciendo nuestras funciones no lineales desde cero)
49:45 – 71. Conseguir grandes resultados en menos tiempo ajustando la tasa de aprendizaje
1:04:32 – 72. Uso del objeto histórico para trazar las curvas de pérdida de un modelo
1:10:43 – 73. Utilizar las devoluciones de llamada para encontrar la tasa de aprendizaje ideal de un modelo
1:28:16 – 74. Entrenamiento y evaluación de un modelo con una tasa de aprendizaje ideal
1:37:37 – [Nota clave] 75. Introducción de más métodos de clasificación
1:43:41 – 76. 76. Encontrar la precisión de nuestro modelo
1:47:59 – 77. 77. Creación de nuestra primera matriz de confusión
1:56:27 – 78. Hacer más bonita nuestra matriz de confusión
2:10:28 – 79. Clasificación multiclase parte 1 (preparación de los datos)
2:21:04 – 80. Clasificación multiclase, parte 2 (hacerse uno con los datos)
2:28:13 – 81. Clasificación multiclase, parte 3 (creación de un modelo multiclase)
2:43:52 – 82. Clasificación multiclase, parte 4 (mejorar nuestro modelo multiclase)
2:56:35 – 83. Clasificación multiclase, parte 5 (normalizada y no normalizada)
3:00:48 – 84. Clasificación multiclase parte 6 (encontrar la tasa de aprendizaje ideal)
3:11:27 – 85. Clasificación multiclase, parte 7 (evaluación de nuestro modelo)
3:25:34 – 86. Clasificación multiclase, parte 8 (creación de una matriz de confusión)
3:30:00 – 87. Clasificación multiclase, parte 9 (visualización de muestras aleatorias)
3:40:42 – 88. ¿Qué patrones está aprendiendo nuestro modelo?

Traducción realizada con la versión gratuita del traductor www.DeepL.com/Translator

Los 7 mejores libros de ciencia de datos para principiantes

Los 7 mejores libros de ciencia de datos para principiantes


.

Los 7 mejores libros de ciencia de datos para llevarte desde principiante a master

En pleno auge del video sobre cualquier otro formato, muchos aspirantes a alguna profesión de futuro, se olvidan que entre tutoriales de youtube, webinars, cursos de udemy o de coursera, hay una herramienta de aprendizaje fenomenal que funcional desde hace siglos, que no necesita internet, ni electricidad, que es 100 movil y que se adapta al ritmo de cada uno.

EL LIBRO.

Los 7 mejores libros de ciencia de datos para principiantes
Photo by Pixabay on Pexels.com

Es cierto que no todos los libros y todos los autores son capaces de hacer del aprendizaje una experiencia fácil y divertida. En este listado os propongo 7 libros de 7 autores que merecen la pena leer para llevaros desde un simples principiante de la ciencia de datos a dominar el tema y poder aplicarla sin cualquier tipo de problemas.

1. The Python Data Science Handbook, de Jake VanderPlas, publicado por O’Reilly.

Los 7 mejores libros de ciencia de datos para principiantes

Este libro es ideal para aquellos que se están iniciando en el análisis de datos y la ciencia de los datos y necesitan un libro que haga referencia a todas las técnicas y características de la biblioteca y amplíe Python para la ciencia de los datos. El libro cubre una variedad de temas en detalle y en profundidad, incluyendo la manipulación de datos con IPython (Python Interactivo), Numpy y Pandas, la visualización con matplotlib, y los algoritmos de aprendizaje automático supervisado y no supervisado con scikit-learn La cantidad y la profundidad del contenido sobre estos temas es impresionante. La cantidad y la calidad de los contenidos sobre estos temas contribuirán en gran medida a proporcionar habilidades para iniciarse en el ciclo de proyectos de ciencia de datos.

2. Practical Statistics for Data Scientists, de Peter Bruce, Andrew Bruce y Peter Gedek, publicado por O’Reilly.

Los 7 mejores libros de ciencia de datos para principiantes

La segunda edición de este libro ya ha salido, pero personalmente creo que es beneficioso leer este libro incluso si estás empezando o eres un profesional. Porque las estadísticas son la base de la ciencia de datos, y es fácil olvidarla, este libro te permitirá adquirir muchas habilidades si no las tienes todavia, pero también permitirá refrescar algunas de las que no se han vuelto a utilizar desde que se ha aprendido..

Estos temas se incluyen en este libro. Este libro incluye temas como EDA, datos y distribuciones de muestreo, experimentos estadísticos y pruebas de significación, regresión, clasificación, ML estadístico y aprendizaje no supervisado. Si eres un principiante, lee primero el primer libro y luego salta a este libro para aprender un montón de nuevas habilidades en la ciencia de los datos.

3. Introducing Data Science, de Davy Cielen et.al, publicado por Manning.

Los 7 mejores libros de ciencia de datos para principiantes

Me gusta este libro porque no sólo cubre los temas omnipresentes de la ciencia de los datos, sino también otros aspectos del campo de la ciencia de los datos, como {bases de datos NoSQL, minería de textos, análisis de textos y cómo iniciarse en el Big Data, especialmente el manejo de grandes cantidades de datos en un solo ordenador el manejo de grandes cantidades de datos en un solo ordenador}. Entender y trabajar con la integración de bases de datos en proyectos de ciencia de datos es una habilidad realmente útil y demandada. Te recomiendo que leas este artículo y aprendas las habilidades mencionadas.

4. The Art of Statistics: Learning Statistics from Data, de David Spiegelhalter, Pelican Publications, Inc.

Los 7 mejores libros de ciencia de datos para principiantes

Este libro era la recomendación de un curso de Ciencia de Datos Aplicada en Coursera en la Universidad de Michigan. Este libro hace un importante enfoque en la importancia de la capacidad de visualización (o, más concretamente, del arte). Es un libro muy recomendable a cualquiera que quiera comprender la profundidad de la visualización de datos y aprender el arte de la visualización de datos.

5. Data Science from Scratch de Joel Grus (publicado por O’Reilly)

Los 7 mejores libros de ciencia de datos para principiantes

Ya en su segunda edición, este libro ha ganado popularidad porque combina una variedad de fundamentos en un solo libro. Comienza con un curso intensivo de Python y luego pasa a la visualización de datos, el álgebra lineal y la estadística, la probabilidad, las hipótesis y la inferencia, la adquisición y el uso de datos, y el aprendizaje automático, las redes neuronales y los sistemas de recomendación, el análisis de redes y muchos otros temas relacionados con los datos. Es una gran lectura, y esperamos que la disfrute.

6.R for Data Science por Hadley Wickham & Garrett Gromund, publicado por O’ Reilly

Los 7 mejores libros de ciencia de datos para principiantes

R es todavia uno de los lenguajes de programación más utilizados para ciencia de datos. Algo que podría no parecer el caso por las recomendaciones hasta el momento.

Este libro es para las personas que quieren conocer el lenguaje, y todas la infinidad de librerías disponibles, para que puedan probarlo Cualquiera que esté pensando en hacer algo divertido o nuevo en ciencia de datos, como aprender un nuevo lenguaje para una tarea de ciencia de datos, debería leer definitivamente este libro. En este libro lo aprenderá todo. Definitivamente, merece la pena echarle un vistazo.

7.Think Stats de Allen B. Downey, publicado por O’ Reilley

Los 7 mejores libros de ciencia de datos para principiantes

Think Stats es un prólogo a la Probabilidad y la Estadística para los desarrolladores de software y científicos de datos de Python (si no estás ya familiarizado con estos temas).

Think Stats le muestra métodos sencillos para explorar conjuntos de datos del mundo real y responder a preguntas interesantes. El libro presenta un análisis contextual utilizando datos de los Institutos Nacionales de Salud.

Si tiene los conocimientos básicos de Python, puede utilizarlo para aprender a pensar en la probabilidad y la estadística.Think Stats se basa en la biblioteca de distribuciones de probabilidad de Python. También incluye muchos ejercicios que permiten realizar diversos experimentos con programas cortos para profundizar en su comprensión.

Aunque muchos libros no cubren la estadística bayesiana, Think Stats destaca el potencial de las técnicas bayesianas como algo muy importante; mediante el uso de PMF y la biblioteca CDF (utilizada para las distribuciones de probabilidad), incluso los aficionados pueden familiarizarse con las ideas y abordar los problemas de pruebas posibles.

Tendencias en la ciencia de datos e IA para 2021

Tendencias en la ciencia de datos e IA para 2021

Como disciplina empresarial, la Ciencia de Datos es la antítesis de la inteligencia artificial. Por un lado, la IA es una disciplina libre cuyos únicos límites son la creatividad, la innovación y la eficacia; por otro lado, la IA está sujeta a innumerables restricciones tecnológicas, de gobernanza, de regulación y a la proverbial cuenta de resultados en este articulo vamos acercarnos a algunas de las tendencias en la ciencia de datos e IA para 2021.

Sin embargo, los beneficios tangibles para el negocio que se promocionan en las aplicaciones empresariales de la IA casi siempre provienen de la ciencia de los datos. La tendencia ModelOps que encabeza la computación cognitiva en la actualidad tiene un correlato importante y único en el campo de la ciencia de los datos. Este modelo pretende garantizar la coherencia operativa en todas las formas de IA, desde la basada en el conocimiento hasta la estadística, los científicos de datos están impulsando implícitamente este movimiento al ampliar los tipos de datos que se incluyen en estos esfuerzos.

Tendencias en la ciencia de datos e IA para 2021
Photo by Markus Winkler on Pexels.com

La mayor parte de los profesionales a los que puedes preguntar te dirán que si las empresas quieren ganar en Ciencia de Datos, tienen que tomarse en serio la amplitud y la diversidad de todos los tipos de datos, no sólo los datos a los que se pueden aplicar métodos estadísticos.

Al aprovechar todos los datos de que disponen, las empresas pueden explorar las fronteras de la Ciencia de Datos y dominar la generación inteligente de características, la explicabilidad, la preparación de datos y la estandarización y selección de modelos.

Tendencias en la ciencia de datos e IA para 2021

Generación inteligente de características

Los datos de aprendizaje automático “perceptivos o visibles para el ordenador” invocan directamente los fundamentos estadísticos de la IA. Construir un modelo de aprendizaje automático requiere identificar características que aumenten la precisión del modelo, por ejemplo, para aplicaciones de visión por ordenador para controlar los defectos en los procesos de las cadenas de montaje industriales de Internet. La construcción de características inteligentes se reduce a lo que es importante para el dominio y cómo se procesan esos datos.

Por ejemplo, si se quiere identificar características para ver si un paciente tiene una determinada afección cardíaca, Se podria aplicar tecnicas de redución de ruido, se observa el patrón periódico, se aplica el análisis para encontrar los picos y se mide la distancia entre los picos. La distancia entre los picos es la característica.

Tendencias en la ciencia de datos e IA para 2021
Photo by luis gomes on Pexels.com


Consultas simplificadas.

El modelo entidad-evento configurado en forma de grafo que soporta las bases de conocimiento de la IA simplifica enormemente el esquema y reduce la longitud de las consultas para representar una serie infinita de eventos temporales asociados a entidades importantes como clientes, pacientes y productos.Con un grafo complejo sin un modelo entidad-evento, hay que escribir consultas complejas para extraer características para el aprendizaje automático. Con este enfoque, puedes escribir una simple consulta para recuperar los datos.


Generación Inteligente de caracteristicas.

El uso de bases de datos específicas para la generación de características es un avance particular en la ciencia de los datos, por ejemplo el caso de uso del vehículo autónomo en la visión por ordenador, donde las características se agrupan en escenas y éstas se representan como grafos. Las escenas pueden estar compuestas por otras escenas, y las características se extraen mediante un enfoque estadístico basado en reglas. Una escena representa un escenario de conducción concreto, como un peatón que cruza una calle. Para los vehículos, el reto es entender la respuesta adecuada en cada situación.

En la visión por ordenador, eso es más o menos una selección de características, pero dispuestas espacial y temporalmente.

Incrustación de grafos

En el caso de los datos que cambian rápidamente (por ejemplo, el comercio electrónico, las recomendaciones o las aplicaciones de la Internet de las Cosas), el reconocimiento preciso de las características depende de la reducción del ruido en el ege referenciado. Los científicos de datos utilizan técnicas de aprendizaje no supervisado, similares al clustering, para reducir el número de variables en el modelo de aprendizaje. Los enfoques de reducción de la dimensionalidad, como el análisis de componentes principales (PCA), “pueden separar el fondo de las partes móviles de un vídeo”, afirma Ege.

La incrustación de grafos está ganando adeptos para realizar este importante trabajo de ciencia de datos porque “utiliza las propiedades de los grafos para entender las similitudes entre cosas como los productos y las personas para hacer predicciones e inferencias. Los beneficios de esta aplicación del Gráfico de Conocimiento incluyen.

  • Reducción del tiempo de preparación de los datos: la incorporación de gráficos elimina la compleja canalización que solía acaparar el tiempo de los científicos de datos para preparar los datos en lugar de analizarlos. La transferencia de datos a herramientas como Python para este trabajo de aprendizaje automático requiere mucho tiempo de programación. Sin embargo, cuando se ejecuta en una base de datos de grafos, es mucho más rápido y más iterativo que extraer datos de un grafo y procesarlos a través de los mecanismos de colección de datos.
  • Apoyo a las matrices. Para ser utilizados en modelos de aprendizaje automático, los datos deben ser vectorizados. El uso de un grafos con soporte matricial permite a las empresas trasladar los datos de un gráfico a una matriz. A continuación, pueden realizar funciones similares a las del ACP y ver cómo se correlacionan las distintas partes del conjunto de datos.
  • Los grafos granulares también son ideales para introducir los resultados de los análisis de aprendizaje automático, como el clustering, para mejorar las características y otros aspectos del modelo de entrenamiento. A este respecto, Lo que es más eficaz con los grafos, especialmente en el aprendizaje no supervisado, es poner el resultado de lo que se ha aprendido de nuevo en el grafo.

Explicabilidad

El problema de la explicabilidad, que roza la interpretabilidad, el sesgo del modelo y la IA justa, puede socavar el valor empresarial que se deriva del uso e implementación de modelos de IA estadística. Sin embargo, combinando los aspectos estadísticos y de conocimiento de la IA, las empresas pueden superar este obstáculo de forma consistente. La única solución real a la crisis de explicabilidad son las técnicas mixtas que complementan los modelos estadísticos con la lógica y el formalismo basado en reglas. Una de las principales prioridades de los científicos de datos para el próximo año es ampliar el aprendizaje automático para incluir la base de conocimientos de la IA representada por el aprendizaje basado en reglas.

Esto ampliará los tipos de datos y las técnicas que debe abarcar la ciencia de los datos para incluir lo que Clarke describe como “datos que son conceptuales o categóricos, es decir, sobre conceptos y categorías que existen entre los seres humanos”. El valor empresarial de utilizar estos datos con reglas lógicas facilitará su explicabilidad mediante aplicaciones prácticas de aprendizaje automático.” La mayoría de los datos empresariales no son realmente perceptibles o visibles para los ordenadores”. Por ejemplo, ¿qué es un préstamo de alto riesgo, qué es una compra de alto riesgo, y supone esa persona una amenaza interna para la empresa desde una perspectiva de riesgo y análisis? O, ¿qué parte de la cadena de suministro corre más riesgo en caso de terremoto en Chile? El uso de la IA estadística en combinación con el razonamiento simbólico, el razonamiento semántico y las reglas para analizar estos escenarios puede proporcionar un poder explicativo muy necesario para las organizaciones y los reguladores.

Normas del modelo

Aparte de enfoques como los bosques aleatorios y las técnicas de conjunto como el gradient boosting, explicar los resultados de la gran cantidad de redes neuronales multicapa ha demostrado ser lo más difícil (especialmente con la complejidad computacional y la escala del Deep Learning). Las organizaciones pueden maximizar el uso de estos y otros modelos estandarizándolos y considerando lo siguiente Open Neural Network Exchange (ONNX). Según Wayne Thompson, científico jefe de datos de SAS, “ONNX es un estándar ambiental para compartir modelos de aprendizaje profundo”. Después de desarrollar un modelo en un marco propietario, “otra persona puede llevarlo al código abierto, utilizar mi modelo como ponderación preliminar y entrenarlo más en ese entorno”, señala Thompson.
Sintonización automática. Los científicos de datos pueden acelerar la tediosa tarea de afinar los parámetros de un modelo de aprendizaje automático optando por “construir un algoritmo con muy pocos parámetros de ajuste y añadir valores óptimos por defecto”, aclara Ege.” Hemos introducido un algoritmo independiente para ver cuáles son los parámetros óptimos de ajuste, de modo que no tengamos cientos de miles de parámetros”, revela Ege. Este enfoque funciona bien para los modelos de factor de forma más pequeño en los dispositivos IoT, por ejemplo.
Redes neuronales recurrentes (RNN); las RNN son buenas para la predicción y el análisis de textos”. Thompson añade: “Porque estás viendo un conjunto de puntos de datos”. Una conversación es un conjunto de palabras habladas en un continuo.
Redes neuronales convolucionales (CNN). Una de las principales aplicaciones de las CNN es la visión por ordenador”. Podemos ver mejor que los humanos hoy en día”, dice Thompson”. Así que es muy adecuado para el análisis de imágenes, y hay muchos casos de uso para él”, dice Thompson.