Qué es DataOps

¿Qué es DataOps ? Una extensión de los Devops para Data operations para una buena preparación de datos

En este articulo vamos intentar dar una respuesta a lo que son los DataOps una nueva extensión del concepto de DevOps enfocado a los entornos de datos.

Contenidos DataOps

DataOps una definición


DataOps es un conjunto de prácticas técnicas, flujos de trabajo, normas culturales y patrones arquitectónicos que permiten:

  • Innovación y experimentación rápidas que proporcionan nuevos conocimientos a los clientes a una velocidad cada vez mayor.
  • Calidad de datos extremadamente alta e índices de error muy bajos
  • Colaboración entre complejos conjuntos de personas, tecnologías y entornos.
  • Clara medición, supervisión y transparencia de los resultados

La mejor manera de explicar DataOps es repasar su herencia intelectual, explorar los problemas que trata de resolver y describir un ejemplo de equipo u organización de DataOps. Nuestras explicaciones a continuación comienzan a un nivel muy conceptual, pero luego pasan rápidamente a términos pragmáticos y prácticos. Creemos que esta es la mejor manera de ayudar a los profesionales de los datos a comprender los beneficios potenciales de DataOps.

¿Cuál es la herencia intelectual de DataOps?


Los orígenes de DataOps se remontan al trabajo pionero del consultor de gestión W. Edwards Deming, a quien a menudo se atribuye la inspiración del milagro económico japonés posterior a la Segunda Guerra Mundial.

Las metodologías de fabricación que se inspiraron en Deming se aplican ahora ampliamente al desarrollo de software y a las TI. DataOps traslada estas metodologías al ámbito de los datos. En pocas palabras, DataOps aplica el desarrollo ágil, DevOps y la fabricación ajustada al desarrollo y las operaciones de análisis de datos.

Agile es una aplicación de la Teoría de las Restricciones al desarrollo de software, es decir, los lotes más pequeños reducen el trabajo en curso y aumentan el rendimiento general del sistema de fabricación.

DevOps es el resultado natural de la aplicación de los principios lean (por ejemplo, eliminación de residuos, mejora continua, enfoque amplio) al desarrollo y la entrega de aplicaciones. La fabricación ajustada también aporta un enfoque implacable en la calidad, utilizando herramientas como el control estadístico de procesos, al análisis de datos.

¿Qué es DataOps?
¿Qué es DataOps?

¿Qué es el desarrollo ágil?


Para que DataOps sea eficaz, debe gestionar la colaboración y la innovación. Con este fin, DataOps introduce el Desarrollo Ágil en la analítica de datos para que los equipos de datos y los usuarios trabajen juntos de forma más eficiente y eficaz.

En el Desarrollo Ágil, el equipo de datos publica análisis nuevos o actualizados en breves incrementos llamados “sprints”. Al producirse la innovación en intervalos rápidos, el equipo puede reevaluar continuamente sus prioridades y adaptarse más fácilmente a la evolución de los requisitos, basándose en los comentarios continuos de los usuarios. Este tipo de capacidad de respuesta es imposible si se utiliza una metodología de gestión de proyectos en cascada, que encierra al equipo en un largo ciclo de desarrollo, aislado de los usuarios, con un producto final de gran envergadura.

Los estudios demuestran que los proyectos se completan más rápido y con menos defectos cuando el desarrollo ágil sustituye a la metodología secuencial tradicional en cascada. La metodología Agile es especialmente eficaz en entornos en los que los requisitos evolucionan rápidamente, una situación bien conocida por los profesionales del análisis de datos. En un entorno DataOps, los métodos Agile permiten a las organizaciones responder rápidamente a las necesidades de los clientes y acelerar el tiempo de creación de valor.

¿Qué es la fabricación ajustada y qué tiene que ver con el análisis de datos?


La fabricación ajustada es una metodología, originaria de la industria manufacturera japonesa (por ejemplo, Toyota), que se centra en la minimización de los residuos dentro de un sistema sin sacrificar la productividad. Mientras que Agile y DevOps se refieren al desarrollo y despliegue de la analítica, la analítica de datos también gestiona y orquesta una canalización de datos. Los datos entran continuamente por un lado de la canalización, progresan a través de una serie de pasos y salen en forma de informes, modelos y vistas. La canalización de datos es la parte “operativa” del análisis de datos. Resulta útil conceptualizar la canalización de datos como una línea de fabricación con un enfoque activo en la calidad, la eficiencia, las limitaciones y el tiempo de actividad. Para adoptar plenamente esta mentalidad de fabricación, llamamos a esta tubería la “fábrica de datos”.

En DataOps, el flujo de datos a través de las operaciones es un área importante de atención. DataOps organiza, supervisa y gestiona la fábrica de datos. Una herramienta de fabricación ajustada especialmente potente es el control estadístico de procesos (SPC). El SPC mide y supervisa los datos y las características operativas de la canalización de datos, garantizando que la variación estadística se mantenga dentro de unos márgenes aceptables. Cuando se aplica a la analítica de datos, el SPC mejora notablemente la eficiencia, la calidad y la transparencia. Con el SPC implantado, los datos que fluyen por el sistema operativo se verifican en cada paso del proceso de análisis de datos. Si se produce una anomalía, el equipo de análisis de datos será el primero en saberlo, a través de una alerta automatizada.

Aunque el nombre “DataOps” implica que toma prestado más de DevOps, son todas las metodologías descritas anteriormente -Agile, DevOps, “lean” y control estadístico de procesos- las que componen el patrimonio intelectual de DataOps. Agile gobierna el desarrollo analítico, DevOps optimiza la verificación del código, la construcción y la entrega de nuevos análisis y SPC orquesta, supervisa y valida la fábrica de datos. La figura 1 ilustra cómo Agile, DevOps y el control estadístico de procesos constituyen los cimientos de DataOps.

¿Qué es DevOps?


DevOps es un enfoque del desarrollo de software que acelera el ciclo de vida de construcción (antes conocido como ingeniería de lanzamiento) mediante la automatización. DevOps se centra en el despliegue continuo de software aprovechando los recursos de TI bajo demanda y automatizando la integración, las pruebas y el despliegue del código. Esta fusión del desarrollo de software (“dev”) y las operaciones de TI (“ops”) reduce el tiempo de despliegue, disminuye el tiempo de comercialización, minimiza los defectos y acorta el tiempo necesario para resolver los problemas.

Gracias a DevOps, las empresas líderes han podido reducir el tiempo del ciclo de lanzamiento de su software de meses a literalmente segundos. Este avance les ha permitido crecer y liderar en mercados emergentes de ritmo rápido. Empresas como Google, Amazon y muchas otras lanzan ahora software muchas veces al día. Al mejorar la calidad y el tiempo de ciclo de las versiones de código, DevOps merece gran parte del crédito por el éxito de estas empresas.

¿Qué es DataOps?
¿Qué es DataOps?

¿No es DataOps sólo DevOps para datos?

Casi todo el mundo hace esta suposición cuando escucha por primera vez el término DataOps. Aunque un poco engañoso desde el punto de vista semántico, el término “DataOps” comunica que el análisis de datos puede lograr lo que el desarrollo de software consiguió con DevOps. Es decir, DataOps puede producir una mejora de un orden de magnitud en la calidad y el tiempo de ciclo cuando los equipos de datos utilizan nuevas herramientas y metodologías. DevOps optimiza el proceso de desarrollo de software. Es lo que permite a empresas como Amazon, Netflix y Google ejecutar millones de versiones de código al año. DataOps también acelera el desarrollo de software (nuevos análisis), pero tiene que gestionar simultáneamente una operación de fabricación dinámica (es decir, operaciones de datos). DataOps incluye DevOps y otras metodologías que se aplican a los retos únicos de gestionar una canalización de operaciones de datos críticos para la empresa. Para obtener más información sobre las diferencias entre DevOps y DataOps, lea el libro blanco DataOps is NOT Just DevOps for Data (DataOps no es sólo DevOps para datos).

¿Cómo funciona dataops? Principios clave

Dataops se basa en tres principios principales:

Colaboración

Reune a interesados de todo el ciclo de vida de los datos, incluidos ingenieros de datos, científicos de datos, desarrolladores de aplicaciones, gerentes de productos e interesados en el negocio.

Integración de procesos

Une el desarrollo y mantenimiento de aplicaciones de datos con la integración y automatización de flujos de datos.

Orientada a procesos

Adopta prácticas de ingeniería de software como CI/CD, ejecución de pruebas, documentación y supervisión para crear procesos repetibles.

Elementos clave de una práctica de dataops efectiva

Para que dataops tenga éxito, las organizaciones deben considerar varios factores:

Modernización de la plataforma de datos

Adoptar plataformas de datos en la nube que permitan escalar para grandes volúmenes de datos y admitan capacidades de AI/ML.

Cultura de colaboración

Fomentar la comunicación abierta y el intercambio de conocimientos entre equipos para alinearse con las necesidades y objetivos del negocio.

Automatización holística

Automatizar tareas repetitivas en cada etapa del ciclo de vida de los datos, desde la ingesta hasta la entrega de insights.

Supervisión y generación de informes

Supervisar métricas clave como la calidad de los datos, el rendimiento de los pipelines y la satisfacción del usuario para mejorar continuamente.

Documentación y gobernanza

Documentar procesos, flujos de datos y otros metadatos para mantener la calidad y linaje de los datos.

Beneficios de adoptar una práctica de dataops

Las organizaciones que implementan dataops correctamente pueden esperar varios beneficios, incluyendo:

  • Mayor velocidad en la entrega de insights y productos de datos impulsados por la automatización
  • Mejor toma de decisiones gracias al acceso oportuno a datos confiables y de alta calidad
  • Reducción del tiempo dedicado a tareas manuales repetitivas
  • Mayor productividad de los equipos de datos al eliminar los cuellos de botella
  • Capacidad de escalar las iniciativas de big data y aprendizaje automático
  • Mayor satisfacción de los usuarios de datos internos gracias a los datos certificados y self-service.

Aunque requiere un cambio cultural y de procesos, dataops permite a las organizaciones generar mucho más valor de sus datos. Mediante la automatización de tareas manuales y la mejora de la colaboración, los equipos pueden dedicarse a tareas de mayor valor que impulsan el negocio.

¿Qué problema intenta resolver DataOps?


DataOps ejerce control sobre el flujo de trabajo y los procesos, eliminando los numerosos obstáculos que impiden a su organización de datos alcanzar altos niveles de productividad y calidad. Llamamos “tiempo de ciclo” al tiempo transcurrido entre la propuesta de una nueva idea y el despliegue de la analítica terminada. Muchas organizaciones necesitan meses de tiempo de ciclo para desplegar 20 líneas de SQL. Los tiempos de ciclo largos desaniman y decepcionan a los usuarios y obstaculizan la creatividad.

Lo ideal sería que los equipos de datos trabajaran codo con codo con sus usuarios como una máquina bien engrasada, recibiendo propuestas de nuevas ideas, aplicándolas rápidamente e iterando con rapidez hacia modelos y análisis de mayor calidad. Por desgracia, nuestra experiencia es la contraria. Los equipos de datos se ven constantemente interrumpidos por errores de datos y análisis. Los científicos de datos pasan el 75% de su tiempo masajeando datos y ejecutando pasos manuales. El desarrollo lento y propenso a errores decepciona y frustra a los miembros del equipo de datos y a las partes interesadas. La duración del ciclo de análisis se alarga por varias razones:

  • Trabajo en equipo deficiente dentro del equipo de datos
  • Falta de colaboración entre grupos dentro de la organización de datos
  • Esperar a que TI disponga o configure los recursos del sistema
  • Espera para acceder a los datos
  • Avanzar despacio y con cautela para evitar la mala calidad.
  • Exigir aprobaciones, por ejemplo de una Junta de Revisión de Impacto
  • Arquitecturas de datos inflexibles
  • Cuellos de botella en los procesos
  • Deuda técnica de implantaciones anteriores
  • Mala calidad que genera trabajo no planificado

A pesar de lo desalentadores que son algunos de estos retos, algunas organizaciones de datos han logrado un tiempo de ciclo rápido y una calidad impecable utilizando DataOps. Por ejemplo, el gigante farmacéutico Celgene ha mejorado el tiempo de ciclo en un orden de magnitud y puede soportar 12 veces el número de cambios de esquema y 24 veces el número de analistas de datos por ingeniero de datos. Mientras que el número medio de errores de datos en el sector es de 3 a 10 al mes, Celgene encuentra muy, muy pocos errores o incumplimientos de los acuerdos de nivel de servicio.

¿Cómo es una organización DataOps?


Como hemos explicado anteriormente, DataOps no es necesariamente una cosa. Para que te hagas una idea de cómo funciona DataOps, vamos a describir de forma general un organización DataOps.

Decenas o cientos de fuentes de datos se consolidan en un lago de datos, pasan por una compleja serie de transformaciones y se envían a los usuarios en forma de tablas y gráficos analíticos, todo ello bajo una orquestación automatizada. Las pruebas automatizadas (controles de procesos estadísticos) validan los datos que entran en el sistema, así como las entradas, salidas y lógica empresarial en cada paso de la transformación. Las alertas de estado, advertencia y fallo de todos estos controles de proceso avanzan hacia el equipo de datos en tiempo real. Las pruebas también implementan un cordón Andon virtual para detener una fuente de datos en caso de errores fatales.

Los errores de datos prácticamente nunca entran en la cadena de análisis de datos y los errores de procesamiento se detectan a mitad de la cadena antes de corromper los análisis. Los KPI (parámetros clave de rendimiento) de calidad y tiempo de actividad de la canalización de datos aumentan considerablemente, muy por encima de los objetivos.

El trabajo no planificado debido a errores se reduce en más de un 99%. Todo el esfuerzo manual ineficiente que antes se dedicaba a operar, verificar y reparar el canal de datos se redistribuye a actividades de mayor valor añadido. La organización de datos deja de depender de la esperanza y el heroísmo.

El proceso y el flujo de trabajo para desarrollar nuevos análisis se han racionalizado y ahora funcionan a la perfección. El entorno de operaciones de destino se abstrae y replica en espacios de trabajo virtuales, lo que mejora la precisión de las pruebas, la repetibilidad y la portabilidad de los análisis.

Los espacios de trabajo virtuales proporcionan a los desarrolladores sus propios entornos de datos y herramientas para que puedan trabajar de forma independiente sin afectar a las operaciones ni a los demás. Los espacios de trabajo también contienen bibliotecas de servicios y otros componentes que fomentan la reutilización. Los espacios de trabajo incluyen canalizaciones automatizadas y orquestadas que pueden ser sensibles al contexto y ejecutadas por un programador. La creación de nuevos análisis suele implicar el desarrollo de derivados incrementales de componentes y pipelines existentes en lugar de “escribir desde cero”.

Los espacios de trabajo también están estrechamente vinculados al control de versiones, por lo que todos los archivos de origen y los artefactos necesarios para las operaciones están intrínsecamente centralizados, versionados y protegidos. Los científicos de datos pueden compartir el trabajo entre sí o reenviar los análisis para su despliegue en producción con un mínimo de reintroducción y pasos manuales. El tiempo de ciclo se reduce de meses a días u horas.

DataOps utiliza la automatización de procesos y flujos de trabajo para mejorar y facilitar la comunicación y la coordinación dentro de un equipo y entre los grupos de la organización de datos. DataOps reestructura las canalizaciones de análisis de datos como servicios (o microservicios) que crean un proceso de análisis sólido, transparente, eficiente y repetible que unifica todos los flujos de trabajo de desarrollo y operaciones. Permite a los equipos trabajar de forma independiente, de acuerdo con la cadencia de iteración adecuada a su cadena de herramientas, y luego, con un mínimo de pasos manuales, reúne su trabajo en un todo unificado para su entrega a los clientes.

Que es importan

¿Qué es un ingeniero de DataOps?


Los ingenieros de DataOps crean e implementan los procesos que permiten el éxito del trabajo en equipo dentro de la organización de datos. Diseñan las orquestaciones que permiten que el trabajo fluya sin problemas desde el desarrollo hasta la producción. Se aseguran de que los entornos estén alineados y de que el hardware, el software, los datos y otros recursos estén disponibles bajo demanda. Los ingenieros de DataOps también gestionan herramientas que promueven la reutilización, un gran multiplicador de la productividad.

El auge del ingeniero de operaciones de datos cambiará por completo lo que la gente considera posible en el análisis de datos. Mediante la automatización de herramientas, el ingeniero de DataOps elimina los cuellos de botella del ciclo de vida de los datos, que merman la productividad del equipo de datos. Un ingeniero de operaciones de datos que entienda cómo automatizar y agilizar los flujos de trabajo de datos puede aumentar la productividad del equipo de datos en varios órdenes de magnitud. Una persona así vale su peso en oro. La función de ingeniero de operaciones de datos recibe varios nombres diferentes. El conjunto de habilidades incluye plataformas híbridas y en la nube, orquestación, arquitectura de datos, integración de datos, transformación de datos, CI/CD, mensajería en tiempo real y contenedores.

¿Qué es la automatización de DataOps?


La aplicación de DataOps requiere una combinación de nuevos métodos y automatización que aumenten la cadena de herramientas existente de una empresa. Algunas organizaciones construyen capacidades DataOps desde cero, pero la forma más rápida de darse cuenta de los beneficios de DataOps es adoptar una Plataforma DataOps COTS ( Commercial off-the-shelf).

Pone en marcha espacios de trabajo seguros y sincronizados – Mediante la virtualización, DataOps separa y armoniza sus entornos de producción y desarrollo. Alinear los dos entornos técnicos evita errores inesperados durante el despliegue. El control de acceso asegura cada espacio de trabajo y dominio. Cuando llega el momento de iniciar un nuevo proyecto, los científicos de datos crean en cuestión de minutos entornos de desarrollo de autoservicio que incluyen datos de prueba, pruebas de validación, herramientas, un almacén de contraseñas y, en resumen, todo lo que necesitan. Se acabaron las esperas de meses al departamento de TI.


Automatiza el despliegue: los nuevos análisis superan pruebas de validación exhaustivas y pasan sin problemas del desarrollo a la ingeniería de producción y luego a operaciones, con unos pocos clics. Las pruebas de verificación sustituyen a su junta de revisión de impacto, lo que minimiza el tiempo y el esfuerzo necesarios para la implantación.


Orquesta, prueba y supervisa la canalización de datos: los datos fluyen desde cientos o miles de fuentes y se integran, limpian, procesan y publican en los análisis. A medida que millones de puntos de datos fluyen a través de la canalización, las pruebas distribuidas por toda la canalización de datos supervisan el trabajo en curso y comprueban los datos en busca de anomalías. Prácticamente no llegan errores a los análisis de los usuarios.

Cuando se detectan errores, DataOps toma las medidas adecuadas en función de la gravedad: advertencias, alertas o incluso la suspensión de una fuente de datos. Los cuadros de mando que resumen los resultados de las pruebas y la actividad proporcionan una visibilidad sin precedentes de las operaciones y el desarrollo. nuestro software DataOps Automation proporciona métricas de calidad y productividad, mostrando el progreso de su iniciativa DataOps.


Fomenta la colaboración: DataOps automatiza los flujos de trabajo para coordinar las tareas y mejorar el trabajo en equipo. Los entornos de espacio de trabajo proporcionan la estructura para mover los análisis a través del flujo de trabajo de desarrollo, de persona a persona, hasta llegar finalmente a la producción. Los entornos aislados incluyen componentes analíticos reutilizables que ahorran tiempo y refuerzan la estandarización. Junto con el control de código fuente, los espacios de trabajo se ramifican y fusionan, proporcionando un control centralizado de los artefactos. Con una plataforma DataOps, todo el mundo tiene una visión común de los procesos de desarrollo y operaciones.


Con un canal de operaciones de datos orquestado, controles de calidad y un flujo de trabajo de desarrollo automatizado, nuestro software DataOps Automation minimiza el trabajo no planificado. La coordinación de tareas entre los miembros del equipo y los grupos conduce a un flujo de trabajo más transparente y sólido. Las pruebas de DataOps prácticamente eliminan los errores de datos.

Todos los proveedores de herramientas afirman que hacen DataOps. ¿Ha perdido el término su significado?


Desde que la conciencia de DataOps se disparó en 2018, los vendedores han comenzado a secuestrar el término y doblarlo hacia cualquier tecnología que estén vendiendo. Muchas de estas herramientas pueden contribuir a DataOps. Ninguna herramienta entrega DataOps por sí misma. Un excelente lugar para obtener una visión sintetizada y públicamente vetada de DataOps es Wikipedia. También puedes leer y firmar el Manifiesto DataOps. El Grupo Eckerson ha publicado varios informes excelentes sobre DataOps y nuestra reciente entrada en el blog, Una guía para entender las soluciones DataOps, ayuda a cortar a través de todo el giro de marketing.

Es importante recordar que DataOps es una combinación de metodologías y herramientas. Concéntrese en los objetivos: mejorar la calidad de los datos y los análisis, reducir la duración del ciclo de creación de nuevos análisis y aumentar la productividad de la organización de datos en varios órdenes de magnitud. No puede equivocarse al servir a estos objetivos.

¿Qué es DataOps Observability?


DataOps Observability supervisa, prueba, alerta y analiza su patrimonio de datos en tiempo real. Proporciona una visión de cada trayecto de los datos, desde la fuente de datos hasta el valor para el cliente, desde cualquier entorno de desarrollo del equipo hasta la producción, en todas las herramientas, equipos, entornos y clientes, de modo que los problemas se detectan, localizan y comprenden inmediatamente.

Otras referencias sobre DataOPS

Que es DataOps – Youtube video

Conclusión Que es DataOps

Dataops está emergiendo como una de las mejores prácticas para que las organizaciones gestionen sus datos a escala y liberen todo su potencial. Al adoptar una mentalidad orientada al proceso e integrar personas, procesos y tecnología, dataops permite hacer más con menos.

Si está considerando adoptar un enfoque de dataops, algunos pasos clave incluyen:

  • Evaluar la madurez de sus capacidades actuales de gestión de datos
  • Identificar y priorizar oportunidades de automatización en sus pipelines de datos
  • Invertir en una plataforma de datos moderna y flexible
  • Fomentar una mayor colaboración entre equipos de datos e interesados en el negocio.

Con la estrategia adecuada, dataops puede ayudar a su organización a acelerar el valor de los datos y mantener una ventaja competitiva. ¿Está listo para transformar la forma en que gestiona los datos?

DataOps también puede ayudar a las organizaciones a lograr una mayor agilidad y eficiencia al tiempo que garantiza el cumplimiento normativo y la seguridad de los datos.

En resumen, DataOps se ha convertido en un enfoque clave para la gestión de datos en la era de los negocios digitales, y su adopción puede marcar una gran diferencia en la capacidad de las organizaciones para aprovechar al máximo sus datos.

Quieres saber más sobre este y otros temas? Entonces no te olvides de volver con regularidad al blog.

Add a Comment

Your email address will not be published. Required fields are marked *