image-20

Las 18 Mejores herramientas ETL de código abierto 2022-2023

Una recopilación de las Mejores herramientas ETL de código abierto 2022-2023

Introducción

La gestión e integración de datos son procesos muy importantes en cualquier organización orientada a objetivos. Con datos de calidad, su organización puede tomar mejores decisiones, monitorear el ROI de marketing, entender el comportamiento de los clientes y las tendencias del mercado.

En 2022, no deberías gestionar los datos manualmente. Existen varias herramientas de automatización de datos que facilitan mucho el proceso. Entre ellas se encuentran las herramientas ETL.

ETL (Extract, Transform, Load) consiste en extraer datos de diversas fuentes e integrarlos como uno solo, es decir, hacen que los datos funcionen juntos.

Para obtener mejores resultados, hay que optar por las mejores. Por lo tanto, te mostraré las 15 mejores herramientas ETL de código abierto para 2022.

Breve introducción al ETL


La pila moderna de análisis de datos aprovecha el ETL para extraer datos de diferentes fuentes como plataformas de medios sociales, servicios de correo electrónico/SMS, plataformas de atención al cliente y encuestas, transformarlos y cargarlos en un almacén de datos para obtener información valiosa y procesable. Es un proceso de tres pasos que contiene:

Extracción: Unificar los datos estructurados y no estructurados de un conjunto diverso de fuentes de datos como Bases de Datos, aplicaciones SaaS, archivos, CRMs, etc.
Transformación: Convertir los datos extraídos en un formato estandarizado para que puedan ser mejor comprendidos por un Data Warehouse o una herramienta de BI (Business Intelligence).
Carga: Almacenamiento de los datos transformados en un destino, normalmente un Data Warehouse, para apoyar el análisis y obtener información valiosa.
La figura siguiente muestra las etapas del proceso ETL:

Mejores herramientas ETL de código abierto - Proceso ETL
Mejores herramientas ETL de código abierto – Proceso ETL


4 Características principales de las herramientas ETL de código abierto


Las herramientas ETL de código abierto han ganado popularidad porque son herramientas en proceso de elaboración que no ofrecen muchas características de otras herramientas ETL pero que se actualizan regularmente. El hecho de ser de código abierto permite que estas herramientas sean supervisadas constantemente por un gran número de probadores para mejorar y acelerar el desarrollo de las mismas.

Además de ser mucho menos costosas que los productos comerciales, las herramientas ETL de código abierto ayudan a ampliar los ámbitos de investigación, visibilidad y desarrollo.

Las 4 características principales de las herramientas ETL de código abierto son

1) Integración de datos integrable
Cuando los proveedores de software independientes (ISV) buscan la integración de datos integrable, optan por las herramientas ETL de código abierto. Esto se debe a que estas herramientas proporcionan servicios para la integración, migración y transformación de datos a un coste decente, junto con un rendimiento comparable en comparación con los productos comerciales.

2) Herramientas de integración baratas
Cuando los integradores de sistemas (SI) buscan herramientas de integración baratas, las herramientas ETL de código abierto vienen a su mente. Estas herramientas permiten a los integradores de sistemas integrar los datos mucho más rápido y con mayor calidad que los productos comerciales.

3) Solución local
Los desarrolladores departamentales de empresas que desean encontrar soluciones locales optan por las herramientas ETL de código abierto.

4) Presupuestos más pequeños y menos requisitos complejos
Las empresas que no tienen requisitos complicados tienden a optar por las herramientas ETL de código abierto. Esto se debe a que estas herramientas cumplen con los requisitos del negocio mientras mantienen sus presupuestos bajo control.


Las mejores herramientas ETL de código abierto 2022

Hevo Data

Mejores herramientas ETL de código abierto - Hevo Data
Mejores herramientas ETL de código abierto – Hevo Data

Hevo le permite replicar datos casi en tiempo real desde más de 150 fuentes al destino que elija, incluyendo Snowflake, BigQuery, Redshift, Databricks y Firebolt. Sin escribir una sola línea de código. Encontrar patrones y oportunidades es más fácil cuando no tienes que preocuparte de mantener los pipelines. Así, con Hevo como plataforma de canalización de datos, el mantenimiento es una cosa menos de la que preocuparse.

En las raras ocasiones en las que las cosas van mal, Hevo garantiza la ausencia de pérdida de datos. Para encontrar la causa de un problema, Hevo también le permite supervisar su flujo de trabajo para que pueda abordar el problema antes de que descarrile todo el flujo de trabajo. Añada a la lista el servicio de atención al cliente 24*7, y obtendrá una herramienta fiable que le pone al volante con mayor visibilidad. Consulte la documentación detallada de Hevo para obtener más información.

Si no quiere herramientas SaaS con precios poco claros que le hagan un agujero en el bolsillo, opte por una herramienta que ofrezca un modelo de precios sencillo y transparente.

Hevo tiene 3 planes de precios basados en el uso, comenzando con un nivel gratuito, en el que puede ingerir hasta 1 millón de registros.

 Apache NiFi

Mejores herramientas ETL de código abierto - Apache NiFi
Mejores herramientas ETL de código abierto – Apache NiFi

Apache NiFi es una sencilla herramienta ETL de código abierto escrita en Java. Puede utilizarla para procesar y distribuir datos. La herramienta es confiable ya que tiene características de alto nivel para la transformación de datos. Además, admite la lógica de meditación del sistema y los gráficos de enrutamiento de datos escalables.

Con Apache NiFi, no necesitarás descargar ni instalar ningún archivo. Además, tiene una interfaz de usuario amigable; todo lo que necesita para el diseño, el control y la supervisión de los datos está al alcance de la mano.

Además de ser de código abierto, el software Apache NiFi ETL es altamente configurable. Puede modificar el tiempo de ejecución de los flujos de datos, seleccionar un alto rendimiento o una baja latencia, y garantizar la entrega o la tolerancia a las pérdidas. Además, admite la priorización dinámica y la contrapresión.

Esta herramienta es adecuada para la procedencia de los datos. De hecho, garantiza la realización de pruebas eficaces y el desarrollo rápido de flujos de datos.

Apache NiFi es una herramienta ETL segura, ya que admite la gestión de políticas y la autorización interna. Además, los datos pueden ser encriptados y el software soporta HTTPS, SSH y SSL durante la transferencia de datos.

Jaspersoft ETL

Mejores herramientas ETL de código abierto - Jaspersoft ETL
Mejores herramientas ETL de código abierto – Jaspersoft ETL

Jaspersoft ETL se describe como un diseñador de trabajos ETL listos para ser ejecutados. Es una herramienta ETL completa con una serie de funciones de integración de datos. La herramienta le permite extraer con precisión datos de múltiples ubicaciones en un único almacén de datos.

En particular, Jaspersoft ETL cuenta con una herramienta de diseño de trabajos para crear y editar procesos ETL. Además, cuenta con una herramienta de modelado de negocios que genera una vista no técnica del flujo de datos.

Con su funcionalidad Transformation Mapper, se pueden definir transformaciones y mapeos de datos complejos.

Los datos procedentes de bases de datos, servicios web, servidores FTP, servidores POP y archivos XML pueden integrarse con Jaspersoft ETL. Puede introducir o extraer datos de estas fuentes simultáneamente. Una vez hecho esto, puede generar códigos Java o Perl portátiles que se ejecutarán en otras plataformas.

Jaspersoft ETL también funciona con formatos de archivo complejos y fuentes de datos heterogéneas, por ejemplo, LDIF, CSV y RegExp. La herramienta cuenta con un depurador en tiempo real que realiza un seguimiento eficaz de las estadísticas de su ETL.

Una ventaja de utilizar Jaspersoft ETL es que puede trabajar muy bien con otras herramientas ETL. Además, tiene acceso a una consola de monitoreo de actividad; desde allí, puede hacer un seguimiento de los eventos de su trabajo.

Apache Camel

Mejores herramientas ETL de código abierto -  Apache Camel
Mejores herramientas ETL de código abierto – Apache Camel

Esta es otra herramienta ETL de código abierto de la Apache Software Foundation. Apache Camel fue desarrollado como un marco de integración para integrar diferentes sistemas que consumen o crean datos.

Esta herramienta está optimizada para trabajar con la mayoría de los patrones de integración empresarial. En particular, funcionará con la arquitectura de microservicios, los patrones del excelente libro de Bobby Woolf y Gregor Hohpe. Se recomienda Apache Camel porque es portátil y puede desplegarse en cualquier lugar.

Puede utilizar esta herramienta ETL de código abierto como software independiente o integrarla con otras plataformas como Quarkus, Spring Boot, servidores de aplicaciones y plataformas en la nube. Hay cientos de componentes y APIs para ayudarte a integrar Apache Camel con cualquier cosa. Otras integraciones nativas disponibles son Kn, Kafka y Karaf.

Apache Camel admite unos 50 formatos de datos diferentes. Algunos de estos formatos son Any23, CBOR, Bindy, CSV, HL7, iCal, PGP y RSS. En particular, el software es compatible con los formatos de datos estándar de varios sectores, como las telecomunicaciones, la sanidad y las finanzas, entre otros.

La herramienta ETL de código abierto Apache Camel puede descargarse e instalarse en sistemas macOS, Linux y Windows. Sin embargo, algunos de los proyectos sólo están disponibles para determinados sistemas operativos.

Apache Kafka

Mejores herramientas ETL de código abierto - Apache Kafka
Mejores herramientas ETL de código abierto – Apache Kafka

Apache Kafka es una herramienta de streaming de datos de código abierto escrita en Scala y Java. Publica y se suscribe a un flujo de registros de forma tolerante a fallos y proporciona una plataforma unificada, de alto rendimiento y baja latencia para gestionar datos.

Apache Kafka puede utilizarse como un bus de mensajes, un buffer para el procesamiento de sistemas y eventos, y para desacoplar las aplicaciones de las bases de datos tanto para OLTP (procesamiento de transacciones en línea) como para almacenes de datos

Logstash

Mejores herramientas ETL de código abierto - LogStash
Mejores herramientas ETL de código abierto – LogStash

Logstash es una tubería de datos de código abierto que extrae datos de múltiples fuentes de datos y transforma los datos y eventos de origen y los carga en ElasticSearch, un motor de búsqueda y análisis basado en JSON. Forma parte de la pila ELK. La “E” significa ElasticSearch y la “K” significa Kibana, un motor de visualización de datos.

Está escrito en Ruby y es un marco JSON enchufable que consta de más de 200 plugins para atender el proceso ETL a través de una amplia variedad de entradas, filtros y salidas. Puede utilizarse como herramienta de BI o incluso como almacén de datos.

KETL

Mejores herramientas ETL de código abierto - KETL
Mejores herramientas ETL de código abierto – KETL

Se trata de una herramienta ETL de código abierto basada en XML. Funciona para el desarrollo y despliegue de datos desde y hacia diferentes plataformas. KETL es rápida y eficiente y le ayuda a gestionar incluso los datos más complejos en un tiempo mínimo.

Esta herramienta cuenta con un respirador centralizado para que pueda gestionar todos los datos desde una única ubicación. Cuenta con un gestor de ejecución y programación de trabajos que ejecuta distintos tipos de trabajos de datos, como la programación basada en el tiempo, la notificación por correo electrónico y la gestión de excepciones condicionales.

Como KETL es de código abierto, puede incluir ejecutores adicionales. Con esta herramienta ETL, puede extraer y cargar datos de/a múltiples fuentes, incluyendo archivos planos, relacionales y fuentes de datos XML. Soporta JDBC y APIs de bases de datos propietarias.

Además, KETL se integra con varias herramientas de seguridad para mantener sus datos a salvo. Con la ayuda del monitor de rendimiento, puede hacer un seguimiento del historial de trabajos y de las estadísticas de trabajos activos. El análisis exhaustivo le facilita el manejo de trabajos ETL muy problemáticos.

KETL funcionará en diferentes servidores y sistemas operativos sin importar el volumen de datos con el que esté trabajando. La herramienta tiene soporte de integración nativa para otras herramientas de gestión de datos.

CloverDX

Mejores herramientas ETL de código abierto - CloverDX
Mejores herramientas ETL de código abierto – CloverDX

Anteriormente conocida como CloverETL, CloverDX fue la primera herramienta ETL de código abierto. El software pasó de manejar sólo tareas de ETL a manejar más tareas de gestión de datos empresariales. No obstante, sigue siendo una herramienta fiable.

Las herramientas CloverDX que se aplican a ETL son CloverDX Designer y CloverDX Server. Utilizando el diseñador, crea trabajos ETL a partir de flujos de trabajo de datos tanto internos como externos. Tiene muchos componentes incorporados que son configurables.

Esta herramienta ETL de código abierto es flexible ya que se pueden personalizar los componentes utilizando cualquier programación. Sin embargo, Python y Java son los lenguajes de programación recomendados para utilizar. CloverDX le permite empaquetar y compartir sus trabajos ETL en cualquier lugar como subgráficos. Del mismo modo, puede guardarlos como bibliotecas para reutilizarlos.

Con CloverDX, puedes hacer un seguimiento de cada paso de ETL que realices. Obtendrá una visión completa de los datos con los que está trabajando y podrá aplicarla a las funciones de depuración para localizar fácilmente los datos con problemas.

En particular, CloverDX es fiable para la colaboración en equipo. Mientras controlas los datos desde una ubicación centralizada, puedes asignar y compartir tareas con otros.

Apatar

Mejores herramientas ETL de código abierto - Apatar
Mejores herramientas ETL de código abierto – Apatar

Apatar es una herramienta ETL de código abierto relativamente popular. Las principales funciones de esta herramienta son la migración e integración de datos. Apatar es popular y ampliamente utilizado porque es fácil.

La interfaz gráfica de Apatar es amigable y el entorno es de arrastrar y soltar. Por lo tanto, sólo tienes que arrastrar los datos de diferentes aplicaciones y bases de datos y soltarlos donde quieras.

El software funciona con varias bases de datos como Oracle, MySQL, DB2, MS Access, PostgreSQL, XML, CSV, MS Excel, Salesforce.com, InstantDB y JDBC, entre otras. Apatar puede utilizarse para validar datos y programar copias de seguridad de datos.

Para cada trabajo de datos que se realiza, la herramienta crea automáticamente un informe detallado. Varias otras herramientas incorporadas pueden ayudar a mejorar la calidad de los datos mediante la desduplicación, la limpieza, etc.

Este software está completamente escrito en Java y puede instalarse en Windows, Linux y macOS. Hay una comunidad disponible donde se pueden obtener y compartir esquemas de mapeo.

GeoKettle

Mejores herramientas ETL de código abierto - GeoKettle
Mejores herramientas ETL de código abierto – GeoKettle

Esta herramienta fue modelada a partir del software Pentaho Data Integration. Es una herramienta ETL con capacidad espacial para integrar datos y crear almacenes de datos geoespaciales y bases de datos. La herramienta es ideal para el procesamiento de datos espaciales.

GeoKettle es una herramienta ETL meta-dirigida y es gratuita y 100 por ciento de código abierto. Con esta herramienta se pueden extraer datos de múltiples fuentes y transformar su estructura, eliminar errores, mejorar su estándar y, en general, limpiar los datos.

Una vez hecho esto, el software le permite cargar los datos en diferentes sistemas de gestión de bases de datos, servicios web geoespaciales y archivos GIS. Algunas de las bases de datos compatibles son JDBC, Oracle, MySQL y PostgreSQL.

El software GeoKettle es fácil de usar, ya que puede automatizar el procesamiento de datos sin necesidad de codificación. Sin embargo, debido a su naturaleza espacial, la herramienta está más recomendada para desarrolladores y otros usuarios finales avanzados.

Es útil para la conversión de datos. Dispone de un depurador que le ayudará a localizar cualquier error causado durante la transformación de datos.

GeoKettle fue desarrollado principalmente para ordenadores Linux. Sin embargo, todavía se puede ejecutar la herramienta en ordenadores Windows y Mac a través de la web utilizando un emulador en línea.

Talend

Mejores herramientas ETL de código abierto - Talend
Mejores herramientas ETL de código abierto – Talend

La herramienta Talend fue desarrollada para ayudar a las empresas a mantener los datos limpios, completos y sin problemas. Unió la gobernanza y la integración de los datos. Varias empresas importantes como Cltl, Toyota, Domino’s, L’Oreal y Bayer utilizan esta herramienta ETL.

Una característica interesante de Talend es el Trust Assessor. Se trata de una herramienta rápida que escanea automáticamente toda su base de datos para calcular la calidad de sus datos. El resultado, Talend Trust Score, le informa de si sus datos son fiables o no. Esta herramienta es muy flexible, ya que puede integrar cualquier tipo de datos.

Talend funciona con cualquier entorno de base de datos en la nube, multi-nube o híbrido. Tiene soporte de integración nativo para Amazon AWS, Google Cloud, Spark y más. Las canalizaciones de datos que construya con Talend pueden ejecutarse en cualquier otra plataforma de gestión de datos.

Talend es una herramienta ETL avanzada de código abierto, ya que puede utilizarla para construir aplicaciones y API. La construcción de estas soluciones es sencilla porque hace uso de herramientas visuales. Puede construir JSON, AVRO, XML, B2B y otras integraciones complejas fácilmente con Talend.

Además, Talend hace que la colaboración con otros sea fácil y más productiva. Aunque Talend tiene una versión premium, puedes disponer de su versión de código abierto de forma gratuita.

Scriptella

Mejores herramientas ETL de código abierto - Scriptella
Mejores herramientas ETL de código abierto – Scriptella

El número 9 de esta lista de las mejores herramientas ETL de código abierto es Scriptella.

No es sólo una herramienta ETL sino también una herramienta de ejecución de scripts y fue programada usando Java. Esta herramienta fue lanzada para hacer que la automatización de ETL sea simple de ejecutar usando lenguajes de scripting de fuentes de datos.

Scriptella admite principalmente scripts SQL, JavaScript, JEXL y Velocity, entre otros. La herramienta gestiona la migración de bases de datos a través de fuentes de datos LDAP, JDBC y XML, entre otras. Además, es compatible con las funciones ETL de bases de datos cruzadas, lo que significa que puede convertir de un formato de archivo de datos a otro.

Esta herramienta es una de las mejores herramientas ETL de código abierto que existen, ya que tiene un rendimiento eficiente pero consume muy pocos recursos de CPU. Además, es una tarea Ant y una herramienta independiente; no es necesario instalarla ni desplegarla en ningún servidor para que funcione. Puede ejecutar archivos ETL directamente utilizando códigos Java.

Con la función de ejecución transaccional, Scriptella revierte los cambios en los trabajos ETL si se detecta algún problema durante su ejecución. En particular, la herramienta viene con adaptadores integrados para bases de datos con controladores compatibles con ODBC y JDBC. Además, funcionará para fuentes de datos no JDBC a través de la interfaz del proveedor de servicios.

Singer

Mejores herramientas ETL de código abierto - Singer
Mejores herramientas ETL de código abierto – Singer

Singer es una función recortada de StitchData, que es un producto de Talend. Se describe como una herramienta ETL sencilla, componible y de código abierto. La herramienta fomenta la comunicación entre los scripts de extracción y carga de datos. Es fiable para enviar datos de una base de datos, una API web, un archivo o una cola a otra.

Al tratarse de un software inspirado en Unix, cualquiera encontrará a StichData’s Singer muy fácil de usar. Además, la herramienta está basada en JSON, lo que significa que puede desplegarse a través de cualquier lenguaje de programación y tiene soporte nativo para JSON Schema.

Singer soporta de forma nativa la extracción de datos de más de 100 fuentes. Esto incluye Amazon S3, Braintree, Codat, Freshdesk, HubSpot, Google Sheets, MySQL, SFTP, Salesforce, e iLevel entre otros. Puedes añadir fácilmente cualquier otra fuente a la lista.

Del mismo modo, Singer soporta de forma nativa la carga de datos a 10 destinos. Esto incluye Magento, Stitch, Data World, ReSci, PGSQL, Rakam, CSV, Google Sheets, Keboola y Google Bigquery. Asimismo, se pueden añadir fácilmente otros destinos. Con esto, Singer es uno de los mejores en términos de integraciones.

Como usuario, puedes contribuir públicamente a las características de la herramienta a través de la comunidad de Slack o GitHub.

Informatica PowerCenter

Mejores herramientas ETL de código abierto - Informatica PowerCenter
Mejores herramientas ETL de código abierto – Informatica PowerCenter

PowerCenter de Informatica es una herramienta ETL avanzada de código abierto para la empresa. Fue desarrollada para iniciativas de integración de datos en las instalaciones, como la migración de aplicaciones, el almacenamiento de datos y la analítica.

Esta herramienta admite la conectividad universal. Puede integrar datos de cualquier tipo de fuente de datos utilizando conectores muy potentes. También permite transformar datos, incluyendo formatos de datos muy complejos como JSON, IoT, XML y PDF. Además, es una herramienta escalable que puedes utilizar sin preocuparte por el tiempo de inactividad.

Hay transformaciones preconstruidas que facilitan mucho el proceso de ETL. Siempre puede personalizar y reutilizar estas transformaciones. PowerCenter admite la creación rápida de perfiles y prototipos. Por lo tanto, el software es ideal para la colaboración.

Esta herramienta ETL de código abierto le permite hacer un seguimiento de sus procesos ETL. Puede establecer alertas y se le informará cada vez que se detecte algún error en el flujo de datos. Además, obtendrá datos analíticos en tiempo real con los que trabajar.

Informatica PowerCenter admite la implantación en la nube. Puede utilizar esta herramienta ETL a través de Microsoft Azure o AWS. Además, existen otros paquetes complementarios para mejorar la funcionalidad del software.

Xplenty

Mejores herramientas ETL de código abierto - Xplenty
Mejores herramientas ETL de código abierto – Xplenty

En el número 12 tenemos a Xplenty. Esta es una herramienta ETL avanzada que se centra en la regulación y seguridad de los datos. La herramienta es utilizada por varias empresas de primera línea de todo el mundo.

Xplenty tiene todas las características que necesitas para crear pipelines de datos. Puede utilizar la herramienta para desplegar, supervisar, programar, mantener y asegurar los datos. La herramienta funcionará para llevar a cabo transformaciones de datos problemáticas o trabajos de replicación de datos muy simples. Dispone de una interfaz gráfica de usuario intuitiva y fácil de usar para implementar ETL y ELT.

Al ser una herramienta ETL sin código/con poco código, los usuarios técnicos y no técnicos pueden utilizar Xplenty. Con el motor de flujo de trabajo, puede implementar fácilmente trabajos de datos ETL complejos. Esta herramienta permite conectar con varios repositorios de datos de terceros y aplicaciones SaaS.

Xplenty es una herramienta ETL flexible y escalable. Está basada en la nube, por lo que no consume muchos recursos del sistema mientras se ejecuta. Dispone de una API con la que se puede personalizar aún más la herramienta y también conectar con más plataformas.

En particular, Xplenty proporciona uno de los mejores servicios de atención al cliente. Puedes ponerte en contacto con su equipo de asistencia a través del chat, el teléfono, el correo electrónico y las reuniones en línea.

Pentaho Kettle

Mejores herramientas ETL de código abierto - Pentaho Kettle
Mejores herramientas ETL de código abierto – Pentaho Kettle

Pentaho Kettle es ahora parte de la Comunidad Hitachi Vantara y proporciona capacidades ETL utilizando un enfoque basado en metadatos. Cuenta con una interfaz de usuario gráfica de arrastrar y soltar y una arquitectura estándar. Esta herramienta permite a los usuarios crear sus propios trabajos de manipulación de datos sin escribir una sola línea de código. Hitachi Vantara también ofrece herramientas de BI de código abierto para la elaboración de informes y la minería de datos que funcionan perfectamente con Pentaho Kettle.

Actualmente, Pentaho Kettle ofrece un período de prueba gratuito de 30 días con precios a consultar directamente con la empresa desarrolladora del mismo.

HPCC Systems

Mejores herramientas ETL de código abierto - HPCC Systems
Mejores herramientas ETL de código abierto – HPCC Systems

HPCC Systems es una herramienta ETL de código abierto para la gestión completa del lago de datos de principio a fin. Fue desarrollada principalmente para manejar big data e integra los datos de forma rápida y sencilla.

Con esta herramienta, puede manipular los datos de la forma que desee. Tiene un montón de componentes para manejar cualquier trabajo ETL en su flujo de trabajo de datos. HPCC Systems utiliza la automatización de Kubernetes además de su estructura de metal desnudo. Por lo tanto, funcionará con lagos de datos de esquema mixto y otras fuentes de datos complejas.

Esta herramienta permite la ingesta de datos en tiempo real; también admite la ingesta de datos por lotes y en streaming. Puede ejecutarse como hardware básico. Alternativamente, puede desplegar HPCC Systems en una plataforma en la nube.

Además, la herramienta ETL de HPCC Systems viene con varias APIs integradas de aprendizaje automático y mejora de datos.

HPCC Systems se asocia/integra con diferentes plataformas de terceros; un ejemplo notable es CleanFunnel. Con la integración de CleanFunnel, puede gestionar mejor las fuentes de datos de análisis. Como herramienta ETL de código abierto, HPCC systems es de uso gratuito.

Jedox

Mejores herramientas ETL de código abierto – Jedox

Aquí tenemos una herramienta ETL premiada. Jedox es una herramienta de gestión de datos empresariales desarrollada para agilizar los procesos de planificación de datos. Es más ideal para trabajos de ETL de datos en la industria/sector financiero.

Jedox permite unir todos los datos en una sola plataforma. Cuenta con una amplia base de datos que los desarrolladores describen como multidimensional. Puede extraer datos de diferentes fuentes de forma automática gracias a la última tecnología de computación en memoria que presenta la herramienta.

El software hace que la recopilación de datos analíticos y la creación de informes con ellos sea muy sencilla. En particular, el software funciona mejor con Microsoft Excel. Como herramienta ETL de datos empresariales, Jedox se recomienda para la colaboración entre diferentes usuarios.

Una ventaja de Jedox es que se puede utilizar la herramienta en casi todas partes. Está disponible en la web, tiene una aplicación de escritorio y móvil, y también un complemento para Microsoft Excel.

Además, Jedox admite varios complementos, que se describen como Modelos, y aplicaciones asociadas. Los modelos incluyen plantillas preparadas para diferentes trabajos de ETL de datos, entre otros. Puede acceder a los Modelos de Jedox desde el Jedox Marketplace y estos Modelos son premium.

Airbyte

Mejores herramientas ETL de código abierto - Airbyte
Mejores herramientas ETL de código abierto – Airbyte

Airbyte fue lanzado en 2020, lo que lo convierte en el último ETL de código abierto en esta lista. Cuenta con conectores incorporados que son fácilmente personalizables. Con estos conectores, puede construir fácilmente tuberías de ETL de datos y hacerlas funcionar en minutos.

Con Airbyte, puede extraer datos de innumerables fuentes. Esto se hace utilizando los conectores pre-construidos y personalizados mencionados anteriormente. Puede cargar los datos que extraiga a varios destinos o a un único destino a través del entorno de Airbyte o de otros sistemas utilizando la API.

Tiene todo lo que necesita para sincronizar y trabajar con datos de múltiples fuentes. Además, Airbyte es funcional para las transformaciones de datos. Puede transformar los datos del esquema en bruto a DBT y a varios otros formatos de datos. Airbyte tiene un planificador de grado completo que puede utilizar para orquestar y programar datos automáticamente. Sigue siendo compatible con Airflow y Kubernetes.

Airbyte aloja por sí mismo los pipelines de datos que usted crea. Nada va a ningún tercero, lo que hace que esta herramienta sea muy segura. Cada actividad durante el flujo de trabajo de datos se registra y puedes configurar monitores para recibir alertas si algo va mal.

Herramientas complementarias

Orange Data Mining

Mejores herramientas ETL de código abierto – Orange Data Mining

Se bien que no específicamente una herramienta de ETL, Orange se puede utilizar de forma complementaria a los ETL clásicos para refinar el proceso de ETL.

Orange es un paquete de software de programación visual basado en componentes para la visualización de datos, el aprendizaje automático, la minería de datos y el análisis de datos.

Los componentes de Orange se denominan widgets y abarcan desde la simple visualización de datos, la selección de subconjuntos y el preprocesamiento, hasta la evaluación empírica de algoritmos de aprendizaje y el modelado predictivo.

La programación visual se implementa a través de una interfaz en la que los flujos de trabajo se crean mediante la vinculación de widgets predefinidos o diseñados por el usuario, mientras que los usuarios avanzados pueden utilizar Orange como una biblioteca de Python para la manipulación de datos y la alteración de los widgets.

Limitaciones de las herramientas ETL de código abierto


Aunque las herramientas ETL de código abierto pueden proporcionar una columna vertebral sólida para su canalización de datos, tienen algunas limitaciones, especialmente cuando se trata de proporcionar soporte. Al tratarse de herramientas en desarrollo, muchas de ellas no están completamente desarrolladas y no son compatibles con múltiples fuentes de datos. Algunas de las limitaciones de las herramientas ETL de código abierto son

Conectividad de aplicaciones empresariales: Las empresas no pueden conectar algunas de sus aplicaciones con las herramientas ETL de código abierto.
Capacidades de gestión y manejo de errores: Las herramientas ETL de código abierto no son capaces de manejar los errores fácilmente debido a su falta de capacidades de manejo de errores.
Conectividad sin RDBMS: Algunas herramientas ETL de código abierto no son capaces de conectarse con una variedad de RDBMS y pueden obstaculizar el rendimiento del Data Pipeline cuando los datos se recogen de estas fuentes de datos.
Grandes volúmenes de datos y ventanas de lotes pequeños: Algunas herramientas ETL de código abierto necesitan analizar grandes volúmenes de datos pero sólo pueden procesar los datos en pequeños lotes. Esto puede reducir la eficiencia del Data Pipeline.
Requisitos de transformación complejos: Las empresas que tienen necesidades de transformación complejas no pueden utilizar las herramientas ETL de código abierto. Esto se debe a que a menudo carecen de soporte para realizar transformaciones complejas.
Falta de equipos de soporte al cliente: Como las herramientas ETL de código abierto son gestionadas por comunidades y desarrolladores de todo el mundo, no cuentan con equipos específicos de soporte al cliente para gestionar los problemas.
Características de seguridad deficientes: El hecho de ser Open-Source hace que estas herramientas tengan una infraestructura de seguridad pobre y se vuelvan propensas a muchos ciberataques.


Conclusión


Este artículo ofrece una lista completa de las 11 mejores herramientas ETL de código abierto. También le ha proporcionado una breve descripción del proceso ETL. Además, ha explicado las características y los modelos de precios de algunas de las herramientas. Por último, se destacan algunas de las limitaciones de estas herramientas. En general, las herramientas ETL de código abierto desempeñan un papel fundamental en el campo de la analítica de datos hoy en día debido a su desarrollo regular y sus precios más bajos.

Las herramientas ETL de pago también son importantes, ya que proporcionan mejores características y conocimientos de sus clientes. Al final, tanto si opta por una herramienta ETL de pago como por una de código abierto, puede estar seguro de que la calidad de sus datos nunca se verá comprometida.
Su organización puede necesitar más funcionalidades que las que vienen por defecto con algunas herramientas ETL. Por eso, una herramienta ETL de código abierto es ideal.

El hecho de ser de código abierto implica que usted tiene acceso al código del software y puede personalizarlo o mejorarlo para satisfacer las necesidades de su empresa. Puede optar por cualquiera de las 15 mejores herramientas ETL de código abierto mencionadas anteriormente.

tendencias en análitica de datos

Principales tendencias en análitica de datos

En este articulo intentaremos trazar y definir las principales y mas importantes tendencias en análitica de datos.

Indice tendencias en análitica de datos

¿Qué es la analítica de datos?

La definición de la analítica puede variar mucho según el ámbito de la empresa. Un financiero, por ejemplo, es probable que se centre en cuantificar el impacto de la regulación, mientras que un analista de marketing se centrará en las métricas de las acciones.

Estas definiciones no son incorrectas, pero sólo captan parcialmente el alcance total de la analítica, que puede ser definida como el uso de datos para obtener información para la toma de decisiones mediante la formulación de preguntas de negocio.

tendencias en análitica de datos
tendencias en análitica de datos

Mientras que la analítica tiene fama de estar arraigada en la magia de los algoritmos y las “matemáticas puras”, puede ser entendida también como la búsqueda de las preguntas más importantes para una empresa y la utilización de estas preguntas, junto con los datos, para obtener información/conocimiento que permita la toma de decisiones eficientes y beneficiosas para la empresa.

Sin “transparencia” sobre los objetivos empresariales y los indicadores clave de rendimiento, la analítica no será valiosa, afirma:

Una pregunta que se hacen muchos ejecutivos al acercarse a la analitica de dados es “¿Pueden el aprendizaje automático y la analítica de datos ayudarme a ser más eficiente en mi negocio?”. La respuesta es si. La analitica permite obtener más valor de las operaciones, cometer menos errores, ser más eficiente, entender mejor las tendencias de ventas, etc. Esto porque la analítica proporciona el tipo de conocimiento de los factores que le ayudarán a obtener más valor de la utilización de los recursos de la empresa y, en última instancia, más valor para el negocio.”

Componentes clave de la analítica de datos


Se puede considerar que hay cuatro componentes básicos de la analítica: datos, algoritmos, ética y hipótesis.

tendencias en análitica de datos
tendencias en análitica de datos

A Pesar de que está basada sobre el uso de tecnología, en realidad No se trata sólo de tecnología. Dado que el mundo empresarial está en constante cambio -debido a las fusiones y adquisiciones, las nuevas normativas sobre datos, los lanzamientos de productos, etc.-, los datos nunca pueden ser realmente “en tiempo real.

Un analista de datos experto debe ser capaz de emitir hipótesis sobre los datos que faltan, distinguir los datos buenos de los malos y calcular cuántos datos se necesitan para tomar decisiones oportunas y rentables. Este proceso es importante, porque no hay datos perfectos y hay que trabajar sobre la base de lo que se tiene, intentando siempre que se pueda complementar la información desde várias fuentes..

En otras palabras, la mejor estrategia de análisis es hacer más con menos datos, no simplemente recoger muchos datos.

Tres tendencias en analiticas de datos


Una vez que las organizaciones entienden los problemas empresariales que quieren resolver con la analítica, el siguiente paso es adoptar estas tendencias clave, dijo Southekal.

i) Centrarse en la analítica avanzada.

El tipo más básico de análisis, denominado análisis descriptivo, utiliza datos históricos para responder a la pregunta “¿Qué ha pasado?”. En cambio, la analítica avanzada -que incluye la analítica predictiva y la prescriptiva- utiliza datos históricos para responder a la pregunta “¿Qué va a pasar?” y “¿Qué puedo hacer para conseguirlo?”. preguntas. Estas dos últimas dimensiones constituyen la analítica avanzada.

La analítica avanzada permite a los responsables de la toma de decisiones ser proactivos sobre el futuro de su organización y pensar con antelación en la gestión de los recursos y el mantenimiento de la solvencia. Como ha puesto de manifiesto la reciente crisis de la cadena de suministro mundial, un sólido modelo de análisis predictivo puede ser la clave de la supervivencia de las empresas. “Hoy en día, en un mundo post-COVID, las empresas están preocupadas por la liquidez”, dijo Southekal. “Les preocupa el flujo de caja; les preocupa el capital circulante”.

ii) Adoptar la democratización de los datos.


El segundo aspecto clave de la analítica contemporánea es la democratización de los datos, que aumenta la disponibilidad de herramientas analíticas de vanguardia en todos los niveles de las operaciones empresariales. En pocas palabras, la era actual de plataformas y software asequibles para el usuario final está poniendo a disposición de todos los empresarios herramientas que antes estaban reservadas a los científicos de datos, convirtiendo a todo el mundo en una “persona de datos”.

Además, la “intimidad” y la pequeña escala de la analítica democratizada suelen permitir una toma de decisiones mejor y más rápida que los mecanismos burocráticos descendentes de las grandes empresas, lo que da a los analistas una ventaja competitiva para maximizar los resultados, y los beneficios.

iii) Considerar los cuadros de mando de EPM (Enterprise Performance Management) basados en ESG (environment, social and governance).


Por último, la prevalencia de los cuadros de mando ESG en la cultura empresarial actual. Los cuadros de mando ESG son herramientas que proporcionan medidas de los buenos y malos resultados de una empresa en tres ámbitos: medioambiental, social y de gobernanza.

Al examinar múltiples factores, y no sólo los resultados de una empresa, estos cuadros de mando proporcionan una visión holística de las operaciones empresariales y revelan elementos que pueden no ser obvios.

Resulta especialmente atractivo el análisis de la huella de carbono de una empresa, que puede ayudar a compañías como los gigantes tecnológicos basados en servidores a mejorar su rendimiento medioambiental.

La mayoría de las grandes multinacionales ya están abordando estos nuevos conceptos.

Aprovechar las tendencias para su negocio


La clave para aprovechar todos estos potentes datos y análisis radica en la creación de un caso de uso empresarial sólido y que se puede esbozar con una estrategia en tres pasos.

i) En primer lugar, hay que definir lo que hace la empresa, lo que puede implicar entrevistar a las partes interesadas y analizar los datos brutos.

ii) En segundo lugar, analizar por qué estos resultados son relevantes, normalmente identificando los problemas e ineficiencias subyacentes, al tiempo que se identifican los factores positivos.

iii) En tercer lugar, hay que determinar la mejor forma de actuar, teniendo en cuenta los contornos específicos de la empresa en cuestión.

Dependiendo de la naturaleza de la empresa, las mejores prácticas del sector pueden hacer más hincapié en los datos (importante en el sector del petróleo y el gas y otros productos tangibles) o en el conocimiento personal (servicios más personalizados y orientados al consumidor).

Un plan de negocio sólido debe ser capaz de prever de forma realista los beneficios anuales y ofrecer a las partes interesadas una imagen sólida de la empresa. Una buena analítica debe basarse en datos relevantes, lo que implica observar las operaciones transaccionales de la empresa a todos los niveles, ya que en estos puntos de datos es donde suceden las cosas.

tendencias en análitica de datos
tendencias en análitica de datos – Data Scientisst

También es importante destacar el papel de la integridad personal y el liderazgo en la aplicación de la analítica. La educación es clave para crear un perfil de científicos de datos formados en 10 áreas de conocimiento de datos que van desde la gestión de datos hasta la gobernanza de los mismos.

Por encima de todo, la eficacia de la analítica depende de gestores individuales que se comprometan a tomar decisiones éticas e imparciales en el momento oportuno. Eso significa ser ambicioso en los objetivos a conseguir de la analitica de datos y sus procesos, empezar de a poco pero con actuaciones rápidas.

Para más articulos consulta nuestro blog

Introducción a la estadística para la ciencia de los datos

Introducción a la estadística para la ciencia de los datos. Una terminología básica

¿Eres un aspirante a científico de datos que quiere aprender estadística para fines de Ciencia de Datos? ¿Le resultaron difíciles los conceptos de estadística durante sus años escolares y está buscando una forma fácil de aprender los conceptos estadísticos para mejorar su capacidad de comprensión de los datos? Si su respuesta es “sí” a ambas cosas, ha llegado al lugar adecuado. Hoy le presentaremos algunos de los conceptos estadísticos comúnmente aceptados en el campo de la ciencia de los datos. Antes de aprender los conceptos, es importante saber qué se puede aprender.

Introducción a la estadística para la ciencia de los datos

Se trata de una introducción a la estadística y al aprendizaje automático.


¿Qué es la estadística? ¿Cuáles son los diferentes tipos de conceptos estadísticos que hay que conocer?

La estadística es una de las disciplinas más conocidas cuyo objetivo principal es recoger datos, organizarlos, analizarlos, interpretarlos y visualizarlos. En el pasado, la estadística era practicada por estadísticos, economistas y gestores para calcular y presentar datos relevantes en sus respectivos campos. Hoy en día, la estadística desempeña un papel central en varias disciplinas como la ciencia de los datos, el aprendizaje automático, el papel del analista de datos, el papel del analista de inteligencia empresarial y el papel de la informática.


Es cierto que hace tiempo que aprendimos ciertos conceptos estadísticos como la tendencia central y la desviación estándar. Hay muchos más conceptos estadísticos importantes que deben ser aprendidos e implementados para la Ciencia de Datos y el Aprendizaje Automático. Aprendamos algunos términos estadísticos básicos y su clasificación.

Terminología estadística básica


Para dominar un programa estadístico, es necesario conocer ciertos términos. Son los siguientes.

  • La población. Una población es un conjunto de recursos de los que se pueden recoger datos.
  • Ejemplo. Una muestra no es más que un subconjunto de una población y se utiliza para los datos de la muestra y la estadística inferencial para predecir resultados.
  • Variable. Una variable es un número, una característica o una cantidad contable. A veces se denominan puntos de datos.
  • Distribución de la probabilidad. Una distribución de probabilidad es un concepto matemático que indica la probabilidad de ocurrencia de varios resultados posibles, especialmente en los experimentos realizados por los estadísticos.
  • Parámetro estadístico. Un parámetro estadístico, o parámetro poblacional, es básicamente una cantidad utilizada para indexar un conjunto de distribuciones de probabilidad, como la media, la mediana y la moda de una población.

Tipos de conceptos en estadística

  1. Estadística descriptiva – La estadística descriptiva es un concepto de análisis y resumen de datos y su organización en forma de gráficos numéricos, gráficos de barras, histogramas, gráficos circulares, etc. La estadística descriptiva es el proceso de descripción de los datos existentes. Convierte los datos de observación en bruto en datos significativos que pueden interpretarse y utilizarse posteriormente. Conceptos como desviación estándar y tendencia central se utilizan en todo el mundo para estudiar la estadística descriptiva.
  2. 2. Estadística inferencial – La estadística inferencial es un concepto importante para sacar conclusiones a partir de una pequeña muestra de una población. Por ejemplo, para predecir el resultado de los sondeos a pie de urna en las elecciones, se pueden realizar encuestas en diferentes partes del estado o del país para recabar opiniones. Sobre la base de la información recopilada de este modo, tendemos a sacar conclusiones y hacer inferencias para predecir el resultado global.
    Ahora que conocemos los diferentes tipos de estadística, es sumamente importante reconocer el papel central del concepto de estadística en la ciencia de los datos y el aprendizaje automático y saber que son dos campos de estudio estrechamente relacionados. La estadística en la ciencia de los datos es realmente útil para seleccionar, evaluar e interpretar los modelos predictivos para los casos de uso de la ciencia de los datos.

Estadística y ciencia de los datos

Introducción a la estadística para la ciencia de los datos - Estadisticas y ciencia de datos - Analiticas
Introducción a la estadística para la ciencia de los datos – Estadisticas y ciencia de datos – Analiticas – Photo by Timur Saglambilek on Pexels.com

Los conceptos básicos del aprendizaje automático y la ciencia de los datos se basan en la estadística. Por ello, es importante aprender a fondo los fundamentos de la estadística para poder resolver problemas del mundo real.
Para aquellos que nunca han tenido nada que ver con la estadística, aquí hay algunos conceptos específicos que deben dominar para tener éxito en su viaje de Ciencia de Datos. A medida que se aprenden las fórmulas, las fórmulas estadísticas y las teorías, hay que familiarizarse con dónde aplicarlas. Sin duda es un tema difícil, pero que merece la pena aprender.
Desde el análisis exploratorio de datos hasta el diseño de pruebas de hipótesis, la estadística desempeña un papel importante en la resolución de muchos problemas en diversas industrias y campos, especialmente para los científicos de datos.

¿Por qué hay que dominar los conceptos de la estadística?


Hoy en día, la mayoría de las empresas se basan en los datos y utilizan varios conceptos para interpretar los datos disponibles. Aquí es donde entran en juego los conceptos estadísticos básicos y su aplicación ayuda a describir los datos en cuestión.
Para resolver los problemas actuales de la empresa y predecir mejores estrategias para mejorar la rentabilidad del negocio, es necesario aprender los conceptos que ayudan a entender los datos y a clasificarlos según sus propiedades. Afortunadamente, hay una serie de herramientas estadísticas que pueden ayudarle a organizar y visualizar sus datos para obtener información útil.
Por lo tanto, en este punto, es importante dominar los conceptos de la estadística. Hay muchos cursos en línea y libros que pueden ayudarte a profundizar en tus conocimientos y convertirte en un mejor científico de datos.

Cómo entender sus datos actuales

Introducción a la estadística para la ciencia de los datos - Como entender los datos actuales
Introducción a la estadística para la ciencia de los datos – Como entender los datos actuales – Photo by Serpstat on Pexels.com


Los datos no son más que un conjunto de observaciones que existen en sus sistemas internos. Puede utilizar la estadística descriptiva para recopilar, organizar, clasificar, muestrear y visualizar datos para tomar decisiones informadas para su negocio.
También puede utilizar la estadística inferencial para predecir resultados. Normalmente, este concepto se utiliza para realizar encuestas o estudios de mercado, que tienden a recoger una muestra de datos y predecir los resultados para toda la población de un lugar determinado en función de ella.
Estos son algunos de los conceptos que debes dominar para convertirte en un mejor profesional de la Ciencia de Datos.
Debe calcular y aplicar medidas de tendencia central para datos agrupados y no agrupados.
Debe dominar la síntesis, la presentación y la visualización de los datos para que los informes resultantes sean claros y proporcionen información práctica a las partes interesadas y a los propietarios de la organización.
También tendrá que realizar pruebas de hipótesis, que son necesarias cuando se trabaja con conjuntos de datos generales.
Realice rigurosas pruebas de correlación y análisis de regresión y presente los datos.
Utilizar R y Python para implementar conceptos estadísticos y demostrar el dominio de este programa.
Utilizar herramientas como Excel, Tableau y Power Bi para presentar los datos en un formato adecuado.

¿Qué importancia tienen las estadísticas en la vida cotidiana?

Introducción a la estadística para la ciencia de los datos - Mujer comprando en un supermercado
Vida Cotidiana – Photo by Anna Shvets on Pexels.com

Afortunadamente, las estadísticas pueden ayudarle a responder a preguntas importantes sobre sus datos, como por ejemplo

  • ¿Qué características de los datos son importantes para el desarrollo de modelos?
  • ¿Cuál es la mejor manera de realizar un experimento?
  • ¿Cómo diseñamos estrategias basadas en los resultados de nuestros experimentos?
  • ¿En qué medidas de rendimiento debemos centrarnos?
  • ¿Cómo interpretamos los resultados?
  • ¿Cómo se distinguen los datos válidos de los datos con ruido?
    Todas estas son preguntas comunes e importantes que tienen implicaciones estadísticas, y los equipos de datos necesitan responder a estas preguntas para realizar mejor su trabajo.
    Estos son algunos de los puntos clave que debe conocer para empezar a utilizar un programa estadístico. Hay una variedad de cursos disponibles para ayudarle a empezar a utilizar un programa estadístico.
Data Scientist vs Data Engineer. ¿Cuál es la diferencia?

Cientifico de datos vs Arquitecto de datos ¿Cuál es la diferencia?

[ad_1]

 

Un articulo muy interesante que compara las diferencias que existente entre un data scientist (científico de datos) y un arquitecto de datos ( Arquitecto Big Data o Ingeniero de datos/Big Data ) o dato, y que bien podría resumir también las diferencias entre Data Science y Big Data, algo que confunde a mucha gente.
Esta confusión aumenta a menudo, cuando se quiere realizar algún tipo de formación, y todas terminologías convergen entre si, lo que agravado muchas veces por los vendedores de los programas, lleva la confusión hasta limites muy grandes.

Lo primero de todo…

Por mucho que se comenten como las tecnologías mas punteras, en realidad, nada de más lejano. Todas estas tecnologías de análisis de datos llevan decenas de años, y han ido evolucionando con una velocidad directamente proporcional a la capacidad de transmitir y procesar datos. La gran mayoría de las analíticas de datos están apoyados sobre métodos matemáticos, álgebra, estadística, etc…. que en algunos casos tienen mas algunos siglos de historia.

La proprio espirito de lo que es un cientifico de datos podría remontar unos 3 siglos a tras a una Londres todavía casi medieval, con una epidemia que estaba provocando la muerte de muchos londinenses, y cuya medicina de la época no conseguía encontrar una solución, hasta que un alguien se le ocurrió coger todos los datos de localización de la enfermedad y contrastarlo con mapas de otra características como por ejemplo el hidrográfico, e llegar a la conclusión que había una conexión entre enfermedad y pozos de aguas.

La única diferencia entre entonces y hoy, es que la digitalización de la economía ha permitido la existencia de datos prácticamente ilimitados que pueden ser intercambiados, distribuidos y procesados a una velocidad todavía no infinita.

Incluso con la evolución del poder de computación a la luz de la Ley de Moore, no fue hasta que cambios de modelos de computación generados por las nuevas empresas puntocom como Google, Twitter, Facebook y otras que realmente no se ha dispuesto de una capacidad realmente relevante de procesar los datos de una forma elevada.

Con estas dos visiones tenemos una primera aproximación de las diferencias:

– Encontrar respuestas a preguntas
– Encontrar formas de procesar los datos

Los científicos de datos, están para buscar las respuestas a las preguntas que le rodean. Estas preguntas pueden ser de muchos y diferentes tipos, pueden relacionadas con rentabilidad de negocios o inversiones, optimizaciones de producción, encontrar la cura del cáncer, saber lo que piensan nuestros usuarios, saber que van a comprar en el futuro nuestros consumidores, etc… Es fácil ver que dentro de las preguntas con vista al pasado, al presente y al futuro, dado que son realidades que se mezclan frecuentemente en el trabajo de un data scientist, porque para imaginar el futuro es necesario saber como se ha comportado el pasado, validarlo con el presente y finalmente proyectarse a ese futuro posible.

 

Data Science Hierarchy of needs

Source Hackernoon

Algo que es importante también tener en cuenta, es que la función dentro de los datos, depende mucho de la dimensión de la empresa, no es lo mismo ser un científico de datos en una pequeña suportar sin fondos para la contratación de equipos grandes, con una grande multinacional con muchos recursos y en que probablemente contara con equipos dedicados para cada función asociada al proceso de colectar,tratar y analizar los datos. Por lo lo mas probable es que en una empresa pequeña tanto un data scientist como un ingeniero de datos harán funciones muy parecidas, mientras que en las grandes empresas, su especializaran a muy bajo nivel.

Para realizar estas operaciones, son necesarios muchos datos, de muchos tipos, de muchas diferentes orígenes y con requisitos muy diferentes de proceso antes de que pueda ser utilizado en su análisis. Con estas tareas se preocupan los ingenieros de datos o arquitectos de big data, o muchos otros nombres.

Son los que son capaces de diseñar, montar y mantener todos los sistemas necesarios para conseguir encontrar los datos necesarios, recolectarlos en los sistemas donde se llevará a cabo su proceso, y garantizar que habrá la capacidad de computación suficiente como para que conseguirlo no lleve una eternidad, si no más bien sean realizada en el tiempo mas competitivo posible de tal forma que sumado a la labor del cientifico de datos, podamos conseguir ver la realidad de la temática que nos interesa antes de los demás.

Estos dos funciones no son exclusivas y complementarias entre si, y tienen muchos puntos en común, pero en el día a día, la principal diferencia estará en el enfoque mental que cualquier uno de ellos tiene sobre los datos y su utilización.

si comparásemos los dos roles a dos conductores que quieren ir de Madrid a Pamplona, el cientifico de datos miraría el GPS para intentar visualizar los posibles problemas del camino, mientras que el ingeniero de datos, miraría las características del trayecto como velocidades, tiempos de llegada, etc.. Claro que por lo menos ellos llevarían GPS y por lo cuanto pueden adaptarse con tiempo a lo que ocurre por delante de si. Una empresa sin datos, es como viajar sin GPS y estar al merced de lo que ocurre.

 

Diagrama de Venn del

Diagrama de Venn del «Científico de datos» (Fuente: Drew Conway)

 

Científico de datos

  • Enfoque en las preguntas utilizando los datos y su relación para estructurar hipótesis que pueden ser probados con la utilización de los modelos de análisis creados.
  • Ser capaz de contar historias con base en las análisis realizadas. el 80% del éxito es saber contar los resultados obtenidos.
  • Conocimiento especializado sobre el área de análisis
  • Conocimiento formal sobre matemáticas, álgebra, estadísticas, métodos numéricos, algoritmos
  • Conocimiento de programación y herramientas de proceso y análisis de datos.

Arquitecto o ingeniero de datos

  • Enfoque sobre la disponibilidad de los datos, su recolección, su almacenamiento
  • Enfoque sobre las arquitecturas de comunicación y computación
  • Enfoque sobre las herramientas de adquisición, proceso y almacenamiento de los datos.
  • Algún enfoque sobre el análisis

¿Como operan?

Lo primero de todo, el análisis de datos nunca debería empezar desde abajo de un departamento de tecnología y subir en dirección de la empresa. El enfoque debe ser desde las necesidades competitivas e estratégicas de la dirección, que sugieren preguntas de difícil solución, y que necesitan de diferentes fuentes y volúmenes de datos para permitir crear unos modelos capaces de simular la realidad e imaginar las posibles respuestas.

Empezar desde arriba va a dar la posibilidad de entender lo que se quiere hacer y que tiene la empresa para poder realizarlo, y en el caso de que no disponga de las posibilidades para hacerlo, entonces buscar especialistas o tecnologías para su implementación.

Empezar al revés, con una necesidad tecnológica es generalmente condenado a terminar con una solución propietaria cara y aislada, que tendrá a la organización rehén de la misma durante mucho tiempo.

Una vez, que la dirección de la organización tiene una idea clara de los retos existentes y de las preguntas a que debe enfrentarse para conseguir darle una respuesta, es cuando debe buscarse con la ayuda de un data scientist cual son las posibilidades que existen dentro o fuera de la organización para poder hacerlo. Hay muchas ocasiones en que no hay ni datos ni tecnologías disponibles y que por lo cuanto la vía debe ser de empezar a cambiar los modelos de operación para generar los datos que se necesite.

 

¿Que formación?

Que deben estudiar y cuales los perfiles más idóneos para poder estudiar, y una pregunta interesante, es necesario formación universitario complementaria de máster?

De forma general, el tipo de conocimiento de matematicas/estadisticas van a estar más fuertes en personas que hayan cursado formación de economia, matematicas, fisicas, estadisticas, quimica, geografia, etc… Están habituados a los datos como motor de inferencia de otras realidades y se les dá bien la abstracción que es necesaria tener para poder ver lo que los datos ocultan. Generalmente estos perfiles tienen cierta capacidad lógica por lo que poder llegar a tener una visión de alto nivel sobre programación no es demasiado complicado.

El tema de sistemas, comunicaciones y arquitecturas de computación les es más complicado entender, por lo que estarán generalmente mejor enfocados en programas de Data Science.

 

Por otro lado, ingenieros, informáticos y otras formaciones más técnicas estarán mejor enfocados en programas de Big Data donde tendrán más facilidades para entender la complejidad de los sistemas y sus interdependencias, algo que resulta mucho más complicado a los anteriores, y por lo cuanto un programa de Big Data les dará mejor provecho.

 

Estas divisiones no son atómicas y hay muchos ingenieros que son muy buenos con la relación de los datos, y vice versa.

 

Es necesario un máster o un programa universitario para poder formarse? La respuesta es complicada y depende de cada persona. Los principios formales y tecnológicos subyacentes a estas disciplinas se pueden aprender fácilmente con auto estudio, aplicarlos de forma correcta es más complejo, porque es necesario la capacidad de entender las especificidades del problema que se quiere responder, y es necesario la existencia de una dialogo constante que permita ir avanzando en el conocimiento del mismo para ir mejorando de forma gradual la concepción y abstracción de mismo. Sin esta relación real, es como intentar aprender a dibujar o programar sin hacer dibujos o sin programa. Se puede llegar a entender, pero no se conseguirá nunca saber aplicarlos.

 

 

 

 

Referencias

articulo  Pablo Avilés

Articulo Deusto

Formacion Recursos Humanos

[ad_2]

Data Scientist

¿Qué hace un Data Scientist?

[ad_1]

¿Qué hace un Data Scientist?.

Un data scientist es el encargado en una organización que busca encontrar verdades a través del análisis masivo de datos para poder guiar al equipo en la toma de decisiones El flujo de trabajo de data un data science tiene muchos factores que deben ser tomados en cuenta.

 

En esta clase aprenderás lo que hace un data scientist a través del flujo de vida de un proceso profesional de data science, este proceso lo aprenderás en nuestro curso de Data Science.

 

 

[ad_2]