El proceso de aprendizaje automático en 7 pasos

En este artículo, repasaremos los diferentes pasos necesarios para gestionar el proceso de aprendizaje automático de principio a fin.

Dependiendo de la empresa en la que trabajes, podrás participar o no en todos estos pasos. En una gran empresa, lo normal es que te centres en uno o dos aspectos especializados del proyecto.

En una empresa pequeña, podrás participar en cada paso del proceso. En este caso, la atención se centra en proyectos de mayor envergadura, como el desarrollo de una taxonomía, y no en análisis ad hoc o puntuales.

También mencionaremos a todas las partes implicadas, no sólo a los expertos en aprendizaje automático.

Pasos de un proyecto de aprendizaje automático

A continuación y en orden cronológico, podrás encontrar los siete pasos más importantes para un buen processo de implementación de machine learning.

As veces es necesario identificar errores en el proceso y volver a realizar los pasos anteriores. No se trata en absoluto de un proceso lineal, sino más bien de un experimento de prueba y error. 

  1. Define el problema y las métricas (también conocidas como características) que deseas seguir. Evaluar los datos disponibles (fuentes internas y externas) o las bases de datos que se van a crear y la arquitectura de la base de datos para un almacenamiento y procesamiento óptimos. Discutir las posibles arquitecturas en la nube de elección, los volúmenes de datos (posibles problemas de escalado en el futuro) y los flujos de datos. ¿Necesitas datos en tiempo real? ¿Cuánto se puede externalizar con seguridad? ¿Necesitas contratar personal? Discute los costes, el rendimiento de la inversión, los proveedores y los plazos. Los responsables de la toma de decisiones y los analistas de negocio estarán muy involucrados, y los científicos de datos y los ingenieros también pueden unirse al debate.
  2. Define los objetivos y el tipo de análisis que se va a realizar. ¿Se Podrán monetizar los datos? Segmentación, elaboración de perfiles de clientes, mejora de la orientación, optimización de procesos como la fijación de precios y la cadena de suministro, detección de fraudes, creación de taxonomías, aumento de las ventas, recopilación de inteligencia competitiva y de marketing, mejora de los motores de recomendación y de las capacidades de búsqueda, etc. ¿Se utilizarán los datos para mejorar la experiencia del usuario? ¿Cuáles son sus principales objetivos? ¿Quiénes son sus principales usuarios?
  3. 3. Captura los datos. Evaluar quién tiene acceso a los datos y cómo (a qué partes de los datos pueden acceder, por ejemplo, a las tablas de resumen o a las bases de datos de vida). También se tratarán aquí cuestiones de privacidad y seguridad. Por lo general, el equipo de TI, el equipo legal y los ingenieros de datos estarán involucrados. También se analiza el diseño del cuadro de mando con el objetivo de diseñar un buen cuadro de mando para el usuario final, como los responsables de la toma de decisiones, los equipos de producto y marketing y los clientes. 
  4. Análisis exploratorio de datos. Aquí es donde el científico de datos entra más en juego, pero este paso debe ser automatizado en la medida de lo posible. Debe incluir la detección de los datos que faltan y su tratamiento (utilizando la atribución), la identificación de los valores atípicos y su significado, el resumen y la visualización de los datos, la búsqueda de datos mal codificados o duplicados, la búsqueda de correlaciones, la realización de un análisis previo y la búsqueda de las mejores características predictivas y técnicas de agrupación (véase la sección 4 de este artículo). Esto puede descubrir errores en sus datos, y es posible que tenga que volver atrás y repetir los pasos anteriores para solucionar problemas importantes.
  5. La etapa de aprendizaje/modelado de la máquina propiamente dicha. Este paso supone que los datos recogidos son lo suficientemente estables y pueden utilizarse para los fines previstos.                Se prueban modelos predictivos, se entrenan algoritmos y modelos como las redes neuronales y se realizan pruebas de bondad de ajuste y validación cruzada. Los datos pueden utilizarse para una variedad de análisis, como el análisis posterior, la detección de fraudes y la prueba de conceptos. Los algoritmos se prototipan, se automatizan y finalmente se implementan en modo de producción. Los datos de salida se almacenan en tablas auxiliares para su uso posterior, incluidas las alertas por correo electrónico y las entradas del cuadro de mando. También se pueden añadir e integrar fuentes de datos externas. En este momento, se han resuelto los principales problemas de datos.
  6. crear una plataforma para el usuario final. Por lo general, esto se proporciona como un panel de control con visualizaciones y datos resumidos que pueden exportarse a un formato estándar (incluida una hoja de cálculo). Esto proporciona información para que los responsables de la toma de decisiones tomen medidas. La plataforma también puede utilizarse para realizar pruebas A/B. Es
Introducción a la estadística para la ciencia de los datos

Introducción a la estadística para la ciencia de los datos. Una terminología básica

¿Eres un aspirante a científico de datos que quiere aprender estadística para fines de Ciencia de Datos? ¿Le resultaron difíciles los conceptos de estadística durante sus años escolares y está buscando una forma fácil de aprender los conceptos estadísticos para mejorar su capacidad de comprensión de los datos? Si su respuesta es “sí” a ambas cosas, ha llegado al lugar adecuado. Hoy le presentaremos algunos de los conceptos estadísticos comúnmente aceptados en el campo de la ciencia de los datos. Antes de aprender los conceptos, es importante saber qué se puede aprender.

Introducción a la estadística para la ciencia de los datos

Se trata de una introducción a la estadística y al aprendizaje automático.


¿Qué es la estadística? ¿Cuáles son los diferentes tipos de conceptos estadísticos que hay que conocer?

La estadística es una de las disciplinas más conocidas cuyo objetivo principal es recoger datos, organizarlos, analizarlos, interpretarlos y visualizarlos. En el pasado, la estadística era practicada por estadísticos, economistas y gestores para calcular y presentar datos relevantes en sus respectivos campos. Hoy en día, la estadística desempeña un papel central en varias disciplinas como la ciencia de los datos, el aprendizaje automático, el papel del analista de datos, el papel del analista de inteligencia empresarial y el papel de la informática.


Es cierto que hace tiempo que aprendimos ciertos conceptos estadísticos como la tendencia central y la desviación estándar. Hay muchos más conceptos estadísticos importantes que deben ser aprendidos e implementados para la Ciencia de Datos y el Aprendizaje Automático. Aprendamos algunos términos estadísticos básicos y su clasificación.

Terminología estadística básica


Para dominar un programa estadístico, es necesario conocer ciertos términos. Son los siguientes.

  • La población. Una población es un conjunto de recursos de los que se pueden recoger datos.
  • Ejemplo. Una muestra no es más que un subconjunto de una población y se utiliza para los datos de la muestra y la estadística inferencial para predecir resultados.
  • Variable. Una variable es un número, una característica o una cantidad contable. A veces se denominan puntos de datos.
  • Distribución de la probabilidad. Una distribución de probabilidad es un concepto matemático que indica la probabilidad de ocurrencia de varios resultados posibles, especialmente en los experimentos realizados por los estadísticos.
  • Parámetro estadístico. Un parámetro estadístico, o parámetro poblacional, es básicamente una cantidad utilizada para indexar un conjunto de distribuciones de probabilidad, como la media, la mediana y la moda de una población.

Tipos de conceptos en estadística

  1. Estadística descriptiva – La estadística descriptiva es un concepto de análisis y resumen de datos y su organización en forma de gráficos numéricos, gráficos de barras, histogramas, gráficos circulares, etc. La estadística descriptiva es el proceso de descripción de los datos existentes. Convierte los datos de observación en bruto en datos significativos que pueden interpretarse y utilizarse posteriormente. Conceptos como desviación estándar y tendencia central se utilizan en todo el mundo para estudiar la estadística descriptiva.
  2. 2. Estadística inferencial – La estadística inferencial es un concepto importante para sacar conclusiones a partir de una pequeña muestra de una población. Por ejemplo, para predecir el resultado de los sondeos a pie de urna en las elecciones, se pueden realizar encuestas en diferentes partes del estado o del país para recabar opiniones. Sobre la base de la información recopilada de este modo, tendemos a sacar conclusiones y hacer inferencias para predecir el resultado global.
    Ahora que conocemos los diferentes tipos de estadística, es sumamente importante reconocer el papel central del concepto de estadística en la ciencia de los datos y el aprendizaje automático y saber que son dos campos de estudio estrechamente relacionados. La estadística en la ciencia de los datos es realmente útil para seleccionar, evaluar e interpretar los modelos predictivos para los casos de uso de la ciencia de los datos.

Estadística y ciencia de los datos

Introducción a la estadística para la ciencia de los datos - Estadisticas y ciencia de datos - Analiticas
Introducción a la estadística para la ciencia de los datos – Estadisticas y ciencia de datos – Analiticas – Photo by Timur Saglambilek on Pexels.com

Los conceptos básicos del aprendizaje automático y la ciencia de los datos se basan en la estadística. Por ello, es importante aprender a fondo los fundamentos de la estadística para poder resolver problemas del mundo real.
Para aquellos que nunca han tenido nada que ver con la estadística, aquí hay algunos conceptos específicos que deben dominar para tener éxito en su viaje de Ciencia de Datos. A medida que se aprenden las fórmulas, las fórmulas estadísticas y las teorías, hay que familiarizarse con dónde aplicarlas. Sin duda es un tema difícil, pero que merece la pena aprender.
Desde el análisis exploratorio de datos hasta el diseño de pruebas de hipótesis, la estadística desempeña un papel importante en la resolución de muchos problemas en diversas industrias y campos, especialmente para los científicos de datos.

¿Por qué hay que dominar los conceptos de la estadística?


Hoy en día, la mayoría de las empresas se basan en los datos y utilizan varios conceptos para interpretar los datos disponibles. Aquí es donde entran en juego los conceptos estadísticos básicos y su aplicación ayuda a describir los datos en cuestión.
Para resolver los problemas actuales de la empresa y predecir mejores estrategias para mejorar la rentabilidad del negocio, es necesario aprender los conceptos que ayudan a entender los datos y a clasificarlos según sus propiedades. Afortunadamente, hay una serie de herramientas estadísticas que pueden ayudarle a organizar y visualizar sus datos para obtener información útil.
Por lo tanto, en este punto, es importante dominar los conceptos de la estadística. Hay muchos cursos en línea y libros que pueden ayudarte a profundizar en tus conocimientos y convertirte en un mejor científico de datos.

Cómo entender sus datos actuales

Introducción a la estadística para la ciencia de los datos - Como entender los datos actuales
Introducción a la estadística para la ciencia de los datos – Como entender los datos actuales – Photo by Serpstat on Pexels.com


Los datos no son más que un conjunto de observaciones que existen en sus sistemas internos. Puede utilizar la estadística descriptiva para recopilar, organizar, clasificar, muestrear y visualizar datos para tomar decisiones informadas para su negocio.
También puede utilizar la estadística inferencial para predecir resultados. Normalmente, este concepto se utiliza para realizar encuestas o estudios de mercado, que tienden a recoger una muestra de datos y predecir los resultados para toda la población de un lugar determinado en función de ella.
Estos son algunos de los conceptos que debes dominar para convertirte en un mejor profesional de la Ciencia de Datos.
Debe calcular y aplicar medidas de tendencia central para datos agrupados y no agrupados.
Debe dominar la síntesis, la presentación y la visualización de los datos para que los informes resultantes sean claros y proporcionen información práctica a las partes interesadas y a los propietarios de la organización.
También tendrá que realizar pruebas de hipótesis, que son necesarias cuando se trabaja con conjuntos de datos generales.
Realice rigurosas pruebas de correlación y análisis de regresión y presente los datos.
Utilizar R y Python para implementar conceptos estadísticos y demostrar el dominio de este programa.
Utilizar herramientas como Excel, Tableau y Power Bi para presentar los datos en un formato adecuado.

¿Qué importancia tienen las estadísticas en la vida cotidiana?

Introducción a la estadística para la ciencia de los datos - Mujer comprando en un supermercado
Vida Cotidiana – Photo by Anna Shvets on Pexels.com

Afortunadamente, las estadísticas pueden ayudarle a responder a preguntas importantes sobre sus datos, como por ejemplo

  • ¿Qué características de los datos son importantes para el desarrollo de modelos?
  • ¿Cuál es la mejor manera de realizar un experimento?
  • ¿Cómo diseñamos estrategias basadas en los resultados de nuestros experimentos?
  • ¿En qué medidas de rendimiento debemos centrarnos?
  • ¿Cómo interpretamos los resultados?
  • ¿Cómo se distinguen los datos válidos de los datos con ruido?
    Todas estas son preguntas comunes e importantes que tienen implicaciones estadísticas, y los equipos de datos necesitan responder a estas preguntas para realizar mejor su trabajo.
    Estos son algunos de los puntos clave que debe conocer para empezar a utilizar un programa estadístico. Hay una variedad de cursos disponibles para ayudarle a empezar a utilizar un programa estadístico.
Libros gratuitos big data data science inteligencia artificial

Libros gratuitos sobre Big Data, Data Science e Inteligencia Artificial 2020

Algunos libros gratuitos y recursos que he encontrado sobre las nuevas tecnologías Big Data, Data Science, Inteligencia Artificial entre muchas otras. Iré actualizando el listado a medida que vaya encontrando materiales.

Libros gratuitos sobre Big Data, Data Science e Inteligencia Artificial

A pesar de estamos viviendo en una época audiovisual, muchas veces la mejor de aprender algo de formalmente abstracto y con una fuerte carga de matemáticas, siguen siendo los libros.

Estos son capaces de adaptarse a nuestra velocidad de comprensión, podemos revisarlos cuantas veces queramos y si no son digitales, nos obligan a introducir el código de los diferentes algoritmos que pretendamos implementar. Por ese motivo, todos los que quieran ir realmente en serio, deberían plantearse un plan de lectura de algunos libros importantes dentro de la temática.

Hay muchos disponibles en Internet, y siempre que encontremos algún nuevo procuraremos listarlo en este post para poder dejarlo documentado a todos los que busquen buenas referencias de lectura sobre estas áreas.

Hemos dividido los libros en diferentes categorías sobre si son más sobre bases matemáticas, más sobre inteligencia artificial o sobre Data Science, para de esta forma sea más fácil encontrarlo y poder consultarlos.

Si sabes libros gratuitos que no estén listados y quieres compartirlos con nosotros, déjalo como comentario a este hilo, y procuraremos poder incluirlos, lo más rápidamente posible para disponibilizar lo con la comunidad.

Para más artículos sobre esta temáticas, puedes ver otros artículos que hemos publicado anteriormente

FUNDAMENTOS MATEMÁTICOS

Introduction to Applied Linear Algebra – Vectors, Matrices, and Least Squares Stephen Boyd and Lieven Vandenberghe Cambridge University Press Introduction to Applied Linear Algebra – Vectors, Matrices, and Least Squares (Ingles)
Stephen Boyd and Lieven VandenbergheCambridge University PressDescarga Original:StandordCopia Innovascape: Enlace
Linear algebra

Linear Algebra

A Free text for a standard US undergraduate course

Jim Hefferon
Mathematics and Statistics Department
Saint Michael’s College
jhefferon at smcvt.edu

https://hefferon.net/linearalgebra/

INTELIGENCIA ARTIFICIAL

Artificial Intelligence A Modern Approach, 1st Edition

Artificial Intelligence

Artificial Intelligence A Modern Approach, 1st Edition (Ingles)

Stuart Russell, 1995

Comprehensive, up-to-date introduction to the theory and practice of artificial intelligence. Number one in its field, this textbook is ideal for one or two-semester, undergraduate or graduate-level courses in Artificial Intelligence.

Descarga Original: ufpe.br

Copia Innovscape : Enlace

Learning Deep Architectures for AI

Learning Deep Architectures for AI

(Ingles)

Yoshua Bengio, 2009

Foundations and Trends(r) in Machine Learning.

Descarga Original: github

Copia Innovscape : Enlace

Natural Language Processing with Python

Natural Language Processing with Python

Steven Bird, 2009

This book offers a highly accessible introduction to natural language processing, the field that supports a variety of language technologies, from predictive text and email filtering to automatic summarization and translation.

Descarga Original: NTLK

Actualizado a python 3

Programming Computer Vision with Python

Programming Computer Vision with Python

Jan Erik Solem, 2012

If you want a basic understanding of computer vision’s underlying theory and algorithms, this hands-on introduction is the ideal place to start. You’ll learn techniques for object recognition, 3D reconstruction, stereo imaging, augmented reality, etc

Descarga Original:ProgrammingComputerVision

Enlace Innovascape: Enlace

A Course in Machine Learning

Data Mining and Machine Learning

A Course in Machine Learning (ingles)

Hal Daumé III, 2014

An introduction training to Machine Learning with good examples

Descarga Original😛DF

Enlace Innovascape: Enlace

BIG DATA

Big Data Now: 2012 Edition

Big Data Now: 2012 Edition

O’Reilly Media, Inc., 2012

This is not just a technical book or just a business guide. Data is ubiquitous and it doesn’t pay much attention to borders, so we’ve calibrated our coverage to follow it wherever it goes.

Descarga Original: Oreilly

Copia Innovscape : Enlace

Disruptive Possibilities: How Big Data Changes Everything

Disruptive Possibilities: How Big Data Changes Everything (Inglés)

Jeffrey Needham, 2013

This book provides an historically-informed overview through a wide range of topics, from the evolution of commodity supercomputing and the simplicity of big data technology, to the ways conventional clouds differ from Hadoop analytics clouds.

Descarga Original: Oreilly

Copia Innovscape : Enlace

Hadoop in the Enterprise: Architecture - Guide to Successful Integration

Hadoop in the Enterprise: Architecture – Guide to Successful Integration

Jan Kunigk, Ian Buss,
Paul Wilkinson & Lars George

This practical book provides a comprehensive guide on how to make enterprise Hadoop integration successful. Also, you will learn how to build a Hadoop infrastructure, architect an enterprise Hadoop platform, and even take Hadoop to the cloud.

Descarga Original: Pentaho

Copia Innovscape : Enlace

Learning Apache Spark

Learning Apache Spark with Python

Wenqiang Feng

A practical free book on programming Apache Spark with Python.

Descarga Original: PDF

Copia InnovaScape: Enlace

Otros Libros Gratuitos:

https://goalkicker.com/

¿Solo conozco Excel, soy o no un Data Scientist?

Un interesante hilo (ingles) a raíz de un pregunta sobre si una persona solamente sabe utilizar a excel, si puede ser considerado un Data Scientist / Científico de datos?

 

¿Solo conozco Excel, soy o no un Data Scientist?

Basado en el diagrama de Venn para el Científico de Datos.

Un Científico de Datos debe saber matemáticas/estadísticas/álgebra, debe ser un experto en el dominio (o tener acceso a expertos en el campo) y debe conocer habilidades de hacking/codificación (para permitirle explorar más allá de las características estándar en cualquier solución utilizada). Esto ya lo cubrimos en un articulo en este blog

En el día a día, solemos decir que un científico de datos busca responder a las preguntas de negocios basado en los datos y herramientas disponibles para él.

Así que si tomamos en consideración exclusivamente la definición estándar, podríamos decir que alguien que sólo trabaja con Excel no sería un científico de datos.

Pero desde mi punto de vista que Excel tiene un lenguaje de programación, Excel básico, que permite ampliar las posibilidades de la herramienta, podría decir que hay mucha gente que realiza análisis de negocios con Excel (y algunas veces otras herramientas conectadas a Excel). Uno de los principales problemas de Excel es la limitación del tamaño de las hojas de trabajo, que no permite aportar demasiados datos, y el tiempo que tarda en hacerlo.

Entonces, ¿podría alguien ser considerado un científico de datos sin Python? Creo que depende del tamaño de la empresa y de las necesidades de datos. Lo importante para un Data Scientist es RESPONDER A LAS PREGUNTAS DE LA EMPRESA CON LOS DATOS, las habilidades de hacking son para poder utilizar una amplia gama de herramientas, pero los datos encajan en un excel y hace el trabajo permitiendo a la empresa tomar las decisiones correctas? Entonces es un científico de datos.

Si los datos disponibles el proceso necesario para obtener respuestas para las preguntas de negocios es demasiado alto para Excel y la persona no es capaz de moverse de Excel, entonces no es un Data Scientist.

Un Científico de datos debe ser capaz de adaptarse a las diversas necesidades de la empresa o del proyecto donde debe aplicar sus conocimientos. Si para poder responder a preguntas, los datos que son necesarios procesar en información, son demasiados para una herramienta, entonces no es excusa solamente una herramienta. El Data Scientist debe ser capaz de encontrar la herramienta o programar el mismo las herramientas o algoritmos que necesite para ello.

Podríamos entonces entrar en el debate  que, no es realmente necesario saber, si no saber encontrar quien te lo puede hacer, y conseguir crear un equipo alrededor del Data Scientist para que pueda realizar el análisis requerido. pero el problema con esto es que muchas veces no tienes la seguridad de que es el camino correcto, y hay muchos pruebas e errores que debe el proprio analista realizar. Si cada vez que vás a hacer pruebas, hay que contratar un equipo de 3 personas, entonces hay un problema grave de presupuestos que acabarán por generar tensión en la empresa.

Es un tema difuso porque puedes mirarlo desde diferentes puntos de vistas, según la óptica de cada uno, y de las experiencias de trabajo de estas características, dado que muy probablemente un Data Scientist que solamente se hay movido en grandes proyectos con grandes cantidades de datos e de herramientas lo verá de una forma, mientras que el el que ha trabajado en pequeñas empresas donde por la cantidad de datos, excel, ha sido más que suficiente para solucionar los problemas, podrá verlo de otra forma.

Si has llegado al final de este artículo, es porque te ha interesado el tema, y me gustaria saber yo también cuál es tu opinión, para que si necesario pueda verlo desde diferentes angulos. Así porque no pones en los comentarios tu propia opinión para generarnos un hilo interesante de discusión?

 

Data Scientist vs Data Engineer. ¿Cuál es la diferencia?

Cientifico de datos vs Arquitecto de datos ¿Cuál es la diferencia?

 

Un articulo muy interesante que compara las diferencias que existente entre un data scientist (científico de datos) y un arquitecto de datos ( Arquitecto Big Data o Ingeniero de datos/Big Data ) o dato, y que bien podría resumir también las diferencias entre Data Science y Big Data, algo que confunde a mucha gente.
Esta confusión aumenta a menudo, cuando se quiere realizar algún tipo de formación, y todas terminologías convergen entre si, lo que agravado muchas veces por los vendedores de los programas, lleva la confusión hasta limites muy grandes.

Lo primero de todo…

Por mucho que se comenten como las tecnologías mas punteras, en realidad, nada de más lejano. Todas estas tecnologías de análisis de datos llevan decenas de años, y han ido evolucionando con una velocidad directamente proporcional a la capacidad de transmitir y procesar datos. La gran mayoría de las analíticas de datos están apoyados sobre métodos matemáticos, álgebra, estadística, etc…. que en algunos casos tienen mas algunos siglos de historia.

La proprio espirito de lo que es un cientifico de datos podría remontar unos 3 siglos a tras a una Londres todavía casi medieval, con una epidemia que estaba provocando la muerte de muchos londinenses, y cuya medicina de la época no conseguía encontrar una solución, hasta que un alguien se le ocurrió coger todos los datos de localización de la enfermedad y contrastarlo con mapas de otra características como por ejemplo el hidrográfico, e llegar a la conclusión que había una conexión entre enfermedad y pozos de aguas.

La única diferencia entre entonces y hoy, es que la digitalización de la economía ha permitido la existencia de datos prácticamente ilimitados que pueden ser intercambiados, distribuidos y procesados a una velocidad todavía no infinita.

Incluso con la evolución del poder de computación a la luz de la Ley de Moore, no fue hasta que cambios de modelos de computación generados por las nuevas empresas puntocom como Google, Twitter, Facebook y otras que realmente no se ha dispuesto de una capacidad realmente relevante de procesar los datos de una forma elevada.

Con estas dos visiones tenemos una primera aproximación de las diferencias:

– Encontrar respuestas a preguntas
– Encontrar formas de procesar los datos

Los científicos de datos, están para buscar las respuestas a las preguntas que le rodean. Estas preguntas pueden ser de muchos y diferentes tipos, pueden relacionadas con rentabilidad de negocios o inversiones, optimizaciones de producción, encontrar la cura del cáncer, saber lo que piensan nuestros usuarios, saber que van a comprar en el futuro nuestros consumidores, etc… Es fácil ver que dentro de las preguntas con vista al pasado, al presente y al futuro, dado que son realidades que se mezclan frecuentemente en el trabajo de un data scientist, porque para imaginar el futuro es necesario saber como se ha comportado el pasado, validarlo con el presente y finalmente proyectarse a ese futuro posible.

 

Data Science Hierarchy of needs

Source Hackernoon

Algo que es importante también tener en cuenta, es que la función dentro de los datos, depende mucho de la dimensión de la empresa, no es lo mismo ser un científico de datos en una pequeña suportar sin fondos para la contratación de equipos grandes, con una grande multinacional con muchos recursos y en que probablemente contara con equipos dedicados para cada función asociada al proceso de colectar,tratar y analizar los datos. Por lo lo mas probable es que en una empresa pequeña tanto un data scientist como un ingeniero de datos harán funciones muy parecidas, mientras que en las grandes empresas, su especializaran a muy bajo nivel.

Para realizar estas operaciones, son necesarios muchos datos, de muchos tipos, de muchas diferentes orígenes y con requisitos muy diferentes de proceso antes de que pueda ser utilizado en su análisis. Con estas tareas se preocupan los ingenieros de datos o arquitectos de big data, o muchos otros nombres.

Son los que son capaces de diseñar, montar y mantener todos los sistemas necesarios para conseguir encontrar los datos necesarios, recolectarlos en los sistemas donde se llevará a cabo su proceso, y garantizar que habrá la capacidad de computación suficiente como para que conseguirlo no lleve una eternidad, si no más bien sean realizada en el tiempo mas competitivo posible de tal forma que sumado a la labor del cientifico de datos, podamos conseguir ver la realidad de la temática que nos interesa antes de los demás.

Estos dos funciones no son exclusivas y complementarias entre si, y tienen muchos puntos en común, pero en el día a día, la principal diferencia estará en el enfoque mental que cualquier uno de ellos tiene sobre los datos y su utilización.

si comparásemos los dos roles a dos conductores que quieren ir de Madrid a Pamplona, el cientifico de datos miraría el GPS para intentar visualizar los posibles problemas del camino, mientras que el ingeniero de datos, miraría las características del trayecto como velocidades, tiempos de llegada, etc.. Claro que por lo menos ellos llevarían GPS y por lo cuanto pueden adaptarse con tiempo a lo que ocurre por delante de si. Una empresa sin datos, es como viajar sin GPS y estar al merced de lo que ocurre.

 

Diagrama de Venn del

Diagrama de Venn del «Científico de datos» (Fuente: Drew Conway)

 

Científico de datos

  • Enfoque en las preguntas utilizando los datos y su relación para estructurar hipótesis que pueden ser probados con la utilización de los modelos de análisis creados.
  • Ser capaz de contar historias con base en las análisis realizadas. el 80% del éxito es saber contar los resultados obtenidos.
  • Conocimiento especializado sobre el área de análisis
  • Conocimiento formal sobre matemáticas, álgebra, estadísticas, métodos numéricos, algoritmos
  • Conocimiento de programación y herramientas de proceso y análisis de datos.

Arquitecto o ingeniero de datos

  • Enfoque sobre la disponibilidad de los datos, su recolección, su almacenamiento
  • Enfoque sobre las arquitecturas de comunicación y computación
  • Enfoque sobre las herramientas de adquisición, proceso y almacenamiento de los datos.
  • Algún enfoque sobre el análisis

¿Como operan?

Lo primero de todo, el análisis de datos nunca debería empezar desde abajo de un departamento de tecnología y subir en dirección de la empresa. El enfoque debe ser desde las necesidades competitivas e estratégicas de la dirección, que sugieren preguntas de difícil solución, y que necesitan de diferentes fuentes y volúmenes de datos para permitir crear unos modelos capaces de simular la realidad e imaginar las posibles respuestas.

Empezar desde arriba va a dar la posibilidad de entender lo que se quiere hacer y que tiene la empresa para poder realizarlo, y en el caso de que no disponga de las posibilidades para hacerlo, entonces buscar especialistas o tecnologías para su implementación.

Empezar al revés, con una necesidad tecnológica es generalmente condenado a terminar con una solución propietaria cara y aislada, que tendrá a la organización rehén de la misma durante mucho tiempo.

Una vez, que la dirección de la organización tiene una idea clara de los retos existentes y de las preguntas a que debe enfrentarse para conseguir darle una respuesta, es cuando debe buscarse con la ayuda de un data scientist cual son las posibilidades que existen dentro o fuera de la organización para poder hacerlo. Hay muchas ocasiones en que no hay ni datos ni tecnologías disponibles y que por lo cuanto la vía debe ser de empezar a cambiar los modelos de operación para generar los datos que se necesite.

 

¿Que formación?

Que deben estudiar y cuales los perfiles más idóneos para poder estudiar, y una pregunta interesante, es necesario formación universitario complementaria de máster?

De forma general, el tipo de conocimiento de matematicas/estadisticas van a estar más fuertes en personas que hayan cursado formación de economia, matematicas, fisicas, estadisticas, quimica, geografia, etc… Están habituados a los datos como motor de inferencia de otras realidades y se les dá bien la abstracción que es necesaria tener para poder ver lo que los datos ocultan. Generalmente estos perfiles tienen cierta capacidad lógica por lo que poder llegar a tener una visión de alto nivel sobre programación no es demasiado complicado.

El tema de sistemas, comunicaciones y arquitecturas de computación les es más complicado entender, por lo que estarán generalmente mejor enfocados en programas de Data Science.

 

Por otro lado, ingenieros, informáticos y otras formaciones más técnicas estarán mejor enfocados en programas de Big Data donde tendrán más facilidades para entender la complejidad de los sistemas y sus interdependencias, algo que resulta mucho más complicado a los anteriores, y por lo cuanto un programa de Big Data les dará mejor provecho.

 

Estas divisiones no son atómicas y hay muchos ingenieros que son muy buenos con la relación de los datos, y vice versa.

 

Es necesario un máster o un programa universitario para poder formarse? La respuesta es complicada y depende de cada persona. Los principios formales y tecnológicos subyacentes a estas disciplinas se pueden aprender fácilmente con auto estudio, aplicarlos de forma correcta es más complejo, porque es necesario la capacidad de entender las especificidades del problema que se quiere responder, y es necesario la existencia de una dialogo constante que permita ir avanzando en el conocimiento del mismo para ir mejorando de forma gradual la concepción y abstracción de mismo. Sin esta relación real, es como intentar aprender a dibujar o programar sin hacer dibujos o sin programa. Se puede llegar a entender, pero no se conseguirá nunca saber aplicarlos.

 

 

 

 

Referencias

articulo  Pablo Avilés

Articulo Deusto

Formacion Recursos Humanos

Data Scientist

¿Qué hace un Data Scientist?

¿Qué hace un Data Scientist?.

Un data scientist es el encargado en una organización que busca encontrar verdades a través del análisis masivo de datos para poder guiar al equipo en la toma de decisiones El flujo de trabajo de data un data science tiene muchos factores que deben ser tomados en cuenta.

 

En esta clase aprenderás lo que hace un data scientist a través del flujo de vida de un proceso profesional de data science, este proceso lo aprenderás en nuestro curso de Data Science.

 

 

Introducción a la estadística para la ciencia de los datos

¿Qué necesito para ser un Data Scientist?

¿Qué necesito para ser un Data Scientist?


Data Science Spanish…

La propriedad de estos artículos pertenece a sus autores originales, y este resumen se ha incluido para referencias personales y crear un base de datos de artículos interesantes en el campo de la innovación.

 

 

Hoy en día, las personas que se dedican a la tecnología tienen muchas opciones para desarrollarse profesionalmente. Un campo que está sonando mucho últimamente es el de Data Science. Se le conoce como data science al estudio de la data, e involucra desarrollar métodos de recolección, almacenamiento y análisis de datos para extraer de manera efectiva información relevante para la empresa. El objetivo principal es obtener insights de cualquier tipo de data, ya sea estructurada o no estructurada.

La ciencia de datos está bastante relacionada a las ciencias de la computación, sin embargo es un campo separado. Computer science consiste básicamente en crear algoritmos para recolectar y procesar data, mientras que data science cubre cualquier tipo de análisis de data, el cual puede no usar computadoras. Asimismo, data science está muy vinculada con la estadística. Debido a la gran cantidad de data que manejan las organizaciones, data science se ha convertido en una parte integral de las áreas de TI.

¿Que hacen los data scientists?

Aquellas personas dedicadas a data science se les conoce como data scientists. Estos profesionales son responsables de recolectar, analizar e interpretar la data. Este trabajo requiere el uso de analítica avanzada, incluyendo machine learning y modelamiento predictivo. Asimismo, requiere grandes cantidades de data para poder desarrollar hipótesis, hacer inferencias, y analizar tendencias, tanto del mercado como de clientes.

Dentro de las organizaciones, los data scientists generalmente trabajan en equipo, para así poder extraer toda la información de big data que pueda ser usada para predecir el comportamiento del consumidor e identificar nuevas formas de generar ingresos. Adicionalmente, los data scientists son los responsables de definir las mejores prácticas para recolectar esta data, utilizando herramientas de análisis y de interpretación.

El objetivo que tienen estos perfiles dentro de las empresas es proveer datos acerca de consumidores y campañas para así poder ayudar a las compañías a crear fuertes planes y llegar de una mejor manera a sus audiencias. Estos ayudan a las empresas a crear planes de negocio basado en investigación para que puedan alcanzar sus metas.

La demanda por data scientists ha crecido significativamente en los últimos años, ya que las compañías cada vez valoran más los hallazgos que estos pueden encontrar dentro de la data. Debido a esto, constantemente aparecen nuevas herramientas y metodologías que necesitan expertos que se capaciten y puedan aprenderlas y aplicarlas.

¿Qué necesito para ser un data scientist?

Para llegar a ser un data scientist, es necesario estar capacitado y tener experiencia en el manejo de data, para así poder completar tareas complejas de planeamiento y análisis en tiempo real. Es importante que este perfil cuente con un grado técnico que le permita tener la base y conocimientos necesarios para desarrollarse de forma efectiva en el rol.

Los conocimientos que un data science debe tener incluyen un gran número de plataformas de big data y herramientas como Hadoop, Pig, Hive, Spark y MapReduce. Asimismo, requiere saber lenguajes de programación como SQL, PythonScala y Perl. Finalmente, también necesita saber lenguajes estadísticos como R.

Por otro lado, se espera que un data scientist tenga buen manejo de data mining, machine learning, deep learning, y la habilidad de integrar data estructurada y no estructurada. También necesita conocimientos en técnicas de investigación estadística, como modelamientos, clustering, data visualization y segmentación, análisis predictivo, entre otros….

Leer el articulo completo en Medium