El proceso de aprendizaje automático en 7 pasos

En este artículo, repasaremos los diferentes pasos necesarios para gestionar el proceso de aprendizaje automático de principio a fin.

Dependiendo de la empresa en la que trabajes, podrás participar o no en todos estos pasos. En una gran empresa, lo normal es que te centres en uno o dos aspectos especializados del proyecto.

En una empresa pequeña, podrás participar en cada paso del proceso. En este caso, la atención se centra en proyectos de mayor envergadura, como el desarrollo de una taxonomía, y no en análisis ad hoc o puntuales.

También mencionaremos a todas las partes implicadas, no sólo a los expertos en aprendizaje automático.

Pasos de un proyecto de aprendizaje automático

A continuación y en orden cronológico, podrás encontrar los siete pasos más importantes para un buen processo de implementación de machine learning.

As veces es necesario identificar errores en el proceso y volver a realizar los pasos anteriores. No se trata en absoluto de un proceso lineal, sino más bien de un experimento de prueba y error. 

  1. Define el problema y las métricas (también conocidas como características) que deseas seguir. Evaluar los datos disponibles (fuentes internas y externas) o las bases de datos que se van a crear y la arquitectura de la base de datos para un almacenamiento y procesamiento óptimos. Discutir las posibles arquitecturas en la nube de elección, los volúmenes de datos (posibles problemas de escalado en el futuro) y los flujos de datos. ¿Necesitas datos en tiempo real? ¿Cuánto se puede externalizar con seguridad? ¿Necesitas contratar personal? Discute los costes, el rendimiento de la inversión, los proveedores y los plazos. Los responsables de la toma de decisiones y los analistas de negocio estarán muy involucrados, y los científicos de datos y los ingenieros también pueden unirse al debate.
  2. Define los objetivos y el tipo de análisis que se va a realizar. ¿Se Podrán monetizar los datos? Segmentación, elaboración de perfiles de clientes, mejora de la orientación, optimización de procesos como la fijación de precios y la cadena de suministro, detección de fraudes, creación de taxonomías, aumento de las ventas, recopilación de inteligencia competitiva y de marketing, mejora de los motores de recomendación y de las capacidades de búsqueda, etc. ¿Se utilizarán los datos para mejorar la experiencia del usuario? ¿Cuáles son sus principales objetivos? ¿Quiénes son sus principales usuarios?
  3. 3. Captura los datos. Evaluar quién tiene acceso a los datos y cómo (a qué partes de los datos pueden acceder, por ejemplo, a las tablas de resumen o a las bases de datos de vida). También se tratarán aquí cuestiones de privacidad y seguridad. Por lo general, el equipo de TI, el equipo legal y los ingenieros de datos estarán involucrados. También se analiza el diseño del cuadro de mando con el objetivo de diseñar un buen cuadro de mando para el usuario final, como los responsables de la toma de decisiones, los equipos de producto y marketing y los clientes. 
  4. Análisis exploratorio de datos. Aquí es donde el científico de datos entra más en juego, pero este paso debe ser automatizado en la medida de lo posible. Debe incluir la detección de los datos que faltan y su tratamiento (utilizando la atribución), la identificación de los valores atípicos y su significado, el resumen y la visualización de los datos, la búsqueda de datos mal codificados o duplicados, la búsqueda de correlaciones, la realización de un análisis previo y la búsqueda de las mejores características predictivas y técnicas de agrupación (véase la sección 4 de este artículo). Esto puede descubrir errores en sus datos, y es posible que tenga que volver atrás y repetir los pasos anteriores para solucionar problemas importantes.
  5. La etapa de aprendizaje/modelado de la máquina propiamente dicha. Este paso supone que los datos recogidos son lo suficientemente estables y pueden utilizarse para los fines previstos.                Se prueban modelos predictivos, se entrenan algoritmos y modelos como las redes neuronales y se realizan pruebas de bondad de ajuste y validación cruzada. Los datos pueden utilizarse para una variedad de análisis, como el análisis posterior, la detección de fraudes y la prueba de conceptos. Los algoritmos se prototipan, se automatizan y finalmente se implementan en modo de producción. Los datos de salida se almacenan en tablas auxiliares para su uso posterior, incluidas las alertas por correo electrónico y las entradas del cuadro de mando. También se pueden añadir e integrar fuentes de datos externas. En este momento, se han resuelto los principales problemas de datos.
  6. crear una plataforma para el usuario final. Por lo general, esto se proporciona como un panel de control con visualizaciones y datos resumidos que pueden exportarse a un formato estándar (incluida una hoja de cálculo). Esto proporciona información para que los responsables de la toma de decisiones tomen medidas. La plataforma también puede utilizarse para realizar pruebas A/B. Es
Introducción a la estadística para la ciencia de los datos

Introducción a la estadística para la ciencia de los datos. Una terminología básica

¿Eres un aspirante a científico de datos que quiere aprender estadística para fines de Ciencia de Datos? ¿Le resultaron difíciles los conceptos de estadística durante sus años escolares y está buscando una forma fácil de aprender los conceptos estadísticos para mejorar su capacidad de comprensión de los datos? Si su respuesta es “sí” a ambas cosas, ha llegado al lugar adecuado. Hoy le presentaremos algunos de los conceptos estadísticos comúnmente aceptados en el campo de la ciencia de los datos. Antes de aprender los conceptos, es importante saber qué se puede aprender.

Introducción a la estadística para la ciencia de los datos

Se trata de una introducción a la estadística y al aprendizaje automático.


¿Qué es la estadística? ¿Cuáles son los diferentes tipos de conceptos estadísticos que hay que conocer?

La estadística es una de las disciplinas más conocidas cuyo objetivo principal es recoger datos, organizarlos, analizarlos, interpretarlos y visualizarlos. En el pasado, la estadística era practicada por estadísticos, economistas y gestores para calcular y presentar datos relevantes en sus respectivos campos. Hoy en día, la estadística desempeña un papel central en varias disciplinas como la ciencia de los datos, el aprendizaje automático, el papel del analista de datos, el papel del analista de inteligencia empresarial y el papel de la informática.


Es cierto que hace tiempo que aprendimos ciertos conceptos estadísticos como la tendencia central y la desviación estándar. Hay muchos más conceptos estadísticos importantes que deben ser aprendidos e implementados para la Ciencia de Datos y el Aprendizaje Automático. Aprendamos algunos términos estadísticos básicos y su clasificación.

Terminología estadística básica


Para dominar un programa estadístico, es necesario conocer ciertos términos. Son los siguientes.

  • La población. Una población es un conjunto de recursos de los que se pueden recoger datos.
  • Ejemplo. Una muestra no es más que un subconjunto de una población y se utiliza para los datos de la muestra y la estadística inferencial para predecir resultados.
  • Variable. Una variable es un número, una característica o una cantidad contable. A veces se denominan puntos de datos.
  • Distribución de la probabilidad. Una distribución de probabilidad es un concepto matemático que indica la probabilidad de ocurrencia de varios resultados posibles, especialmente en los experimentos realizados por los estadísticos.
  • Parámetro estadístico. Un parámetro estadístico, o parámetro poblacional, es básicamente una cantidad utilizada para indexar un conjunto de distribuciones de probabilidad, como la media, la mediana y la moda de una población.

Tipos de conceptos en estadística

  1. Estadística descriptiva – La estadística descriptiva es un concepto de análisis y resumen de datos y su organización en forma de gráficos numéricos, gráficos de barras, histogramas, gráficos circulares, etc. La estadística descriptiva es el proceso de descripción de los datos existentes. Convierte los datos de observación en bruto en datos significativos que pueden interpretarse y utilizarse posteriormente. Conceptos como desviación estándar y tendencia central se utilizan en todo el mundo para estudiar la estadística descriptiva.
  2. 2. Estadística inferencial – La estadística inferencial es un concepto importante para sacar conclusiones a partir de una pequeña muestra de una población. Por ejemplo, para predecir el resultado de los sondeos a pie de urna en las elecciones, se pueden realizar encuestas en diferentes partes del estado o del país para recabar opiniones. Sobre la base de la información recopilada de este modo, tendemos a sacar conclusiones y hacer inferencias para predecir el resultado global.
    Ahora que conocemos los diferentes tipos de estadística, es sumamente importante reconocer el papel central del concepto de estadística en la ciencia de los datos y el aprendizaje automático y saber que son dos campos de estudio estrechamente relacionados. La estadística en la ciencia de los datos es realmente útil para seleccionar, evaluar e interpretar los modelos predictivos para los casos de uso de la ciencia de los datos.

Estadística y ciencia de los datos

Introducción a la estadística para la ciencia de los datos - Estadisticas y ciencia de datos - Analiticas
Introducción a la estadística para la ciencia de los datos – Estadisticas y ciencia de datos – Analiticas – Photo by Timur Saglambilek on Pexels.com

Los conceptos básicos del aprendizaje automático y la ciencia de los datos se basan en la estadística. Por ello, es importante aprender a fondo los fundamentos de la estadística para poder resolver problemas del mundo real.
Para aquellos que nunca han tenido nada que ver con la estadística, aquí hay algunos conceptos específicos que deben dominar para tener éxito en su viaje de Ciencia de Datos. A medida que se aprenden las fórmulas, las fórmulas estadísticas y las teorías, hay que familiarizarse con dónde aplicarlas. Sin duda es un tema difícil, pero que merece la pena aprender.
Desde el análisis exploratorio de datos hasta el diseño de pruebas de hipótesis, la estadística desempeña un papel importante en la resolución de muchos problemas en diversas industrias y campos, especialmente para los científicos de datos.

¿Por qué hay que dominar los conceptos de la estadística?


Hoy en día, la mayoría de las empresas se basan en los datos y utilizan varios conceptos para interpretar los datos disponibles. Aquí es donde entran en juego los conceptos estadísticos básicos y su aplicación ayuda a describir los datos en cuestión.
Para resolver los problemas actuales de la empresa y predecir mejores estrategias para mejorar la rentabilidad del negocio, es necesario aprender los conceptos que ayudan a entender los datos y a clasificarlos según sus propiedades. Afortunadamente, hay una serie de herramientas estadísticas que pueden ayudarle a organizar y visualizar sus datos para obtener información útil.
Por lo tanto, en este punto, es importante dominar los conceptos de la estadística. Hay muchos cursos en línea y libros que pueden ayudarte a profundizar en tus conocimientos y convertirte en un mejor científico de datos.

Cómo entender sus datos actuales

Introducción a la estadística para la ciencia de los datos - Como entender los datos actuales
Introducción a la estadística para la ciencia de los datos – Como entender los datos actuales – Photo by Serpstat on Pexels.com


Los datos no son más que un conjunto de observaciones que existen en sus sistemas internos. Puede utilizar la estadística descriptiva para recopilar, organizar, clasificar, muestrear y visualizar datos para tomar decisiones informadas para su negocio.
También puede utilizar la estadística inferencial para predecir resultados. Normalmente, este concepto se utiliza para realizar encuestas o estudios de mercado, que tienden a recoger una muestra de datos y predecir los resultados para toda la población de un lugar determinado en función de ella.
Estos son algunos de los conceptos que debes dominar para convertirte en un mejor profesional de la Ciencia de Datos.
Debe calcular y aplicar medidas de tendencia central para datos agrupados y no agrupados.
Debe dominar la síntesis, la presentación y la visualización de los datos para que los informes resultantes sean claros y proporcionen información práctica a las partes interesadas y a los propietarios de la organización.
También tendrá que realizar pruebas de hipótesis, que son necesarias cuando se trabaja con conjuntos de datos generales.
Realice rigurosas pruebas de correlación y análisis de regresión y presente los datos.
Utilizar R y Python para implementar conceptos estadísticos y demostrar el dominio de este programa.
Utilizar herramientas como Excel, Tableau y Power Bi para presentar los datos en un formato adecuado.

¿Qué importancia tienen las estadísticas en la vida cotidiana?

Introducción a la estadística para la ciencia de los datos - Mujer comprando en un supermercado
Vida Cotidiana – Photo by Anna Shvets on Pexels.com

Afortunadamente, las estadísticas pueden ayudarle a responder a preguntas importantes sobre sus datos, como por ejemplo

  • ¿Qué características de los datos son importantes para el desarrollo de modelos?
  • ¿Cuál es la mejor manera de realizar un experimento?
  • ¿Cómo diseñamos estrategias basadas en los resultados de nuestros experimentos?
  • ¿En qué medidas de rendimiento debemos centrarnos?
  • ¿Cómo interpretamos los resultados?
  • ¿Cómo se distinguen los datos válidos de los datos con ruido?
    Todas estas son preguntas comunes e importantes que tienen implicaciones estadísticas, y los equipos de datos necesitan responder a estas preguntas para realizar mejor su trabajo.
    Estos son algunos de los puntos clave que debe conocer para empezar a utilizar un programa estadístico. Hay una variedad de cursos disponibles para ayudarle a empezar a utilizar un programa estadístico.