El proceso de aprendizaje automático en 7 pasos

En este artículo, repasaremos los diferentes pasos necesarios para gestionar el proceso de aprendizaje automático de principio a fin.

Dependiendo de la empresa en la que trabajes, podrás participar o no en todos estos pasos. En una gran empresa, lo normal es que te centres en uno o dos aspectos especializados del proyecto.

En una empresa pequeña, podrás participar en cada paso del proceso. En este caso, la atención se centra en proyectos de mayor envergadura, como el desarrollo de una taxonomía, y no en análisis ad hoc o puntuales.

También mencionaremos a todas las partes implicadas, no sólo a los expertos en aprendizaje automático.

Pasos de un proyecto de aprendizaje automático

A continuación y en orden cronológico, podrás encontrar los siete pasos más importantes para un buen processo de implementación de machine learning.

As veces es necesario identificar errores en el proceso y volver a realizar los pasos anteriores. No se trata en absoluto de un proceso lineal, sino más bien de un experimento de prueba y error. 

  1. Define el problema y las métricas (también conocidas como características) que deseas seguir. Evaluar los datos disponibles (fuentes internas y externas) o las bases de datos que se van a crear y la arquitectura de la base de datos para un almacenamiento y procesamiento óptimos. Discutir las posibles arquitecturas en la nube de elección, los volúmenes de datos (posibles problemas de escalado en el futuro) y los flujos de datos. ¿Necesitas datos en tiempo real? ¿Cuánto se puede externalizar con seguridad? ¿Necesitas contratar personal? Discute los costes, el rendimiento de la inversión, los proveedores y los plazos. Los responsables de la toma de decisiones y los analistas de negocio estarán muy involucrados, y los científicos de datos y los ingenieros también pueden unirse al debate.
  2. Define los objetivos y el tipo de análisis que se va a realizar. ¿Se Podrán monetizar los datos? Segmentación, elaboración de perfiles de clientes, mejora de la orientación, optimización de procesos como la fijación de precios y la cadena de suministro, detección de fraudes, creación de taxonomías, aumento de las ventas, recopilación de inteligencia competitiva y de marketing, mejora de los motores de recomendación y de las capacidades de búsqueda, etc. ¿Se utilizarán los datos para mejorar la experiencia del usuario? ¿Cuáles son sus principales objetivos? ¿Quiénes son sus principales usuarios?
  3. 3. Captura los datos. Evaluar quién tiene acceso a los datos y cómo (a qué partes de los datos pueden acceder, por ejemplo, a las tablas de resumen o a las bases de datos de vida). También se tratarán aquí cuestiones de privacidad y seguridad. Por lo general, el equipo de TI, el equipo legal y los ingenieros de datos estarán involucrados. También se analiza el diseño del cuadro de mando con el objetivo de diseñar un buen cuadro de mando para el usuario final, como los responsables de la toma de decisiones, los equipos de producto y marketing y los clientes. 
  4. Análisis exploratorio de datos. Aquí es donde el científico de datos entra más en juego, pero este paso debe ser automatizado en la medida de lo posible. Debe incluir la detección de los datos que faltan y su tratamiento (utilizando la atribución), la identificación de los valores atípicos y su significado, el resumen y la visualización de los datos, la búsqueda de datos mal codificados o duplicados, la búsqueda de correlaciones, la realización de un análisis previo y la búsqueda de las mejores características predictivas y técnicas de agrupación (véase la sección 4 de este artículo). Esto puede descubrir errores en sus datos, y es posible que tenga que volver atrás y repetir los pasos anteriores para solucionar problemas importantes.
  5. La etapa de aprendizaje/modelado de la máquina propiamente dicha. Este paso supone que los datos recogidos son lo suficientemente estables y pueden utilizarse para los fines previstos.                Se prueban modelos predictivos, se entrenan algoritmos y modelos como las redes neuronales y se realizan pruebas de bondad de ajuste y validación cruzada. Los datos pueden utilizarse para una variedad de análisis, como el análisis posterior, la detección de fraudes y la prueba de conceptos. Los algoritmos se prototipan, se automatizan y finalmente se implementan en modo de producción. Los datos de salida se almacenan en tablas auxiliares para su uso posterior, incluidas las alertas por correo electrónico y las entradas del cuadro de mando. También se pueden añadir e integrar fuentes de datos externas. En este momento, se han resuelto los principales problemas de datos.
  6. crear una plataforma para el usuario final. Por lo general, esto se proporciona como un panel de control con visualizaciones y datos resumidos que pueden exportarse a un formato estándar (incluida una hoja de cálculo). Esto proporciona información para que los responsables de la toma de decisiones tomen medidas. La plataforma también puede utilizarse para realizar pruebas A/B. Es

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

A %d blogueros les gusta esto: