Plataforma MLOps y mejores prácticas

Plataforma MLOps y mejores prácticas

El blog de Cloudflare describe su Plataforma MLOps y mejores prácticas para ejecutar la implementación de inteligencia artificial (IA) a escala. Los productos de Cloudflare, incluida la puntuación de ataques WAF, la gestión de bots y la identificación de amenazas globales, están impulsados ​​por modelos de aprendizaje automático (ML) en constante evolución. Estos modelos desempeñan un papel vital a la hora de mejorar la protección del cliente y aumentar los servicios de soporte. La empresa ha logrado una escala sin precedentes en la entrega de ML en toda su red, lo que destaca la importancia de metodologías sólidas de capacitación en ML.

El esfuerzo MLOps de Cloudflare colabora con científicos de datos para implementar las mejores prácticas. cuadernos jupyterimplementado en Kubernetes a través de Jupyter Hubproporciona entornos escalables y colaborativos para la exploración de datos y la experimentación de modelos. GitOps surge como la piedra angular de la estrategia MLOps de Cloudflare, aprovechando Git como una única fuente de verdad para gestionar la infraestructura y los procesos de implementación. ArgoCD se utiliza para GitOps declarativos, automatizando la implementación y administración de aplicaciones e infraestructura.

La hoja de ruta futura incluye la migración de plataformas, como JupyterHub, a Kubeflow, una plataforma de flujo de trabajo de aprendizaje automático en Kubernetes que recientemente se convirtió en un proyecto de incubación de CNCF. Este movimiento es facilitado por la desplegarKF proyecto, que proporciona gestión de configuración distribuida para componentes de Kubeflow.

Para ayudar a los científicos de datos a lanzar proyectos con confianza, eficiencia y con las herramientas adecuadas, el equipo de Cloudflare MLops proporciona modelos que sirven como repositorios listos para producción con modelos de ejemplo. Estos modelos son actualmente internos, pero Cloudflare planea hacerlos de código abierto. Los casos de uso cubiertos por estos modelos son:

1. Modelo de entrenamiento: Configurado para procesos ETL, seguimiento de experimentos y orquestación basada en DAG.

2. Modelo de inferencia por lotes: Optimizado para un procesamiento eficiente a través de plantillas planificadas.

3. Modelo de inferencia de flujo: Creado para inferencia en tiempo real utilizando FastAPI en Kubernetes.

4. Modelo de explicabilidad: Genera paneles para información del modelo utilizando herramientas como Streamlit y Bokeh.

Otra tarea crucial de la plataforma MLOps es orquestar de manera eficiente los flujos de trabajo de ML. Cloudflare abarca varias herramientas de orquestación basadas en las preferencias del equipo y los casos de uso:

Flujo de aire Apache: Un compositor DAG estándar con amplio soporte comunitario.

Flujo de trabajo de Argo: Orquestación nativa de Kubernetes para flujos de trabajo basados ​​en microservicios.

Tuberías de Kubeflow: Adaptado a los flujos de trabajo de ML, con un enfoque en la colaboración y el control de versiones.

Temporal: Se especializa en flujos de trabajo con estado para aplicaciones basadas en eventos.

El rendimiento óptimo implica comprender las cargas de trabajo y adaptar el hardware en consecuencia. Cloudflare enfatiza la utilización de GPU para cargas de trabajo centrales de centros de datos e inferencia de borde, aprovechando las métricas de Prometheus para la observabilidad y optimización. La adopción exitosa en Cloudflare implica optimizar los procesos de aprendizaje automático, estandarizar los procesos y presentar proyectos a equipos que carecen de experiencia en ciencia de datos.

La visión de la compañía es un futuro donde la ciencia de datos juega un papel crucial en los negocios, por eso Cloudflare está invirtiendo en su infraestructura de IA y también colaborando con otras empresas como Meta, por ejemplo, creando llama2 disponible en todo el mundo en su plataforma.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *