Netflix crea una solución de procesamiento incremental con Maestro y Apache Iceberg

Netflix crea una solución de procesamiento incremental con Maestro y Apache Iceberg

Netflix lanza nueva solución para procesamiento incremental de datos

Netflix implementó recientemente un nuevo enfoque de procesamiento incremental en su plataforma de datos. Este método reduce significativamente los costos de recursos computacionales y el tiempo de ejecución porque evita procesar conjuntos de datos completos. La empresa utilizó su motor de flujo de trabajo Maestro y Apache Iceberg para mejorar la actualización y precisión de los datos, y planea proporcionar capacidades de reabastecimiento administrado.

Migrando a Maestro

Netflix ha migrado todo su procesamiento de datos a Maestro, la última generación de plataforma interna de orquestación de flujo de trabajo que aborda varios casos de uso, incluidos canales de ETL, capacitación de modelos de aprendizaje automático, trabajos por lotes y más. Al mismo tiempo, la empresa buscaba resolver algunos problemas comunes relacionados con la ejecución de canales de datos.

En primer lugar, la plataforma carecía de soporte eficaz para casos de uso de procesamiento por lotes de baja latencia. Esto ha llevado a algunas soluciones internas, como Psyberg, que solo funcionan para casos de uso específicos e introducen un estrecho acoplamiento con la lógica empresarial. En segundo lugar, la llegada tardía de datos obligó a los flujos de trabajo a utilizar una ventana al pasado, lo que aumentó el tiempo y los costos de ejecución. Finalmente, el reabastecimiento de conjuntos de datos requirió un importante esfuerzo de ingeniería porque se tuvieron que crear, ejecutar y validar flujos de trabajo de reabastecimiento dedicados.

Solución incremental usando Apache Iceberg

La solución que aborda estos desafíos permite el procesamiento incremental de registros agregados/actualizados y aprovecha las características avanzadas de Apache Iceberg, un formato de alto rendimiento para tablas de análisis masivas que admite consultas SQL expresivas, evolución de patrones, viajes en el tiempo y rebobinado, entre otros. otros.

La solución implementada creó un enfoque liviano para crear una tabla Iceberg adicional (llamada tabla ICDC) que solo almacena referencias de la tabla original sin copiar ningún archivo de datos, lo cual es eficiente y rentable. Además, la nueva tabla captura el rango de cambios para los campos de datos especificados. Los ingenieros de datos pueden integrar el enfoque de procesamiento incremental en los flujos de trabajo de Maestro existentes utilizando un nuevo tipo de paso de flujo de trabajo y/o un nuevo mecanismo de activación incremental.

La introducción de la capacidad de procesamiento incremental ha dado lugar a nuevos patrones. La más básica es utilizar únicamente la tabla ICDC en el proceso de flujo de trabajo si no se necesitan otras fuentes de datos, lo que simplifica enormemente la ejecución del flujo de trabajo y elimina por completo la necesidad de utilizar la ventana retrospectiva. Otros esquemas implican el uso de datos de cambios incrementales o un rango de cambios capturado para optimizar la lógica de transformación de datos y limitar el alcance del reprocesamiento cuando el flujo de trabajo utiliza muchas tablas de origen.

Mejoras futuras

Jun He, ingeniero de software principal de Netflix, compartió una descripción general de las capacidades en las que el equipo planea trabajar a continuación:

“Mejoraremos el IPS para admitir casos más complejos más allá de simplemente agregar casos. IPS podrá realizar un seguimiento del progreso de los cambios en la tabla y admitir varios tipos de cambios en la tabla Iceberg (por ejemplo, agregar, sobrescribir, etc.). También agregaremos soporte de reabastecimiento administrado en IPS para ayudar a los usuarios a crear, monitorear y validar el reabastecimiento”.

Fuente: www.infoq.com

Foto del avatar

Sylvain Métral

J'adore les séries télévisées et les films. Fan de séries des années 80 au départ et toujours accroc aux séries modernes, ce site est un rêve devenu réalité pour partager ma passion avec les autres. Je travaille sur ce site pour en faire la meilleure ressource de séries télévisées sur le web. Si vous souhaitez contribuer, veuillez me contacter et nous pourrons discuter de la manière dont vous pouvez aider.