The playground

More information here

El pasado, presente y futuro de la transmisión: Flink, Spark y la pandilla

Spark: La herramienta de big data du jour está recibiendo automatización La transmisión es una de las tendencias principales que hemos estado manteniendo al día. El último episodio de esa saga fue agregar capacidades de ÁCIDO a Apache Flink, como lo cubrió Tony Baer de ZDNet la semana pasada. Este anuncio, hecho en Flink Forward […]

Spark: La herramienta de big data du jour está recibiendo automatización

La transmisión es una de las tendencias principales que hemos estado manteniendo al día. El último episodio de esa saga fue agregar capacidades de ÁCIDO a Apache Flink, como lo cubrió Tony Baer de ZDNet la semana pasada. Este anuncio, hecho en Flink Forward en Berlín, fue el telón de fondo de las conversaciones en profundidad que mantuvimos con ejecutivos, ingenieros y usuarios, que pueden ayudar a poner las cosas en contexto.

Para empezar, como señaló Baer, hay una API para Flink que se puede descargar desde GitHub, pero solo funciona para una sola transmisión. La versión con el «runner» para múltiples flujos paralelos es parte de la Plataforma data Artisans, la encarnación comercial de Flink.

También: Apache Flink toma ÁCIDO

Esto no es sorprendente, ya que data Artisans, el proveedor que proporciona soporte para Flink y emplea a una gran parte de sus colaboradores a tiempo completo, tiene una política de núcleo abierto. Esa es una política muy común en el mundo del código abierto, y que el principal competidor de data Artisans/Flink, Databricks / Apache Spark, también está tomando.

¿Cuántos motores de transmisión necesita el mundo?

Como diría Baer, ¿cuántos motores de transmisión necesita el mundo? Buena pregunta, que también se puede reformular como dos preguntas de seguimiento: ¿Cuántos proveedores pueden sobrevivir haciendo lo que hacen los artesanos de datos y los Databricks, o cómo elegir un motor de transmisión?

La respuesta a la primera pregunta es exactamente dos, en este punto: data Artisans y Databricks. Un tercer competidor, DataTorrent, y su motor Apache Apex, que cubrimos hace un tiempo, se desplomó. Parece que el mensaje inusual de» haremos cualquier cosa, incluso construir sobre el motor de nuestro competidor » fue un último esfuerzo para mantenerse a flote adoptando un enfoque más adecuado para una consultoría que para un proveedor detrás de un proyecto de código abierto.

También: Las aplicaciones en tiempo real están llegando a su destino

De cualquier manera, esto significa que ahora hay una serie de huérfanos en el espacio de soluciones de streaming de código abierto: Plataformas sin un proveedor que proporcione soporte, una versión reforzada y dirija su desarrollo. Además de Apex, la lista también incluye Apache Storm y Apache Samza. Storm es mayor y más maduro que Samza, y también tiene cierto apoyo de Hortonworks.

El negocio principal de Hortonworks no está transmitiendo, sin embargo, y si desea usar Storm y tener niveles de soporte empresarial, parece que también tendrá que elegir toda la pila de Hortonworks. No sabemos si Hortonworks tiene planes de dar un paso adelante para Storm, pero no tenemos ninguna señal de este tipo en este momento.

También hay una serie de soluciones de código cerrado para la transmisión, pero parece que tienen una batalla cuesta arriba que luchar. Pueden tener sus méritos y una base de clientes para mostrar, pero gran parte de eso se basa en contratos y relaciones heredados. En un mundo de código abierto de ritmo rápido y» prueba antes de comprar», y un mercado en expansión para la transmisión, ganar nuevos contratos no será fácil.

También: El futuro del Futuro: Spark y Big Data Insights

Y luego también tenemos los proveedores en la nube, por supuesto: AWS con Kinesis, Google Cloud con Flujo de datos y Azure con Análisis de flujos. El motivo habitual también juega aquí. Estos motores pueden o no ser los que mejor se adaptan a sus necesidades. Pero si ya está utilizando AWS, Google Cloud o Azure, le harán muy fácil y tentador registrarse e integrar su solución de transmisión en sus aplicaciones.

Adopción y competencia de los motores de streaming

Hablando del mercado de streaming con Kostas Tzoumas, CEO de data Artisans, Tzoumas tuvo claro lo que él ve como la mayor competencia para data Artisans: Legacy. Tzoumas deliberadamente se abstuvo de comparar a los artesanos de datos / Flink con otras opciones, centrándose en su lugar en sus esfuerzos para llegar y escalar en términos de evangelización y ventas.

Sus puntos de vista resonaron con muchos asistentes de Flink Forward, incluidos algunos de los clientes de más alto perfil de data Artisans. Los delegados con mucha experiencia práctica técnica de Alibaba, Netflix y Microsoft, hicieron hincapié en que cambiar el paradigma y aprender a trabajar con la transmisión es algo que tienen que dominar y difundir todos los días.

También: interrumpimos esta revolución: Apache Spark cambia las reglas

Algunos de sus comentarios se referían a cosas como la necesidad de tener un trabajo de streaming con toda la fiabilidad que se da en el mundo por lotes, para aprender a programar de una manera más reflexiva en comparación con las aplicaciones de un solo subproceso, y para elevar el nivel de abstracción. los artesanos de datos parecen estar escuchando, a juzgar por lo que está en su agenda.

flink7.jpg

La evolución del streaming. (Imagen: Artesanos de datos)

Ya mencionamos la introducción de ACID para satisfacer la confiabilidad, que fue impulsada en gran medida por los requisitos de las grandes organizaciones financieras y de comercio electrónico que utilizan la Plataforma de Artesanos de datos. Otra apuesta importante para Flink es el avance hacia la unificación de las API para streaming y batch, en la que Alibaba ha estado trabajando y está a punto de integrarse en la base de código principal de Flink.

También: Vista previa de Spark Summit 2018:

Flink tiene una serie de API: flujos de datos, conjuntos de datos, funciones de proceso, la API de tablas y, últimamente, SQL, que los desarrolladores pueden usar para diferentes aspectos de su procesamiento. Idealmente, a la gente le gustaría usar SQL para todo. Esto no solo simplificaría la vida de los desarrolladores, sino que también haría que Flink fuera más accesible para usuarios no técnicos.

La necesidad de hacer que los artesanos de datos sean sostenibles también puede tener algo que ver con otras decisiones tomadas. El hecho de que la plataforma data Artisans no esté disponible en la nube, por ejemplo, es una diferencia sorprendente con Databricks, que promociona una estrategia solo en la nube para su propia plataforma, jugando la carta de iPaaS.

Pero cuando sus clientes principales son gigantes con su propia infraestructura, como parece ser el caso de los artesanos de datos, ofrecerles una versión en la nube tiene menos sentido. Eso también puede explicar el comentario de Tzoumas cuando dijo que no compiten con los Trucos de datos/Chispas. No es que Flink no sea atractivo para las organizaciones más pequeñas, pero la historia de usar Flink más algo de soporte y consultoría, en lugar de la Plataforma de artesanos de datos, fue una de las que escuchamos más a menudo de ellas.

Data Artisans y Apache Flink en el futuro

Las versiones gemelas de Apache Flink 1.4 y 1.5 fueron del tipo de introducir mejoras poco atractivas, no muy populares, pero muy necesarias. Todo se trataba de opciones de despliegue de producción y estabilidad, y significaba que había que romper la compatibilidad con versiones anteriores. Esta es la razón por la que escuchamos que muchos usuarios siguen rodando con 1.3, a pesar de que las mejoras en 1.6, principalmente en streaming SQL, tentaron a algunos a dar el paso y actualizar.

También: Los 10 principales marcos de big data utilizados en la publicación tecnológica empresarial

Ahora, ese trabajo duro y poco glamuroso ha terminado en su mayoría. Una parte importante que data Artisans pretende abordar es la contenedorización de Flink, o poder usarlo como biblioteca con Docker y Kubernetes, en lo que llaman modo Reactivo.

Otros elementos de la agenda para el futuro cercano incluyen escalado automático, uniones de tablas con versiones temporales (una característica muy necesaria en un mundo donde los datos se actualizan constantemente) y SQL para el análisis de patrones. SQL ha sido ampliado con la capacidad MATCH_RECOGNIZE para este fin, y data Artisans quiere llevar esto a Flink.

Otra dirección interesante es abrirse a Python a través de Apache Beam. Aunque Beam y Flink son conceptualmente bastante cercanos, como señaló Stephan Ewen, CTO de data Artisans, hasta ahora Flink no tenía ningún beneficio tangible que cosechar al estar alineado con Beam. Pero el soporte para Python está cambiando.

Beam está introduciendo un marco a través del cual se pueden admitir API en lenguajes distintos de Java, y Python es el primero. Según la gente de Apache Beam, esto viene sin compromisos insoportables en la velocidad de ejecución en comparación con Java, algo así como el 10 por ciento en los escenarios que han podido probar.

Esto significa que Flink ahora también se puede programar en Python, a través de Beam, lo cual es bastante importante dada la prevalencia de Python para escenarios de ciencia de datos y aprendizaje automático. Ewen reconoció esto, señalando, sin embargo, que no va a renunciar a Java en el corto plazo.

También: Hortonworks presenta una hoja de ruta para hacer que Hadoop sea nativo de la nube

Databricks/Spark, por otro lado, ha tenido soporte para Python durante un tiempo, lo que puede ayudar a explicar lo que percibimos como una amplia diferenciación entre las dos plataformas: Flink se usa más como un motor de estado de procesamiento rápido, con ACID reforzando su posición como el centro de integración para la empresa en tiempo real, mientras que Spark se usa más como una columna vertebral de análisis de ciencia de datos, con la integración de Python y notebook contribuyendo a su popularidad.

por supuesto, hay solapamientos, y las cosas no son tan claras como que. En cualquier caso, vale la pena señalar que data Artisans ACID support está patentado y forma parte de la plataforma data Artisans, lo que significa que, a diferencia de la transmisión con estado, Databricks no podrá introducirlo en su propia plataforma con la misma facilidad. En cualquier caso, Databricks y Spark han estado progresando en su propia trayectoria, y pronto compartiremos más sobre eso.

Cobertura anterior y relacionada:

Cisco integra Spark en Webex, ya que Webex Teams toma todas las funciones de colaboración de Cisco Spark y las ofrece junto con funciones basadas en la plataforma de conferencias Webex.

Esta startup cree que sabe cómo acelerar el análisis en tiempo real de toneladas de datos

Dar sentido a la gran cantidad de datos recopilados por las empresas es un problema para las empresas que Iguazio dice que está resuelto.

Apache Flink: ¿Necesita el mundo otro motor de streaming?

Si bien aún no ha recibido soporte comercial de masa crítica, Apache Flink promete llenar un vacío que no abordan otros motores de transmisión de código abierto: agregar repetición y reversión a su aplicación de transmisión.

Ir con la transmisión: El procesamiento de datos sin límites con Apache Flink

La transmisión está caliente en big data, y Apache Flink es una de las tecnologías clave en este espacio. ¿Qué lo hace diferente, qué nuevas características se incluyen en su última versión y cuál es su papel en la conquista del mundo del big data?

Deja una respuesta

Tu dirección de correo electrónico no será publicada.