The playground

More information here

Il passato, il presente e il futuro dello streaming: Flink, Spark e la banda

Spark: Lo strumento di big data du jour sta ottenendo l’automazione Lo streaming è una delle migliori tendenze con cui abbiamo tenuto il passo. L’ultimo episodio di quella saga è stato l’aggiunta di funzionalità ACID per Apache Flink, come coperto da ZDNet Tony Baer la scorsa settimana. Questo annuncio, fatto a Flink Forward a Berlino, […]

Spark: Lo strumento di big data du jour sta ottenendo l’automazione

Lo streaming è una delle migliori tendenze con cui abbiamo tenuto il passo. L’ultimo episodio di quella saga è stato l’aggiunta di funzionalità ACID per Apache Flink, come coperto da ZDNet Tony Baer la scorsa settimana. Questo annuncio, fatto a Flink Forward a Berlino, è stato lo sfondo per le conversazioni approfondite che abbiamo avuto con dirigenti, ingegneri e utenti, che possono aiutare a mettere le cose nel contesto.

Per cominciare, come ha notato Baer, c’è un’API per Flink che può essere scaricata da GitHub, ma funziona solo per un singolo flusso. La versione con il “runner” per più flussi paralleli fa parte della piattaforma data Artisans – l’incarnazione commerciale di Flink.

Inoltre: Apache Flink prende ACID

Questo non è affatto sorprendente, come data Artisans, il fornitore che fornisce supporto per Flink e impiega gran parte dei suoi contributori a tempo pieno ha una politica di base aperta. Questa è una politica molto comune nel mondo open source, e una che data Artisans/Flink’s main competitor, Databricks / Apache Spark, sta anche prendendo.

Di quanti motori di streaming ha bisogno il mondo?

Come direbbe Baer, di quanti motori di streaming ha bisogno il mondo? Buona domanda, che può anche essere riformulato come due domande di follow-up: Quanti fornitori possono sopravvivere facendo ciò che artigiani di dati e Databricks fanno, o come si fa a scegliere un motore di streaming?

La risposta alla prima domanda è esattamente due, a questo punto: data Artisans e Databricks. Un terzo concorrente, DataTorrent, e il suo motore Apache Apex, che abbiamo coperto qualche tempo fa, è andato a pancia in su. Sembra che l’insolito messaggio “faremo qualsiasi cosa, incluso costruire sul motore del nostro concorrente” sia stato un ultimo sforzo per rimanere a galla adottando un approccio più adatto a una consulenza rispetto a un fornitore dietro un progetto open source.

Inoltre: Applicazioni in tempo reale stanno andando posti

In entrambi i casi, questo significa che ci sono un certo numero di orfani nello spazio soluzioni di streaming open-source ora: Piattaforme senza un fornitore per fornire supporto, una versione indurito, e guidare il loro sviluppo. Oltre Apex, l’elenco include anche Apache Storm e Apache Samza. Storm è più vecchio e più maturo di Samza, e ha anche un certo supporto da Hortonworks.

Il core business di Hortonworks non è lo streaming, tuttavia, e se si desidera utilizzare Storm e avere livelli di supporto enterprise, sembra che si dovrà andare per l’intero stack Hortonworks, anche. Non sappiamo se Hortonworks ha in programma di intensificare per Storm, ma non abbiamo tali segnali a questo punto.

Ci sono anche una serie di soluzioni closed-source per lo streaming, ma sembra che abbiano una battaglia in salita da combattere. Possono avere i loro meriti e la base di clienti da mostrare, ma gran parte di ciò si basa su contratti e relazioni legacy. In un “provare prima di acquistare,” veloce, mondo open-source, e un mercato in espansione per lo streaming, vincere nuovi contratti non sarà facile.

Inoltre: Il futuro del futuro: Spark e Big Data Insights

E poi abbiamo anche i fornitori di cloud, ovviamente: AWS con Kinesis, Google Cloud con Dataflow e Azure con Stream Analytics. Il solito motivo gioca anche qui. Questi motori possono o non possono essere quelli più adatti alle vostre esigenze. Ma se stai già utilizzando AWS, Google Cloud o Azure, ti renderanno davvero facile e allettante registrarti e integrare la loro soluzione di streaming nelle tue applicazioni.

Motori di streaming adozione e concorrenza

Discutendo il mercato dello streaming con Kostas Tzoumas, CEO di Data Artisans, Tzoumas è stato chiaro su ciò che vede come la più grande competizione per data Artisans: Legacy. Tzoumas si è astenuto deliberatamente dal confrontare data Artisans / Flink con altre opzioni, concentrandosi invece sui loro sforzi per raggiungere e scalare in termini di evangelizzazione e vendite.

Le sue opinioni risuonavano con molti assistenti Flink in avanti, tra cui alcuni dei dati Artigiani maggior parte dei clienti di alto profilo. Delegati con un sacco di esperienza pratica tecnica da artisti del calibro di Alibaba, Netflix e Microsoft, tutti hanno sottolineato che cambiare il paradigma e imparare a lavorare con lo streaming è qualcosa che devono padroneggiare e diffondere la parola per ogni giorno.

Anche: Interrompiamo questa rivoluzione: Apache Spark cambia le regole

Alcuni dei loro commenti erano intorno a cose come la necessità di far funzionare lo streaming con tutta l’affidabilità che è un dato nel mondo batch, per imparare a programmare in modo più ponderato rispetto alle applicazioni a thread singolo e per aumentare il livello di astrazione. data Artisans sembra essere in ascolto, a giudicare da ciò che è nella sua agenda.

flink7.jpg

L’evoluzione dello streaming. (Immagine: Data Artisans)

Abbiamo già menzionato l’introduzione di ACID per soddisfare l’affidabilità, che è stata in larga misura guidata dalle esigenze delle grandi organizzazioni finanziarie ed eCommerce che utilizzano la piattaforma data Artisans. Un’altra scommessa importante per Flink è l’avanzamento verso l’unificazione delle API per lo streaming e il batch, su cui Alibaba ha lavorato e sta per essere integrato nel core Flink codebase.

Anche: Spark Summit 2018 Anteprima: Mettere l’IA in primo piano

Flink ha un numero di API: flussi di dati, set di dati, funzioni di processo, API della tabella e, di recente, SQL, che gli sviluppatori possono utilizzare per diversi aspetti della loro elaborazione. Idealmente, le persone vorrebbero usare SQL per tutto. Ciò non solo semplificherebbe la vita degli sviluppatori, ma renderebbe Flink più accessibile per gli utenti non tecnici.

La necessità di rendere sostenibili gli artigiani dei dati può avere qualcosa a che fare anche con altre scelte fatte. Il fatto che data Artisans Piattaforma non è disponibile nel cloud, per esempio, è una differenza notevole con Databricks, che bagarini una strategia cloud-only per la propria piattaforma, giocando la carta iPaaS.

Ma quando i tuoi clienti principali sono colossi con la propria infrastruttura, come sembra essere il caso per gli artigiani dei dati, offrire loro una versione cloud ha meno senso. Ciò potrebbe anche spiegare il commento di Tzoumas quando ha detto che non competono molto con Databricks/Spark. Non che Flink non sia attraente per le organizzazioni più piccole, ma la storia dell’utilizzo di Flink più un po ‘ di supporto e consulenza, piuttosto che la piattaforma Data Artisans, è stata quella che abbiamo sentito più spesso da loro.

Data Artisans e Apache Flink going forward

Le versioni (gemelle) di Apache Flink 1.4 e 1.5 erano del tipo di introdurre miglioramenti un po ‘ poco amorosi, non molto popolari, ma altamente necessari. Si trattava di distribuzione della produzione e opzioni di stabilità, e significava che alcune retrocompatibilità dovevano essere interrotte. Questo è il motivo per cui abbiamo sentito molti utenti ancora a rotazione con 1.3, anche se i miglioramenti in 1.6, principalmente in streaming SQL, hanno tentato alcuni di fare il grande passo e l’aggiornamento.

Inoltre: I primi 10 framework di big data utilizzati nell’enterprise TechRepublic

Ora, quel lavoro duro e poco amoroso è per lo più finito. Una parte importante che data Artisans mira ad affrontare è la containerizzazione di Flink, ovvero la possibilità di utilizzarlo come libreria con Docker e Kubernetes, in quella che chiamano modalità reattiva.

Altri elementi all’ordine del giorno per il prossimo futuro includono auto-scaling, time-versioned table join (una caratteristica tanto necessaria in un mondo in cui i dati vengono costantemente aggiornati), e SQL per l’analisi del modello. SQL è stato esteso con la capacità MATCH_RECOGNIZE a tal fine, e data Artisans vuole portare questo a Flink.

Un’altra direzione interessante è l’apertura a Python tramite Apache Beam. Sebbene Beam e Flink siano concettualmente piuttosto vicini, come ha osservato il CTO degli artigiani dei dati Stephan Ewen fino ad ora Flink non ha avuto alcun beneficio tangibile da trarre essendo allineato con Beam. Ma il supporto per Python sta cambiando questo.

Beam sta introducendo un framework attraverso il quale possono essere supportate API in linguaggi diversi da Java e Python è il primo. Secondo le persone Apache Beam, questo arriva senza compromessi insopportabili nella velocità di esecuzione rispetto a Java-qualcosa come il 10% negli scenari che sono stati in grado di testare.

Ciò significa che Flink può ora essere programmato anche in Python, tramite Beam, che è piuttosto importante data la prevalenza di Python per la scienza dei dati e gli scenari di apprendimento automatico. Ewen ha riconosciuto questo, notando, tuttavia, che non è in procinto di rinunciare Java in qualunque momento presto.

Inoltre: Hortonworks svela roadmap per rendere Hadoop cloud-native

Databricks / Spark d’altra parte ha avuto il supporto per Python per un po ‘ di tempo, che può aiutare a spiegare ciò che percepiamo come un’ampia differenziazione tra le due piattaforme: Flink è usato più come un motore di elaborazione veloce stateful, con ACID rafforzando la sua posizione come l’hub di integrazione per l’impresa in tempo reale, mentre Spark è usato più come una scienza dei dati backbone backbone analytics, con Python e integrazione notebook contribuendo alla sua popolarità.

Naturalmente, ci sono sovrapposizioni e le cose non sono così chiare come quella. In ogni caso, vale la pena notare che il supporto ACID Data Artisans è brevettato e parte della piattaforma data Artisans, il che significa che a differenza dello streaming stateful, Databricks non sarà in grado di introdurlo nella propria piattaforma con la stessa facilità. Indipendentemente da ciò, Databricks e Spark hanno fatto progressi sulla propria traiettoria, e presto condivideremo di più su questo.

Copertura precedente e correlata:

Cisco ripiega Spark in Webex come Webex Teams

Webex Teams prende tutte le funzionalità di collaborazione in Cisco Spark e le offre insieme alle funzionalità basate sulla piattaforma di conferenza Webex.

Questa startup pensa di sapere come accelerare l’analisi in tempo reale su tonnellate di dati

Dare un senso alle grandi quantità di dati raccolti dalle aziende è un problema per le imprese che Iguazio dice che è incrinato.

Apache Flink: il mondo ha bisogno di un altro motore di streaming?

Mentre deve ancora trarre supporto commerciale di massa critica, Apache Flink promette di colmare una lacuna non affrontata da altri motori di streaming open source: l’aggiunta di replay e rollback alla vostra applicazione di streaming.

Andare con lo stream: elaborazione dati illimitata con Apache Flink

Lo streaming è caldo nei big data e Apache Flink è una delle tecnologie chiave in questo spazio. Cosa lo rende diverso, quali nuove funzionalità sono incluse nella sua ultima versione e qual è il suo ruolo nella conquista del mondo dei big data?

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.