The playground

More information here

Det förflutna, nutiden och framtiden för streaming: Flink, Spark och gänget

Spark: big data tool du jour får automatisering Streaming är en av de bästa trenderna vi har hållit på med. Det senaste avsnittet i den sagan var att lägga till SYRAFUNKTIONER till Apache Flink, som omfattas av ZDNets Tony Baer förra veckan. Detta tillkännagivande, som gjordes på Flink Forward I Berlin, var bakgrunden för djupgående […]

Spark: big data tool du jour får automatisering

Streaming är en av de bästa trenderna vi har hållit på med. Det senaste avsnittet i den sagan var att lägga till SYRAFUNKTIONER till Apache Flink, som omfattas av ZDNets Tony Baer förra veckan. Detta tillkännagivande, som gjordes på Flink Forward I Berlin, var bakgrunden för djupgående samtal vi hade med chefer, ingenjörer och användare, vilket kan hjälpa till att sätta saker i sammanhang.

till att börja med, som Baer noterade, finns det ett API för Flink som kan laddas ner från GitHub, men det fungerar bara för en enda ström. Versionen med” runner ” för flera parallella strömmar är en del av data Artisans – plattformen-den kommersiella inkarnationen av Flink.

också: Apache Flink tar ACID

detta är inte alls förvånande, eftersom datahantverkare, säljaren som ger stöd för Flink och använder en stor del av sina heltidsbidragsgivare har en öppen kärnpolicy. Det är en mycket gemensam politik i open source-världen, och en som data Artisans/Flinks huvudkonkurrent, Databricks / Apache Spark, tar också.

hur många strömmande motorer behöver världen?

som Baer skulle säga, hur många strömmande motorer behöver världen? Bra fråga, som också kan omformuleras som två uppföljningsfrågor: hur många leverantörer kan överleva att göra vad Datahantverkare och Databricks gör, eller hur väljer du en streamingmotor?

svaret på den första frågan är exakt två, just nu: Datahantverkare och Databricks. En tredje konkurrent, DataTorrent, och dess Apache Apex-motor, som vi täckte ett tag tillbaka, gick magen upp. Verkar som det ovanliga” vi ska göra någonting inklusive att bygga på vår konkurrents motor ” – meddelande var en sista ansträngning för att hålla sig flytande genom att anta ett tillvägagångssätt som är mer lämpligt för ett konsultföretag än en leverantör bakom ett open source-projekt.

också: realtidsapplikationer går platser

hur som helst, det betyder att det finns ett antal föräldralösa barn i Open source-strömningslösningsutrymmet nu: plattformar utan leverantör för att ge support, en härdad version och styra deras utveckling. Förutom Apex innehåller listan också Apache Storm och Apache Samza. Storm är äldre och mogenare än Samza, och har också lite stöd från Hortonworks.

Hortonworks kärnverksamhet strömmar dock inte, och om du vill använda Storm och ha företagsstödnivåer verkar det som om du måste gå för hela Hortonworks-stacken också. Vi vet inte om Hortonworks har planer på att stiga upp för Storm, men vi har inga sådana Signaler just nu.

det finns också ett antal slutna källlösningar för streaming, men det ser ut som om de har en uppförsbacke att slåss. De kan ha sina meriter och kundbas att visa för, men mycket av det är baserat på äldre kontrakt och relationer. I en” try before you buy”, snabb, öppen källkodsvärld och en växande marknad för streaming, kommer det inte att bli lätt att vinna nya kontrakt.

också: framtidens framtid: Spark och Big Data Insights

och då har vi också molnleverantörerna, naturligtvis: AWS med Kinesis, Google Cloud med Dataflow och Azure med Stream Analytics. Det vanliga motivet spelar också här. Dessa motorer kanske eller kanske inte är de som passar bäst för dina behov. Men om du redan använder AWS, Google Cloud eller Azure kommer de att göra det väldigt enkelt och frestande för dig att registrera dig och integrera deras streaminglösning i dina applikationer.

Streaming engines adoption and competition

diskutera streamingmarknaden med Kostas Tzoumas, data Artisans VD, tzoumas var tydlig om vad han ser som den största konkurrensen om data Artisans: Legacy. Tzoumas avstod medvetet från att jämföra Datahantverkare / Flink med andra alternativ och fokuserade istället på deras ansträngningar att nå ut och skala upp när det gäller evangelisering och försäljning.

hans åsikter resonerade med många Flink framåt skötare, inklusive några av data hantverkare mest högprofilerade kunder. Delegater med massor av teknisk praktisk erfarenhet från Alibaba, Netflix och Microsoft betonade alla att förändring av paradigmet och att lära sig att arbeta med streaming är något de måste behärska och sprida ordet för varje dag.

också: vi avbryter denna revolution: Apache Spark ändrar reglerna

några av deras kommentarer handlade om saker som behovet av att ha strömmande arbete med all den tillförlitlighet som är en given i batchvärlden, att lära sig att programmera på ett mer tankeväckande sätt jämfört med enkeltrådade applikationer och att höja abstraktionsnivån. datahantverkare verkar lyssna och döma av vad som står på agendan.

flink7.jpg

utvecklingen av streaming. (Bild: Data Artisans)

vi nämnde redan införandet av ACID för att tillgodose tillförlitlighet, vilket i stor utsträckning drivs av kraven från stora finansiella och e-handelsorganisationer som använder data Artisans-plattformen. En annan stor satsning för Flink är förskottet mot enandet av API: er för streaming och batch, som Alibaba har arbetat med och håller på att integreras i Core Flink-kodbasen.

också: Spark Summit 2018 förhandsvisning: Att sätta AI på framsidan

Flink har ett antal API: er-dataströmmar, dataset, processfunktioner, tabellens API och senast SQL, vilka utvecklare kan använda för olika aspekter av deras bearbetning. Helst skulle folk vilja använda SQL för allt. Detta skulle inte bara förenkla utvecklarnas liv utan också göra Flink mer tillgänglig för icke-tekniska användare.

behovet av att göra Datahantverkare hållbara kan ha något att göra med andra val som gjorts också. Det faktum att data Artisans-plattformen inte är tillgänglig i molnet är till exempel en slående skillnad med Databricks, som visar en molnstrategi för sin egen plattform och spelar iPaaS-kortet.

men när dina huvudkunder är behemoths med sin egen infrastruktur, som verkar vara fallet för Datahantverkare, erbjuder dem en molnversion mindre mening. Det kan också förklara Tzoumas kommentar när han sade att de inte konkurrerar med Databricks/gnista mycket. Inte för att Flink inte är attraktivt för mindre organisationer, men historien om att använda Flink plus lite stöd och rådgivning, snarare än data Artisans-plattformen, var en vi hörde oftare från dem.

Data Artisans och Apache Flink går framåt

Apache Flinks (twin) versioner 1.4 och 1.5 var av det slag att introducera något unglamorösa, inte särskilt populära, men mycket nödvändiga förbättringar. De handlade om produktionsutplacering och stabilitetsalternativ, och de innebar att en del bakåtkompatibilitet måste brytas. Det är därför vi hörde många användare fortfarande rullar med 1.3, även om förbättringar i 1.6, mestadels i streaming SQL, frestade några att ta steget och uppgradera.

också: de 10 bästa big data-ramarna som används i enterprise TechRepublic

Nu är det hårda, oglamorösa arbetet mestadels över. En viktig del som data hantverkare syftar till att ta itu med är containerisering av Flink, eller att kunna använda den som ett bibliotek med Docker och Kubernetes, i vad de kallar reaktivt läge.

andra punkter i dagordningen för den närmaste framtiden inkluderar automatisk skalning, tidsversionerade tabellkopplingar (en välbehövlig funktion i en värld där data ständigt uppdateras) och SQL för mönsteranalys. SQL har utökats med MATCH_RECOGNIZE-förmågan mot detta ändamål, och datahantverkare vill föra detta till Flink.

en annan intressant riktning öppnar upp till Python via Apache Beam. Även Beam och Flink är konceptuellt ganska nära, som data hantverkare CTO Stephan Ewen noterade hittills Flink inte har några påtagliga fördelar att skörda genom att vara i linje med Beam. Men stöd för Python förändrar det.

Beam introducerar ett ramverk genom vilket API: er på andra språk än Java kan stödjas, och Python är den första. Enligt Apache Beam-folket kommer detta utan outhärdliga kompromisser i exekveringshastighet jämfört med Java-något som 10 procent i de scenarier de har kunnat testa.

detta innebär att Flink nu kan programmeras i Python också via Beam, vilket är ganska viktigt med tanke på förekomsten av Python för datavetenskap och maskininlärningsscenarier. Ewen erkände detta och noterade dock att det inte handlar om att ge upp Java när som helst snart.

också: Hortonworks avslöjar färdplan för att göra Hadoop cloud-native

Databricks / Spark å andra sidan har haft stöd för Python ett tag nu, vilket kan hjälpa till att förklara vad vi uppfattar som en bred differentiering mellan de två plattformarna: Flink används mer som en snabb bearbetning stateful motor, med ACID förstärker sin position som integration nav för realtidsföretag, medan Spark används mer som en Data science — analytics ryggrad, med Python och notebook integration bidrar till dess popularitet.

naturligtvis finns det överlappningar, och saker är inte så tydliga som det. I vilket fall som helst är det värt att notera att data Artisans ACID support är patenterad och en del av data Artisans Platform, vilket innebär att Databricks till skillnad från stateful streaming inte kommer att kunna introducera den i sin egen plattform lika lätt. Oavsett, Databricks och Spark har gjort framsteg på sin egen bana, och vi kommer att dela mer om det snart.

tidigare och relaterad täckning:

Cisco lägger Spark i Webex som Webex Teams

Webex Teams tar alla samarbetsfunktioner i Cisco Spark och erbjuder dem tillsammans med funktioner baserade på WebEx konferensplattform.

denna start tycker att den vet hur man påskyndar realtidsanalys på massor av data

att förstå de stora mängder data som samlas in av företag är ett problem för företag som Iguazio säger att det är knäckt.

Apache Flink: behöver världen en annan streamingmotor?

Även om det ännu inte har dragit kommersiellt stöd för kritisk massa, lovar Apache Flink att fylla ett gap som inte behandlas av andra open source-streamingmotorer: lägga till replay och rollback till din streamingapplikation.

går med strömmen: obegränsad databehandling med Apache Flink

Streaming är hett i big data, och Apache Flink är en av de viktigaste teknikerna i detta utrymme. Vad gör det annorlunda, vilka nya funktioner ingår i den senaste versionen och vad är dess roll för att erövra big data-världen?

Lämna ett svar

Din e-postadress kommer inte publiceras.