The playground

More information here

Het verleden, heden en de toekomst van streaming: Flink, Spark en de bende

Spark: het big data-gereedschap van de dag krijgt automatisering Streaming is een van de belangrijkste trends die we hebben bijgehouden. De laatste aflevering in die saga werd het toevoegen van zuur mogelijkheden Apache Flink, zoals gedekt door ZDNet ‘ s Tony Baer vorige week. Deze aankondiging, gedaan op Flink Forward in Berlijn, was de achtergrond […]

Spark: het big data-gereedschap van de dag krijgt automatisering

Streaming is een van de belangrijkste trends die we hebben bijgehouden. De laatste aflevering in die saga werd het toevoegen van zuur mogelijkheden Apache Flink, zoals gedekt door ZDNet ‘ s Tony Baer vorige week. Deze aankondiging, gedaan op Flink Forward in Berlijn, was de achtergrond voor diepgaande gesprekken die we hadden met leidinggevenden, ingenieurs en gebruikers, die kunnen helpen om dingen in context te plaatsen.

om te beginnen, zoals Baer opmerkte, is er een API voor Flink die kan worden gedownload van GitHub, maar het werkt alleen voor een enkele stream. De versie met de “runner” voor meerdere parallelle streams maakt deel uit van het data Artisans Platform – de commerciële incarnatie van Flink.

ook: Apache Flink neemt ACID

Dit is helemaal niet verwonderlijk, omdat data Artisans, de leverancier die ondersteuning biedt voor Flink en een groot deel van zijn fulltime medewerkers in dienst heeft, een open core beleid heeft. Dat is een heel algemeen beleid in de open source wereld, en een die data Artisans/Flink ‘ s belangrijkste concurrent, Databricks / Apache Spark, is ook het nemen van.

hoeveel streaming engines heeft de wereld nodig?

zoals Baer zou zeggen, hoeveel streaming engines heeft de wereld nodig? Goede vraag, die ook kan worden geherformuleerd als twee follow-up vragen: hoeveel leveranciers kunnen overleven doen wat data ambachtslieden en Databricks doen, of hoe kies je een streaming engine?

het antwoord op de eerste vraag is precies twee, op dit punt: data Artisans en Databricks. Een derde concurrent, DataTorrent, en zijn Apache Apex engine, die we een tijdje terug gedekt, ging failliet. Het lijkt erop dat de ongebruikelijke” we zullen alles doen, met inbegrip van het bouwen op de motor van onze concurrent ” boodschap was een laatste poging om te blijven drijven door het aannemen van een aanpak meer geschikt voor een consultancy dan een leverancier achter een open source project.

ook: Real-time applicaties gaan naar plaatsen

hoe dan ook, dit betekent dat er nu een aantal weeskinderen in de open-source Streaming solutions ruimte zijn: Platforms zonder een leverancier om ondersteuning te bieden, een geharde versie, en hun ontwikkeling te sturen. Naast Apex bevat de lijst ook Apache Storm en Apache Samza. Storm is ouder en volwassener dan Samza, en heeft ook wat steun van Hortonworks.

Hortonworks’ core business is echter geen streaming, en als je Storm wilt gebruiken en enterprise support levels wilt hebben, lijkt het erop dat je ook voor de hele Hortonworks stack moet gaan. We weten niet of Hortonworks plannen heeft om op te staan voor Storm, maar we hebben geen dergelijke signalen op dit punt.

er zijn ook een aantal closed-source oplossingen voor streaming, maar het lijkt erop dat ze een zware strijd te voeren hebben. Ze kunnen hun verdiensten en klantenbestand te laten zien voor, maar veel van dat is gebaseerd op oude contracten en relaties. In een “try before you buy,” snelle, open-source wereld, en een groeiende markt voor streaming, het winnen van nieuwe contracten zal niet gemakkelijk zijn.

ook: The Future of the Future: Spark and Big Data Insights

en dan hebben we natuurlijk ook de cloudleveranciers: AWS met Kinesis, Google Cloud met Dataflow en Azure met Stream Analytics. Het gebruikelijke motief speelt zich hier ook af. Deze motoren kunnen wel of niet het meest geschikt zijn voor uw behoeften. Maar als je al AWS, Google Cloud of Azure gebruikt, maken ze het heel gemakkelijk en verleidelijk voor je om je aan te melden en hun streaming-oplossing te integreren in je applicaties.in overleg met Kostas Tzoumas, CEO van data Artisans, was Tzoumas duidelijk over wat hij ziet als de grootste competitie voor data Artisans: Legacy. Tzoumas bewust afgezien van het vergelijken van data ambachtslieden / Flink om andere opties, gericht in plaats daarvan op hun inspanningen om uit te reiken en schaal omhoog in termen van evangeliseren en verkoop.

zijn visie resoneerde met veel Flink Forward attendants, waaronder enkele van data Artisans meest spraakmakende klanten. Afgevaardigden met veel technische hands-on ervaring van de wil van Alibaba, Netflix, en Microsoft, Alle benadrukt dat het veranderen van het paradigma en leren werken met streaming is iets wat ze moeten beheersen en verspreiden het woord voor elke dag.

ook: We onderbreken deze revolutie: Apache Spark verandert de regels

sommige van hun opmerkingen gingen over zaken zoals de noodzaak om streaming werk te hebben met alle betrouwbaarheid die een gegeven is in de batch wereld, om te leren programmeren op een meer doordachte manier in vergelijking met single-threaded applicaties, en om het abstractieniveau te verhogen. data Artisans lijkt te luisteren, te oordelen naar wat er in de agenda staat.

flink7.jpg

De evolutie van streaming. (Afbeelding: Data Artisans)

We hadden het al over de invoering van ACID voor betrouwbaarheid, die in grote mate werd gedreven door de behoeften van grote financiële en e-commerce organisaties die het data Artisans Platform gebruiken. Een andere grote inzet voor Flink is de vooruitgang in de richting van de eenwording van API ‘ s voor streaming en batch, die Alibaba heeft gewerkt aan en staat op het punt te worden geïntegreerd in de kern Flink codebase.

ook: Spark Summit 2018 voorbeeld: Ai vooraan zetten

Flink heeft een aantal API ‘ s — datastromen, datasets, procesfuncties, de table API, en sinds kort SQL, die ontwikkelaars kunnen gebruiken voor verschillende aspecten van hun verwerking. Idealiter zouden mensen SQL voor alles willen gebruiken. Dit zou niet alleen het leven van ontwikkelaars vereenvoudigen, maar ook Flink toegankelijker maken voor niet-technische gebruikers.

de noodzaak om Datakunstenaars duurzaam te maken kan ook iets te maken hebben met andere gemaakte keuzes. Het feit dat data Artisans Platform is niet beschikbaar in de cloud, bijvoorbeeld, is een opvallend verschil met Databricks, die touts een cloud-only strategie voor zijn eigen platform, het spelen van de iPaaS-kaart.

maar wanneer uw belangrijkste clients kolossen zijn met hun eigen infrastructuur, zoals het geval lijkt te zijn voor data Artisans, is het aanbieden van een cloudversie minder zinvol. Dat kan ook verklaren tzoumas ‘ commentaar toen hij zei dat ze niet concurreren met Databricks/Spark veel. Niet dat Flink niet aantrekkelijk is voor kleinere organisaties, maar het verhaal van het gebruik van Flink plus wat ondersteuning en advies, in plaats van het data Artisans Platform, was er een die we vaker van hen hoorden.

data Artisans and Apache Flink going forward

Apache Flink ‘ s (twin) versies 1.4 en 1.5 waren van het soort dat enigszins onglamorous introduceerde, niet erg populair, maar zeer noodzakelijke verbeteringen. Ze waren allemaal over productie-implementatie en stabiliteit opties, en ze betekende dat sommige backwards compatibiliteit moest worden gebroken. Dit is de reden waarom we hoorden veel gebruikers nog steeds rollen met 1.3, hoewel verbeteringen in 1.6, meestal in streaming SQL, verleidde sommigen om de sprong te wagen en te upgraden.

ook: de top 10 big data frameworks gebruikt in de enterprise TechRepublic

nu, dat harde, unglamorous werk is meestal voorbij. Een belangrijk onderdeel dat data ambachtslieden wil aanpakken is de containerisatie van Flink, of de mogelijkheid om het te gebruiken als een bibliotheek met Docker en Kubernetes, in wat ze noemen reactieve modus.

andere punten in de agenda voor de nabije toekomst zijn automatische schaling, tijdversiegedetailleerde tabel joins (een broodnodige functie in een wereld waar data voortdurend wordt bijgewerkt), en SQL voor patroonanalyse. SQL is geëxtnded met de MATCH_RECOGNIZE-mogelijkheid in deze richting, en data Artisans wil dit naar Flink brengen.

een andere interessante richting is het openen van Python via Apache Beam. Hoewel Beam en Flink conceptueel vrij dicht bij elkaar liggen, had Flink, zoals CTO Stephan Ewen tot nu toe opmerkte, geen tastbare voordelen door op Beam te worden afgestemd. Maar ondersteuning voor Python verandert dat.

Beam introduceert een framework waarmee API ‘ s in andere talen dan Java kunnen worden ondersteund, en Python is de eerste. Volgens de Apache Beam mensen, dit komt zonder ondraaglijke compromissen in uitvoeringssnelheid in vergelijking met Java-ongeveer 10 procent in de scenario ‘ s die ze hebben kunnen testen.

Dit betekent dat Flink nu ook in Python kan worden geprogrammeerd, via Beam, wat nogal belangrijk is gezien de prevalentie van Python voor Data science en machine learning scenario ‘ s. Ewen erkende dit, maar merkt op dat het niet van plan is om Java op elk moment snel op te geven.

ook: Hortonworks onthult roadmap om Hadoop cloud-native

Databricks/Spark aan de andere kant heeft ondersteuning voor Python voor een tijdje nu, die kan helpen verklaren wat we waarnemen als een brede differentiatie tussen de twee platforms: Flink wordt meer gebruikt als een snelle verwerking stateful engine, met ACID versterking van de positie als de integratie hub voor de real-time enterprise, terwijl Spark wordt meer gebruikt als een data science-analytics backbone, met Python en notebook integratie bijdragen aan de populariteit.

natuurlijk zijn er overlappingen, en dingen zijn niet zo duidelijk als dat. In ieder geval is het vermeldenswaard dat data Artisans ACID support is gepatenteerd en onderdeel van data Artisans Platform, wat betekent dat in tegenstelling tot stateful streaming, Databricks niet in staat zal zijn om het te introduceren in zijn eigen platform zo gemakkelijk. Hoe dan ook, Databricks en Spark hebben vooruitgang geboekt op hun eigen traject, en we zullen binnenkort meer over dat delen.

vorige en gerelateerde dekking:

Cisco vouwt Spark in Webex als Webex-Teams

Webex-Teams neemt alle samenwerkingsfuncties in Cisco Spark en biedt ze samen met functies op basis van het WebEx-conferentieplatform.

deze startup denkt dat het weet hoe te versnellen real-time analytics op tonnen data

zin maken van de enorme hoeveelheden gegevens verzameld door bedrijven is een probleem voor het bedrijfsleven dat Iguazio zegt dat het is gekraakt.

Apache Flink: heeft de wereld een andere Streaming engine nodig?

hoewel het nog geen kritische massa commerciële ondersteuning heeft, belooft Apache Flink een gat te vullen dat niet wordt aangepakt door andere open source streaming engines: het toevoegen van replay en rollback aan uw streaming applicatie.

gaan met de stream: onbegrensde gegevensverwerking met Apache Flink

Streaming is hot in big data, en Apache Flink is een van de belangrijkste technologieën in deze ruimte. Wat maakt het anders, welke nieuwe functies zijn opgenomen in de nieuwste release, en wat is de rol ervan in het veroveren van de big data wereld?

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.