The playground

More information here

Fortiden, nåtiden og fremtiden for streaming: Flink, Spark og gjengen

Spark: big data tool du jour får automatisering Streaming er en av de beste trendene vi har holdt tritt med. Den siste episoden i den sagaen var å legge TIL SYRE evner Til Apache Flink, som dekket Av Zdnets Tony Baer i forrige uke. Denne kunngjøringen, laget På Flink Forward I Berlin, var bakteppet for […]

Spark: big data tool du jour får automatisering

Streaming er en av de beste trendene vi har holdt tritt med. Den siste episoden i den sagaen var å legge TIL SYRE evner Til Apache Flink, som dekket Av Zdnets Tony Baer i forrige uke. Denne kunngjøringen, laget På Flink Forward I Berlin, var bakteppet for dybdesamtaler vi hadde med ledere, ingeniører og brukere, noe som kan bidra til å sette ting i sammenheng.Til å begynne Med, Som Baer bemerket, er DET EN API For Flink som kan lastes ned Fra GitHub, men det fungerer bare for en enkelt strøm. Versjonen med» runner » for flere parallelle strømmer er en del av data Artisans Platform-den kommersielle inkarnasjonen Av Flink.

Også: Apache Flink tar ACID

Dette er ikke overraskende, da Data Artisans, leverandøren som gir støtte Til Flink og sysselsetter en stor del av sine heltids bidragsytere, har en åpen kjernepolicy. Det er en veldig vanlig politikk i åpen kildekodeverdenen, og en som data Artisans/Flinks hovedkonkurrent, Databricks / Apache Spark, tar også.

Hvor mange streaming motorer trenger verden?

Som Baer ville si, hvor mange streaming motorer trenger verden? Godt spørsmål, som også kan omformuleres som to oppfølgingsspørsmål: Hvor mange leverandører kan overleve å gjøre hva Data Håndverkere og Databricks gjør, eller hvordan velger du en streaming motor?

svaret på det første spørsmålet er nøyaktig to, på dette punktet: Data Artisans og Databricks. En tredje konkurrent, DataTorrent, Og Apache Apex-motoren, som vi dekket en stund tilbake, gikk mage opp. Virker som den uvanlige» vi vil gjøre noe, inkludert å bygge på konkurrentens motor » – melding, var en siste innsats for å holde seg flytende ved å vedta en tilnærming som er mer egnet til et konsulentfirma enn en leverandør bak et åpen kildekodeprosjekt.

Også: real-time applikasjoner går steder

Uansett, dette betyr at det er en rekke foreldreløse i åpen kildekode streaming løsninger plass nå: Plattformer uten en leverandør for å gi støtte, en herdet versjon, og styre deres utvikling. I Tillegg Til Apex, inneholder listen Også Apache Storm og Apache Samza. Storm er eldre og mer moden Enn Samza, og har også litt støtte fra Hortonworks.Hortonworks kjernevirksomhet er imidlertid ikke streaming, og hvis Du vil bruke Storm og ha bedriftsstøttenivåer, ser det ut til at du må gå for hele Hortonworks-stakken også. Vi vet ikke om Hortonworks har planer Om Å gå Opp For Storm, men vi har ingen slike signaler på dette punktet.

Det finnes også en rekke lukkede løsninger for streaming, men det ser ut til at de har en oppoverbakke kamp å kjempe. De kan ha sine fordeler og kundebase å vise for, men mye av det er basert på eldre kontrakter og relasjoner. I en» prøv før du kjøper», rask, åpen kildekode verden, og et voksende marked for streaming, vil det ikke være lett å vinne nye kontrakter.

Også: Fremtidens Fremtid: Spark Og Big Data Insights

Og så har vi også skyleverandørene, SELVFØLGELIG: AWS med Kinesis, Google Cloud Med Dataflow og Azure med Stream Analytics. Det vanlige motivet spiller også her. Disse motorene kan eller ikke kan være de som passer best til dine behov. Men hvis DU allerede bruker AWS, Google Cloud eller Azure, vil de gjøre det veldig enkelt og fristende for deg å registrere deg og integrere deres streamingløsning i programmene dine.

streaming motorer adopsjon og konkurranse

Diskutere streaming markedet Med Kostas Tzoumas, data Artisans ‘ CEO, Tzoumas var klart om hva han ser som den største konkurransen for Data Artisans: Legacy. Tzoumas forsettlig avstod fra å sammenligne Datahåndverkere / Flink med andre alternativer, og fokuserte i stedet på deres innsats for å nå ut og skalere opp når det gjelder evangelisering og salg.

hans synspunkter gjenklang med mange Flick Frem tjenere, inkludert noen av Data Håndverkere mest høyprofilerte klienter. Delegater med masse teknisk praktisk erfaring fra slike Som Alibaba, Netflix, Og Microsoft, alle understreket at å endre paradigmet og lære å jobbe med streaming er noe de må mestre og spre ordet for hver dag.

Også: vi avbryter denne revolusjonen: Apache Spark endrer reglene

Noen av deres kommentarer var rundt ting som behovet for å ha streaming arbeid med all pålitelighet som er gitt i batchverdenen, for å lære å programmere på en mer gjennomtenkt måte i forhold til enkelttrådede applikasjoner, og å øke abstraksjonsnivået. Data Håndverkere synes å være å lytte, bedømme fra hva som er i sin agenda.

flink7.jpg

utviklingen av streaming. (Bilde: Data Artisans)

vi nevnte allerede innføringen AV SYRE for å imøtekomme pålitelighet, som i stor grad var drevet av kravene til store økonomiske og e-handelsorganisasjoner som bruker data Artisans-Plattformen. En annen stor innsats For Flink er fremgangen mot forening Av Apier for streaming og batch, Som Alibaba har jobbet med og er i ferd med å bli integrert i kjernen Flink kodebase.

Også: Spark Summit 2018 Forhåndsvisning: Putting AI opp foran Flink har en rekke Apier – datastrømmer, datasett, prosessfunksjoner, tabellen API, OG som for sent, SQL, som utviklere kan bruke for ulike aspekter av deres behandling. Ideelt sett vil folk gjerne bruke SQL for alt. Dette vil ikke bare forenkle utviklernes liv, men også Gjøre Flink mer tilnærmet for ikke-tekniske brukere.

behovet for å gjøre Data Håndverkere bærekraftig kan ha noe å gjøre med andre valg gjort også. Det faktum at data Artisans-Plattformen ikke er tilgjengelig i skyen, for eksempel, er en slående forskjell med Databricks, som touts en sky-eneste strategi for sin egen plattform, spiller iPaaS-kortet.Men Når hovedklientene dine er behemoths med egen infrastruktur, som det ser ut til å være tilfelle for Datahåndverkere, gir det mindre mening å tilby dem en skyversjon. Det kan ogsa forklare Tzoumas ‘ kommentar da han sa at de ikke konkurrerer med Databricks/Spark mye. Ikke At Flink ikke er attraktivt for mindre organisasjoner, men historien om Å bruke Flink pluss litt støtte og rådgivning, i stedet for Data Artisans-Plattformen, var en vi hørte oftere fra dem.

Data Artisans og Apache Flink fremover

Apache Flink ‘ s (twin) versjoner 1.4 og 1.5 var av den typen å introdusere noe unglamorøse, ikke veldig populære, men svært nødvendige forbedringer. De var alle om produksjon distribusjon og stabilitet alternativer, og de mente noen bakoverkompatibilitet måtte brytes. Dette er grunnen til at vi hørte mange brukere fortsatt rulle med 1.3, selv om forbedringer i 1.6, for det meste i streaming SQL, fristet noen til å ta sjansen og oppgradere.

Også: de 10 beste big data-rammene som brukes i enterprise TechRepublic

Nå er det harde, unglamorøse arbeidet for det meste over. En viktig del som Data Artisans har som mål å ta opp er containerization Av Flink, eller å kunne bruke den som et bibliotek Med Docker og Kubernetes, i det de kaller Reaktiv modus.Andre elementer i agendaen for nær fremtid inkluderer automatisk skalering, tidsversjonerte tabellkoblinger (en tiltrengt funksjon i en verden der data kontinuerlig oppdateres) og SQL for mønsteranalyse. SQL har blitt extnded MED MATCH_RECOGNIZE-evnen mot dette formål, og Data Artisans ønsker å bringe dette Til Flink.

En annen interessant retning åpner Opp Til Python via Apache Beam. Selv Om Beam og Flink er konseptuelt ganske nær, som Data Håndverkere Cto Stephan Ewen bemerket hittil Flink ikke har noen konkrete fordeler å høste ved å være på linje Med Beam. Men støtte For Python endrer det.

Beam introduserer et rammeverk der Apier på andre språk enn Java kan støttes, Og Python er Den første. Ifølge Apache Beam-folkene kommer dette uten uutholdelige kompromisser i utførelseshastighet sammenlignet Med Java – noe som 10 prosent i scenariene de har kunnet teste.Dette betyr at Flink nå kan programmeres i Python også via Beam, noe som er ganske viktig gitt Utbredelsen Av Python for datavitenskap og maskinlæringsscenarier. Ewen erkjente dette, og bemerker imidlertid at Det ikke er i ferd med å gi Opp Java når som helst snart.Databricks / Spark har derimot hatt støtte for Python for En stund nå, noe som kan bidra til å forklare hva vi oppfatter som en bred differensiering mellom de to plattformene: Flink brukes mer som en rask behandling stateful motor, MED ACID forsterke sin posisjon som integrering hub for real-time enterprise, mens Spark brukes mer som en data science-analytics ryggrad, Med Python og bærbare integrasjon bidrar til sin popularitet.

Selvfølgelig er det overlapper, og ting er ikke så klare som det. I alle fall er det verdt å merke seg at data Artisans ACID support er patentert og en del av data Artisans Platform, noe som betyr at I motsetning til stateful streaming, Vil Databricks ikke kunne introdusere Det i sin egen plattform like enkelt. Uansett, Databricks og Spark har gjort fremskritt på sin egen bane, og vi vil dele mer om det snart.

Tidligere og relatert dekning:

Cisco bretter Spark inn I Webex når Webex Teams

Webex Teams tar alle samarbeidsfunksjonene I Cisco Spark og tilbyr dem sammen med funksjoner basert på Webex-konferanseplattformen.denne oppstarten mener at den vet hvordan man kan få fart på sanntidsanalyse på tonnevis av data Å forstå de store mengdene data samlet inn av bedrifter er et problem for virksomheten som Iguazio sier det er sprukket.

Apache Flink: Trenger verden en annen streaming motor? Mens Det ennå ikke har trukket kommersiell støtte for kritisk masse, Lover Apache Flink å fylle et gap som ikke er adressert av andre streamingmotorer med åpen kildekode: legge til replay og rollback til streamingprogrammet ditt.

Går med strømmen: Ubegrenset databehandling med Apache Flink

Streaming er varmt i store data, Og Apache Flink er En av nøkkelteknologiene i dette rommet. Hva gjør det annerledes, hvilke nye funksjoner er inkludert i sin nyeste utgivelse, og hva er dens rolle i å erobre big data verden?

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.