The playground

More information here

Fortiden, nutiden og fremtiden for streaming: Flink, Spark og banden

Spark: big data tool du jour får automatisering Streaming er en af de bedste tendenser, vi har fulgt med. Den seneste episode i den saga tilføjede SYREKAPACITETER til Apache Flink, som dækket af Tony Baer i sidste uge. Denne meddelelse, lavet på Flink fremad i Berlin, var baggrunden for dybdegående samtaler, vi havde med ledere, […]

Spark: big data tool du jour får automatisering

Streaming er en af de bedste tendenser, vi har fulgt med. Den seneste episode i den saga tilføjede SYREKAPACITETER til Apache Flink, som dækket af Tony Baer i sidste uge. Denne meddelelse, lavet på Flink fremad i Berlin, var baggrunden for dybdegående samtaler, vi havde med ledere, ingeniører, og brugere, som kan hjælpe med at sætte tingene i sammenhæng.

til at begynde med, som Baer bemærkede, er der en API til Flink, der kan hentes fra GitHub, men det virker kun for en enkelt strøm. Versionen med” runner ” til flere parallelle strømme er en del af data Artisans – platformen-den kommercielle inkarnation af Flink.

også: Apache Flink tager syre

Dette er slet ikke overraskende, da datahåndværkere, sælgeren, der yder support til Flink og beskæftiger en stor del af sine fuldtidsbidragere, har en åben kernepolitik. Det er en meget almindelig politik i open source-verdenen, og en, som data Artisans/Flinks hovedkonkurrent, Databricks / Apache Spark, også tager.

hvor mange streamingmotorer har verden brug for?

som Baer ville sige, hvor mange streamingmotorer har verden brug for? Godt spørgsmål, som også kan omformuleres som to opfølgende spørgsmål: hvor mange leverandører kan overleve, hvad datahåndværkere og Databricks gør, eller hvordan vælger du en streamingmotor?

svaret på det første spørgsmål er nøjagtigt to, på dette tidspunkt: Datahåndværkere og Databricks. En tredje konkurrent, DataTorrent, og dens Apache toppunkt motor, som vi dækkede et stykke tid tilbage, gik mave op. Det ser ud til, at den usædvanlige “vi vil gøre alt, herunder at bygge på vores konkurrents motor” – meddelelse, var en sidste indsats for at holde sig flydende ved at vedtage en tilgang, der er mere egnet til et konsulentfirma end en leverandør bag et open source-projekt.

også: realtidsapplikationer går steder

uanset hvad betyder det, at der er et antal forældreløse børn i open source streaming solutions-rummet nu: platforme uden en leverandør til at yde support, en hærdet version og styre deres udvikling. Udover toppen, listen inkluderer også Apache Storm og Apache Samsa. Storm er ældre og mere moden end samsa, og har også en vis støtte fra Horton.hvis du vil bruge Storm og have enterprise support niveauer, ser det ud til, at du bliver nødt til at gå til hele Horton-stakken også. Vi ved ikke, om Horton har planer om at træde op for Storm, men vi har ikke sådanne signaler på dette tidspunkt.

der er også en række lukkede kildeløsninger til streaming, men det ser ud til, at de har en opadgående kamp at kæmpe. De kan have deres fordele og kundebase at vise for, men meget af det er baseret på ældre kontrakter og relationer. I en” Prøv før du køber”, hurtig, open source-verden og et ekspanderende marked for streaming, vil det ikke være let at vinde nye kontrakter.

også: fremtidens fremtid: Spark og Big Data Insights

og så har vi også cloud-leverandørerne, selvfølgelig: Google Cloud med datastrøm og blå med Stream Analytics. Det sædvanlige motiv spiller også her. Disse motorer er måske eller måske ikke dem, der passer bedst til dine behov. Men hvis du allerede bruger Google Cloud eller Google Cloud, vil de gøre det virkelig nemt og fristende for dig at tilmelde dig og integrere deres streamingløsning i dine applikationer.

Streaming engines adoption and competition

diskussion af streamingmarkedet med Kostas Tsoumas, data Artisans’ CEO, Tsoumas var klar over, hvad han ser som den største konkurrence for Datahåndværkere: arv. Tsoumas afstod bevidst fra at sammenligne Datahåndværkere / Flink med andre muligheder og fokuserede i stedet på deres bestræbelser på at nå ud og skalere op med hensyn til evangelisering og salg.

hans synspunkter genklang med mange Flink fremad ledsagere, herunder nogle af data håndværkere mest højt profilerede kunder. Delegater med masser af teknisk praktisk erfaring fra Alibaba, Microsoft og Microsoft understregede alle, at det at ændre paradigmet og lære at arbejde med streaming er noget, de er nødt til at mestre og sprede ordet for hver dag.

også: vi afbryder denne revolution: Apache Spark ændrer reglerne

Nogle af deres kommentarer var omkring ting som behovet for at have streaming arbejde med al den pålidelighed, der er givet i batchverdenen, at lære at programmere på en mere tankevækkende måde sammenlignet med enkelttrådede applikationer og at hæve abstraktionsniveauet. datahåndværkere ser ud til at lytte og dømme ud fra, hvad der er på dagsordenen.

flink7.jpg

udviklingen af streaming. (Billede: Data håndværkere)

vi nævnte allerede introduktionen af syre for at imødekomme pålidelighed, som i vid udstrækning var drevet af kravene fra store finansielle og e-handelsorganisationer, der bruger data håndværkere Platform. En anden stor indsats for Flink er fremskridt mod forening af API ‘ er til streaming og batch, som Alibaba har arbejdet på og er ved at blive integreret i core Flink-kodebasen.

også: Spark Summit 2018 forhåndsvisning: At sætte AI foran

Flink har en række API ‘ er-datastrømme, datasæt, procesfunktioner, tabel API og som for sent, hvilke udviklere kan bruge til forskellige aspekter af deres behandling. Ideelt set vil folk gerne bruge CCL til alt. Dette ville ikke kun forenkle udviklernes liv, men også gøre Flink mere tilgængelig for ikke-tekniske brugere.

behovet for at gøre Datahåndværkere bæredygtige kan også have noget at gøre med andre valg. Det faktum, at data Artisans-platformen ikke er tilgængelig i skyen, er for eksempel en slående forskel med Databricks, der viser en cloud-only-strategi for sin egen platform, der spiller iPaaS-kortet.

men når dine hovedkunder er behemoter med deres egen infrastruktur, som det ser ud til at være tilfældet for Datahåndværkere, giver det mindre mening at tilbyde dem en skyversion. Det kan også forklare Tsoumas’ kommentar, da han sagde, at de ikke konkurrerer med Databricks/Spark meget. Ikke at Flink ikke er attraktivt for mindre organisationer, men historien om at bruge Flink plus en vis support og rådgivning, snarere end data Artisans-platformen, var en, vi hørte oftere fra dem.

Data håndværkere og Apache Flink fremad

Apache Flinks (to) versioner 1.4 og 1.5 var af den slags at introducere noget uglamorøse, ikke meget populære, men meget nødvendige forbedringer. De handlede om produktionsudrulning og stabilitetsmuligheder, og de betød, at en vis bagudkompatibilitet måtte brydes. Dette er grunden til, at vi hørte mange brugere stadig rulle med 1.3, selvom forbedringer i 1.6, hovedsagelig i streaming kvm, fristede nogle til at tage springet og opgradere.

også: de top 10 big data-rammer, der bruges i enterprise TechRepublic

nu er det hårde, uglamorøse arbejde for det meste forbi. En vigtig del, som Datahåndværkere sigter mod at adressere, er containerisering af Flink eller at være i stand til at bruge det som et bibliotek med Docker og Kubernetes, i det, de kalder reaktiv tilstand.

andre punkter på dagsordenen for den nærmeste fremtid inkluderer automatisk skalering, tidsversionerede tabelforbindelser (en meget tiltrængt funktion i en verden, hvor data konstant opdateres) og kvm til mønsteranalyse. Det er blevet udvidet med MATCH_GENKENDELSESKAPACITETEN mod dette formål, og data håndværkere ønsker at bringe dette til Flink.

en anden interessant retning åbner op til Python via Apache Beam. Selvom Beam og Flink er konceptuelt temmelig tæt, som Datahåndværkere CTO Stephan Yven bemærkede indtil nu, havde Flink ikke nogen håndgribelige fordele at høste ved at være på linje med Beam. Men støtte til Python ændrer det.

Beam introducerer en ramme, hvorigennem API ‘ er på andre sprog end Java kan understøttes, og Python er den første. Ifølge Apache Beam-folkene kommer dette uden uudholdelige kompromiser i eksekveringshastighed sammenlignet med Java-noget som 10 procent i de scenarier, de har været i stand til at teste.

dette betyder, at Flink nu også kan programmeres i Python via Beam, hvilket er ret vigtigt i betragtning af forekomsten af Python til datavidenskab og maskinindlæringsscenarier. Yven erkendte dette og bemærkede dog, at det ikke er ved at opgive Java når som helst snart.

også: Hortonværk afslører køreplan for at gøre Hadoop cloud-native

Databricks / Spark har på den anden side haft støtte til Python i et stykke tid nu, hvilket kan hjælpe med at forklare, hvad vi opfatter som en bred differentiering mellem de to platforme: Flink bruges mere som en hurtig behandling stateful motor, med syre styrke sin position som integration hub for real-time virksomhed, mens Spark bruges mere som en data science-analytics rygrad, med Python og notebook integration bidrager til dens popularitet.

selvfølgelig er der overlapninger, og tingene er ikke så klare som det. Under alle omstændigheder er det værd at bemærke, at data Artisans ACID support er patenteret og en del af data Artisans Platform, hvilket betyder, at Databricks i modsætning til stateful streaming ikke vil være i stand til at introducere det på sin egen platform så let. Uanset, Databricks og Spark har gjort fremskridt på deres egen bane, og vi vil dele mere om det snart.

tidligere og relateret dækning:

Cisco folder Spark ind i Teams tager alle samarbejdsfunktionerne i Cisco Spark og tilbyder dem sammen med funktioner baseret på hjemmesiden.

denne opstart mener, at den ved, hvordan man fremskynder realtidsanalyse på tonsvis af data

at give mening om de store mængder data, der indsamles af virksomheder, er et problem for erhvervslivet, som Iguasio siger, at det er revnet.Apache Flink: har verden brug for en anden streamingmotor?

selvom det endnu ikke har trukket kritisk massekommerciel support, lover Apache Flink at udfylde et hul, der ikke er adresseret af andre open source-streamingmotorer: tilføjelse af gentagelse og tilbagekaldelse til din streamingapplikation.

går med strømmen: ubegrænset databehandling med Apache Flink

Streaming er varmt i big data, og Apache Flink er en af de vigtigste teknologier i dette rum. Hvad gør det anderledes, hvilke nye funktioner er inkluderet i den seneste udgivelse, og hvad er dens rolle i at erobre big data-verdenen?

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.