The playground

More information here

Trecutul, prezentul și viitorul streamingului: Flink, Spark și banda

Spark: big data tool du jour primește automatizare streamingul este una dintre tendințele de top cu care am ținut pasul. Cel mai recent episod din acea saga a fost adăugarea de capabilități de ACID la Apache Flink, așa cum a fost acoperit de Tony Baer de la ZDNet săptămâna trecută. Acest anunț, făcut la Flink […]

Spark: big data tool du jour primește automatizare

streamingul este una dintre tendințele de top cu care am ținut pasul. Cel mai recent episod din acea saga a fost adăugarea de capabilități de ACID la Apache Flink, așa cum a fost acoperit de Tony Baer de la ZDNet săptămâna trecută. Acest anunț, făcut la Flink Forward din Berlin, a fost fundalul pentru conversații aprofundate pe care le-am avut cu directori, ingineri și utilizatori, care ar putea ajuta la punerea lucrurilor în context.

pentru început, după cum a menționat Baer, există un API pentru Flink care poate fi descărcat de pe GitHub, dar funcționează doar pentru un singur flux. Versiunea cu” alergătorul ” pentru mai multe fluxuri paralele face parte din platforma data Artisans – încarnarea comercială a Flink.

De asemenea: Apache Flink ia ACID

Acest lucru nu este deloc surprinzător, deoarece artizanii de date, vânzătorul care oferă suport pentru Flink și angajează o mare parte din colaboratorii săi cu normă întreagă are o politică de bază deschisă. Aceasta este o politică foarte comună în lumea open source și una pe care data Artisans/principalul concurent al lui Flink, Databricks / Apache Spark, o ia și ea.

de câte motoare de streaming are nevoie lumea?

după cum ar spune Baer, de câte motoare de streaming are nevoie lumea? Întrebare bună, care poate fi, de asemenea, reformulată ca două întrebări de urmărire: câți furnizori pot supraviețui făcând ceea ce fac artizanii de date și Databricks sau cum alegeți un motor de streaming?

răspunsul la prima întrebare este exact două, în acest moment: artizani de date și Databricks. Un al treilea concurent, DataTorrent, și motorul său Apache Apex, pe care l-am acoperit cu ceva timp în urmă, au crescut. Se pare că mesajul neobișnuit „vom face orice, inclusiv construirea motorului concurentului nostru” a fost un ultim efort de a rămâne pe linia de plutire prin adoptarea unei abordări mai potrivite pentru o consultanță decât un furnizor din spatele unui proiect open source.

De asemenea: aplicațiile în timp real merg în locuri

oricum, asta înseamnă că există un număr de orfani în spațiul soluțiilor de streaming open-source acum: platforme fără un furnizor care să ofere suport, o versiune întărită și să-și orienteze dezvoltarea. Pe lângă Apex, lista include și Apache Storm și Apache Samza. Storm este mai în vârstă și mai matură decât Samza, și are, de asemenea, un anumit sprijin de la Hortonworks.

activitatea de bază a Hortonworks nu este streaming, totuși, și dacă doriți să utilizați Storm și să aveți niveluri de asistență pentru întreprinderi, se pare că va trebui să mergeți și pentru întreaga stivă Hortonworks. Nu știm dacă Hortonworks intenționează să se intensifice pentru Storm, dar nu avem astfel de semnale în acest moment.

există, de asemenea, o serie de soluții cu sursă închisă pentru streaming, dar se pare că au o luptă ascendentă de luptat. Ei pot avea meritele lor și baza de clienți pentru a arăta pentru, dar o mare parte din care se bazează pe contracte moștenite și Relații. Într-o lume „încercați înainte de a cumpăra”, cu ritm rapid, open-source și o piață în expansiune pentru streaming, câștigarea de noi contracte nu va fi ușoară.

De asemenea: viitorul viitorului: Spark și Big Data Insights

și apoi avem și furnizorii de cloud, desigur: AWS cu Kinesis, Google Cloud cu Dataflow și Azure cu Stream Analytics. Motivul obișnuit joacă și aici. Aceste motoare pot fi sau nu cele mai potrivite nevoilor dvs. Dar dacă utilizați deja AWS, Google Cloud sau Azure, acestea vă vor face foarte ușor și tentant să vă înscrieți și să integrați soluția lor de streaming în aplicațiile dvs.

adoptarea motoarelor de Streaming și concurența

discutarea pieței de streaming cu Kostas Tzoumas, CEO-ul data Artisans, Tzoumas a fost clar despre ceea ce el vede ca fiind cea mai mare competiție pentru data Artisans: moștenirea. Tzoumas s-a abținut în mod deliberat să compare artizanii de date/Flink cu alte opțiuni, concentrându-se în schimb pe eforturile lor de a ajunge și de a se extinde în ceea ce privește evanghelizarea și vânzările.

opiniile sale rezonat cu multe Flink însoțitorii înainte, inclusiv unele dintre artizani de date cei mai mulți clienți de profil înalt. Delegații cu o mulțime de experiență tehnică practică de la Alibaba, Netflix și Microsoft, au subliniat că schimbarea paradigmei și învățarea de a lucra cu streaming este ceva ce trebuie să stăpânească și să răspândească cuvântul pentru fiecare zi.

de asemenea: întrerupem această revoluție: Apache Spark schimbă regulile

unele dintre comentariile lor au fost în jurul unor lucruri precum necesitatea de a avea o muncă de streaming cu toată fiabilitatea care este dată în lumea lotului, de a învăța să programați într-un mod mai atent în comparație cu aplicațiile cu un singur fir și de a ridica nivelul de abstractizare. artizanii de date par să asculte, judecând după ceea ce este în agenda sa.

flink7.jpg

evoluția streaming-ului. (Imagine: Data Artisans)

am menționat deja introducerea acidului pentru a satisface fiabilitatea, care a fost în mare măsură determinată de cerințele marilor organizații financiare și de comerț electronic care utilizează platforma Data Artisans. Un alt pariu major pentru Flink este avansul către unificarea API-urilor pentru streaming și lot, la care Alibaba lucrează și urmează să fie integrat în baza de cod Flink core.

De asemenea: Spark Summit 2018 previzualizare: Punerea AI în față

Flink are un număr de API-uri-fluxuri de date, seturi de date, funcții de proces, API-ul tabelului și, în ultima vreme, SQL, pe care dezvoltatorii le pot utiliza pentru diferite aspecte ale procesării lor. În mod ideal, oamenii ar dori să folosească SQL pentru tot. Acest lucru nu numai că ar simplifica viața dezvoltatorilor, dar ar face și Flink mai abordabil pentru utilizatorii non-tehnici.

nevoia de a face artizani de date durabile poate avea ceva de-a face cu alte alegeri făcute prea. Faptul că platforma Data Artisans nu este disponibilă în cloud, de exemplu, este o diferență izbitoare cu Databricks, care promovează o strategie numai în cloud pentru propria platformă, jucând cardul iPaaS.

dar când clienții dvs. principali sunt behemoths cu propria infrastructură, așa cum pare să fie cazul artizanilor de date, oferirea lor o versiune cloud are mai puțin sens. Acest lucru poate explica, de asemenea, comentariul lui Tzoumas când a spus că nu concurează cu Databricks/Spark mult. Nu că Flink nu este atractiv pentru organizațiile mai mici, dar povestea utilizării Flink plus un anumit sprijin și consultanță, mai degrabă decât platforma Data Artisans, a fost una pe care am auzit-o mai des de la ei.

Data Artisans și Apache Flink mergând înainte

Apache Flink (twin) versiunile 1.4 și 1.5 au fost de genul de a introduce îmbunătățiri oarecum neplăcute, nu foarte populare, dar foarte necesare. Ei au fost toate despre implementare de producție și opțiuni de stabilitate, și au însemnat unele compatibilitate înapoi a trebuit să fie rupt. Acesta este motivul pentru care am auzit mulți utilizatori încă de rulare cu 1.3, chiar dacă îmbunătățiri în 1.6, mai ales în streaming SQL, tentat unii să ia apuca de treabă și upgrade.

De asemenea: primele 10 cadre de date mari utilizate în Enterprise TechRepublic

acum, că munca grea, neglamorous este cea mai mare parte de peste. O parte importantă pe care data Artisans își propune să o abordeze este containerizarea Flink sau posibilitatea de a o folosi ca bibliotecă cu Docker și Kubernetes, în ceea ce ei numesc modul Reactiv.

alte elemente din ordinea de zi pentru viitorul apropiat includ auto-scalare, tabel cu versiuni de timp se alătură (o caracteristică atât de necesară într-o lume în care datele sunt actualizate în mod constant), și SQL pentru analiza model. SQL a fost extnded cu capacitatea MATCH_RECOGNIZE spre acest scop, și data Artisans vrea să aducă acest lucru la Flink.

o altă direcție interesantă se deschide către Python prin Apache Beam. Deși Beam și Flink sunt conceptual destul de apropiate, așa cum a remarcat până acum artizanii de date CTO Stephan Ewen Flink nu a avut niciun beneficiu tangibil de cules prin alinierea cu Beam. Dar sprijinul pentru Python schimbă asta.

Beam introduce un cadru prin care API-urile în alte limbi decât Java pot fi acceptate, iar Python este primul. Potrivit oamenilor Apache Beam, acest lucru vine fără compromisuri insuportabile în viteza de execuție în comparație cu Java-ceva de genul 10% în scenariile pe care au reușit să le testeze.

aceasta înseamnă că Flink poate fi programat acum și în Python, prin Beam, ceea ce este destul de important având în vedere prevalența Python pentru știința datelor și scenariile de învățare automată. Ewen a recunoscut acest lucru, menționând totuși că nu este pe cale să renunțe la Java în curând.

De asemenea: Hortonworks dezvaluie foaie de parcurs pentru a face Hadoop cloud-nativ

Databricks/Spark pe de altă parte, a avut suport pentru Python pentru un timp acum, care poate ajuta explica ceea ce percepem ca o diferențiere largă între cele două platforme: Flink este folosit mai mult ca un motor de procesare rapidă, ACID consolidându-și poziția de hub de integrare pentru întreprinderea în timp real, în timp ce Spark este folosit mai mult ca o bază de date Science-analytics, integrarea Python și notebook contribuind la popularitatea sa.

desigur, există suprapuneri, iar lucrurile nu sunt la fel de clare ca asta. În orice caz, este demn de remarcat faptul că suportul data Artisans ACID este brevetat și face parte din platforma data Artisans, ceea ce înseamnă că, spre deosebire de streamingul stateful, Databricks nu va putea să-l introducă în propria platformă la fel de ușor. Indiferent, Databricks și Spark au făcut progrese pe propria lor traiectorie și vom împărtăși mai multe despre asta în curând.

acoperire anterioară și conexe:

Cisco pliază Spark în Webex ca Webex Teams

Webex Teams ia toate caracteristicile de colaborare în Cisco Spark și le oferă alături de caracteristici bazate pe platforma de conferințe Webex.

această pornire crede că știe cum să accelereze analizele în timp real pe tone de date

a da sens cantităților mari de date colectate de companii este o problemă pentru afaceri despre care Iguazio spune că este crăpată.

Apache Flink: are lumea nevoie de un alt motor de streaming?

deși nu a atras încă suport comercial în masă critică, Apache Flink promite să umple un gol care nu este abordat de alte motoare de streaming open source: adăugarea de redare și revenire la aplicația dvs. de streaming.

mergând cu fluxul: prelucrarea nelimitată a datelor cu Apache Flink

streamingul este fierbinte în big data, iar Apache Flink este una dintre tehnologiile cheie din acest spațiu. Ce îl face diferit, ce caracteristici noi sunt incluse în ultima sa versiune și care este rolul său în cucerirea lumii big data?

Lasă un răspuns

Adresa ta de email nu va fi publicată.