The playground

More information here

Streamauksen menneisyys, nykyisyys ja tulevaisuus: Flink, Spark, and the gang

Spark: the big data tool du jour is getting automation Streaming on yksi huipputrendeistä, joita olemme seuranneet. Viimeisin episodi, että saaga oli lisäämällä happo ominaisuuksia Apache Flink, kuten covered Zdnetin Tony Baer viime viikolla. Tämä ilmoitus, joka tehtiin Flink Forward-messuilla Berliinissä, oli taustana perusteellisille keskusteluille, joita kävimme johtajien, insinöörien ja käyttäjien kanssa, mikä voi auttaa […]

Spark: the big data tool du jour is getting automation

Streaming on yksi huipputrendeistä, joita olemme seuranneet. Viimeisin episodi, että saaga oli lisäämällä happo ominaisuuksia Apache Flink, kuten covered Zdnetin Tony Baer viime viikolla. Tämä ilmoitus, joka tehtiin Flink Forward-messuilla Berliinissä, oli taustana perusteellisille keskusteluille, joita kävimme johtajien, insinöörien ja käyttäjien kanssa, mikä voi auttaa asioiden asettamisessa kontekstiin.

aluksi, kuten Baer totesi, Flinkille on olemassa API, jonka voi ladata Githubista, mutta se toimii vain yhdelle streamille. Versio, jossa on” juoksija ” useille rinnakkaisille streameille, on osa data Artisans – alustaa-Flinkin kaupallista inkarnaatiota.

myös: Apache Flink ottaa hapon

Tämä ei ole lainkaan yllättävää, sillä data-Artesaaneilla, Flinkiä tukevalla ja ison osan päätoimisista avustajistaan työllistävällä myyjällä on avoin ydinpolitiikka. Se on hyvin yleinen käytäntö avoimen lähdekoodin maailmassa, ja jota data Artisans/Flinkin pääkilpailija Databricks / Apache Spark myös noudattaa.

montako suoratoistomoottoria maailma tarvitsee?

kuten Baer sanoisi, montako suoratoistomoottoria maailma tarvitsee? Hyvä kysymys, joka voidaan myös muotoilla uudelleen kahtena jatkokysymyksenä: kuinka moni toimittaja voi selviytyä tekemällä mitä data-Artesaanit ja Databrickit tekevät, tai miten valitset suoratoistomoottorin?

vastaus ensimmäiseen kysymykseen on tässä vaiheessa tasan kaksi: data-Artesaanit ja Databricksit. Kolmas kilpailija, DataTorrent, ja sen Apache Apex moottori, jonka me käsittelimme jokin aika sitten, meni vatsa ylöspäin. Tuntuu epätavallinen ”teemme mitä tahansa myös rakentaminen kilpailijan Moottori” viesti oli viimeinen yritys pysyä pinnalla hyväksymällä lähestymistapa enemmän apt konsultti kuin myyjä takana avoimen lähdekoodin projekti.

myös: reaaliaikaiset sovellukset menevät paikkoihin

joka tapauksessa, tämä tarkoittaa, että avoimen lähdekoodin suoratoistoratkaisujen tilassa on nyt useita orpoja: alustoja, joilla ei ole toimittajaa tarjoamassa tukea, kovennettu versio ja ohjaamassa niiden kehitystä. Apexin lisäksi listalla ovat myös Apache Storm ja Apache Samza. Storm on Samzaa vanhempi ja kypsempi, ja hänellä on myös jonkin verran tukea Hortonworksilta.

Hortonworksin ydinliiketoiminta ei kuitenkaan ole suoratoistoa, ja jos haluaa käyttää Stormia ja omata yritystukitasoja, näyttää siltä, että pitää mennä myös koko Hortonworks-pino. Emme tiedä, onko Hortonworksilla suunnitelmia Stormin varalle, mutta meillä ei ole sellaisia signaaleja Tässä vaiheessa.

striimaukseen on olemassa myös useita suljetun lähdekoodin ratkaisuja, mutta näyttää siltä, että niillä on edessään nousujohteinen taistelu. Heillä voi olla ansionsa ja asiakaskuntansa, mutta suuri osa siitä perustuu perinteisiin sopimuksiin ja suhteisiin. ”Kokeile ennen kuin ostat”, nopeatempoisessa, avoimen lähdekoodin maailmassa ja laajenevilla suoratoistomarkkinoilla, uusien sopimusten voittaminen ei ole helppoa.

myös: tulevaisuuden tulevaisuus: Spark ja Big Data Insights

ja sitten meillä on myös pilvitoimittajat, tietenkin: AWS Kinesis, Google Cloud Dataflow ja Azure Stream Analytics. Tavallinen motiivi toimii täälläkin. Nämä moottorit voivat tai eivät ehkä ole niitä, jotka parhaiten sopivat tarpeisiisi. Mutta jos käytät jo AWS: ää, Google Cloudia tai Azurea, niiden avulla on todella helppoa ja houkuttelevaa rekisteröityä ja integroida suoratoistoratkaisu sovelluksiisi.

Streaming engines adoption and competition

keskustellessaan suoratoistomarkkinoista data Artisansin toimitusjohtajan Kostas Tzoumasin kanssa Tzoumas oli selvillä siitä, mitä hän pitää suurimpana kilpailuna data Artisansille: Legacy. Tzoumas tietoisesti pidättäytyi vertaamasta data Artisans / Flink muihin vaihtoehtoihin, keskittyen sen sijaan heidän pyrkimyksiinsä tavoittaa ja skaalautua evankelioimisen ja myynnin suhteen.

hänen näkemyksensä resonoi monien Flink Forward attendants, mukaan lukien jotkut data Artesans useimmat korkean profiilin asiakkaita. Valtuutetut, joilla on runsaasti teknistä käytännön kokemusta alibabalta, Netflixiltä ja Microsoftilta, kaikki korostivat, että paradigman muuttaminen ja oppiminen toimimaan suoratoistona on jotain, mitä heidän on hallittava ja levitettävä sanaa joka päivä.

myös: keskeytämme tämän vallankumouksen: Apache Spark changes the rules

osa heidän kommenteistaan käsitteli asioita, kuten tarvetta saada striimaustyötä kaikella sillä luotettavuudella, joka on erämaailmassa itsestäänselvyys, oppia ohjelmoimaan harkitummalla tavalla verrattuna yksisäikeisiin sovelluksiin ja nostaa abstraktiotasoa. data-Artesaanit näyttävät kuuntelevan, päätellen siitä, mitä sen agendassa on.

flink7.jpg

suoratoiston kehitys. (Kuva: Data Artisans)

mainitsimme jo acidin käyttöönoton luotettavuuden takaamiseksi, mikä johtui suurelta osin data Artisans-alustaa käyttävien suurten Rahoitus-ja verkkokauppaorganisaatioiden vaatimuksista. Toinen merkittävä panos Flinkille on eteneminen kohti streaming-ja batch-sovellusliittymien yhdistämistä, jota Alibaba on työstänyt ja joka on integroitumassa Flink-ydintunnukseen.

myös: Spark Summit 2018 Preview: Tekoälyn asettaminen etualalle

Flinkillä on useita sovellusliittymiä — datavirtoja, tietojoukkoja, prosessifunktioita, taulukon API: ta ja myöhäisestä lähtien SQL: ää, joita kehittäjät voivat käyttää prosessointinsa eri osa-alueisiin. Ihannetapauksessa ihmiset haluaisivat käyttää SQL kaikkeen. Tämä paitsi yksinkertaistaisi kehittäjien elämää, myös tekisi Flinkistä helpommin lähestyttävän ei-teknisille käyttäjille.

tarve tehdä data-Artesaaneista kestäviä saattaa liittyä myös muihin tehtyihin valintoihin. Se, että data Artisans-alustaa ei ole saatavilla esimerkiksi pilvessä, on silmiinpistävä ero Databricksiin, joka touttelee pilvipalvelustrategiaa omalle alustalleen pelaten iPaaS-korttia.

mutta kun pääasiakkaat ovat behemootheja, joilla on oma infrastruktuuri, kuten data-Artesaaneilla näyttää olevan, pilviversion tarjoaminen heille on vähemmän järkevää. Tämä voi myös selittää Tzoumasin kommentin, kun hän sanoi, että he eivät kilpaile Databricksin / Sparkin kanssa paljoakaan. Ei sillä, etteikö Flink olisi houkutteleva pienemmille organisaatioille, mutta tarina Flink plus-tuen ja konsultoinnin käyttämisestä data Artisans-Alustan sijaan oli yksi, jonka kuulimme heiltä useammin.

Data Artesans ja Apache Flink going forward

Apache Flinkin (twin) versiot 1.4 ja 1.5 olivat sellaisia, että ne esittelivät jokseenkin epähienoja, eivät kovin suosittuja, mutta kipeästi kaivattuja parannuksia. Niissä oli kyse tuotannon käyttöönotosta ja vakausmahdollisuuksista, ja ne tarkoittivat, että jokin taaksepäin yhteensopivuus oli rikottava. Siksi kuulimme monet käyttäjät edelleen liikkuvan 1.3, vaikka parannuksia 1.6, enimmäkseen streaming SQL, houkutteli jotkut ottamaan syöstä ja päivittää.

Also: the top 10 big data frameworks used in the enterprise TechRepublic

Now, that hard, unglamorous work is most over. Yksi tärkeä osa, että data käsityöläiset pyritään käsittelemään on containerization Flink, tai pystyä käyttämään sitä kirjastona Docker ja Kubernetes, mitä he kutsuvat reaktiivinen tila.

muita lähitulevaisuuden agendan kohteita ovat automaattinen skaalaus, aikaversioituneet taulukkoliitokset (kipeästi kaivattu ominaisuus maailmassa, jossa tietoja päivitetään jatkuvasti) ja SQL kaavojen analysointiin. SQL on laajennettu MATCH_RECOGNIZE valmiudet tätä varten, ja data käsityöläiset haluavat tuoda tämän Flink.

toinen mielenkiintoinen suunta on avautuminen Pythonille Apache Beamin kautta. Vaikka Beam ja Flink ovat käsitteellisesti melko lähellä toisiaan, kuten data-Artesaani CTO Stephan Ewen totesi, Flinkillä ei ole tähän mennessä ollut mitään konkreettista hyötyä siitä, että se on linjassa Beamin kanssa. Mutta Pythonin tuki muuttaa sitä.

Beam ottaa käyttöön kehyksen, jonka kautta ohjelmointirajapintoja voidaan tukea muissakin kielissä kuin Javassa, ja Python on ensimmäinen. Apache Beam-ihmisten mukaan tämä tulee ilman sietämättömiä kompromisseja toteutusnopeudessa verrattuna Javaan – noin 10 prosenttia skenaarioissa, joita he ovat pystyneet testaamaan.

tämä tarkoittaa sitä, että Flink voidaan nyt ohjelmoida myös Pythonissa Beamin kautta, mikä on melko tärkeää ottaen huomioon Pythonin yleisyys datatieteessä ja koneoppimisskenaarioissa. Ewen myönsi tämän todeten kuitenkin, ettei se aio luopua Jaavasta lähiaikoina.

myös: Hortonworks unveils roadmap to make Hadoop cloud-native

Databricks/Spark on the other hand has have been support for Python for a tovi now, which may help explain what we appears as a large differentation between the two platforms: Flinkiä käytetään enemmän nopeana prosessointimoottorina, ja ACID vahvistaa sen asemaa reaaliaikaisen yrityksen integraatiokeskuksena, kun taas Sparkia käytetään enemmän datatiedettä — analytiikan selkärankana, Python – ja kannettavien integraatioiden edistäessä sen suosiota.

Toki päällekkäisyyksiä on, eivätkä asiat ole niin selväpiirteisiä. Joka tapauksessa on syytä huomata, että data Artisans ACID support on patentoitu ja osa data Artisans Platform, mikä tarkoittaa, että toisin kuin stateful streaming, Databricks ei voi ottaa sitä käyttöön omassa alustassaan yhtä helposti. Databricks ja Spark ovat edistyneet omalla kehityskaarellaan, ja kerromme siitä lisää pian.

Edellinen ja siihen liittyvä kattavuus:

Cisco taittaa Sparkin Webexiksi, kun Webex-tiimit

Webex-tiimit ottavat kaikki Cisco Sparkissa olevat yhteistyöominaisuudet ja tarjoavat ne Webex-neuvottelualustaan perustuvien ominaisuuksien rinnalle.

tämä startup luulee osaavansa nopeuttaa reaaliaikaista Analytiikkaa tonneista dataa

yritysten keräämien valtavien tietomäärien selvittäminen on bisnekselle ongelma, että Iguazio sanoo sen murtuneen.

Apache Flink: tarvitseeko maailma toista suoratoistomoottoria?

vaikka Apache Flink ei ole vielä saanut kriittistä kaupallista tukea, se lupaa täyttää aukon, jota muut avoimen lähdekoodin suoratoistomoottorit eivät korjaa: lisäämällä uusinnan ja palautuksen suoratoistosovellukseen.

Going with the stream: Unbounded data processing with Apache Flink

Streaming is hot in big data, ja Apache Flink on yksi tämän tilan keskeisistä teknologioista. Mikä tekee siitä erilaisen, mitä uusia ominaisuuksia sen uusimpaan julkaisuun sisältyy ja mikä on sen rooli big data-maailman valloittamisessa?

Vastaa

Sähköpostiosoitettasi ei julkaista.