The playground

More information here

A streaming múltja, jelene és jövője: Flink, Spark, and the gang

Spark: a big data tool du jour automatizálódik a Streaming az egyik legfontosabb trend, amellyel lépést tartottunk. A saga legújabb epizódja savas képességeket adott az Apache Flinkhez, amint azt a ZDNet Tony Baer a múlt héten lefed. Ez a bejelentés, amelyet a berlini Flink Forward-ban tettek közzé, a vezetőkkel, mérnökökkel és felhasználókkal folytatott mélyreható beszélgetések […]

Spark: a big data tool du jour automatizálódik

a Streaming az egyik legfontosabb trend, amellyel lépést tartottunk. A saga legújabb epizódja savas képességeket adott az Apache Flinkhez, amint azt a ZDNet Tony Baer a múlt héten lefed. Ez a bejelentés, amelyet a berlini Flink Forward-ban tettek közzé, a vezetőkkel, mérnökökkel és felhasználókkal folytatott mélyreható beszélgetések háttere volt, amelyek segíthetnek a dolgok kontextusba helyezésében.

először is, amint Baer megjegyezte, van egy API a Flink számára, amely letölthető a Githubról, de csak egyetlen adatfolyamon működik. A “runner” verzió több párhuzamos adatfolyamhoz a data Artisans Platform része – a Flink kereskedelmi inkarnációja.

továbbá: Apache Flink veszi ACID

Ez egyáltalán nem meglepő, mivel a data Artisans, a gyártó, amely támogatja a Flink-et, és a teljes munkaidős közreműködők nagy részét alkalmazza, nyitott alappolitikával rendelkezik. Ez egy nagyon gyakori politika a nyílt forráskódú világban, amelyet a data Artisans/Flink fő versenytársa, a Databricks / Apache Spark is alkalmaz.

hány streaming motorra van szüksége a világnak?

ahogy Baer mondaná, hány streaming motorra van szüksége a világnak? Jó kérdés, amelyet két további kérdésként is átfogalmazhatunk: hány gyártó képes túlélni azt, amit az adatművészek és a Databricks csinálnak, vagy hogyan válasszon streaming motort?

a válasz az első kérdésre Pontosan két, ezen a ponton: data Artisans és Databricks. Egy harmadik versenytárs, a DataTorrent és az Apache Apex engine, amelyet egy ideje lefedtünk,felment. Úgy tűnik, hogy a szokatlan” bármit megteszünk, beleértve a versenytárs motorjára való építkezést is ” üzenet egy utolsó erőfeszítés volt a felszínen maradni azáltal, hogy olyan megközelítést alkalmaztunk, amely alkalmasabb a tanácsadásra, mint egy nyílt forráskódú projekt mögött álló eladó.

továbbá: valós idejű alkalmazások mennek helyeken

Akárhogy is, ez azt jelenti, hogy számos árvák a nyílt forráskódú streaming megoldások tér most: platformok nélkül szállító támogatást, egy edzett változata, és irányítani a fejlesztést. Az Apex mellett az Apache Storm és az Apache Samza is szerepel a listán. Storm idősebb és érettebb, mint Samza, és némi támogatást is kapott a Hortonworks-től.

a Hortonworks alaptevékenysége azonban nem streaming, és ha a Storm-ot szeretné használni, és vállalati támogatási szintekkel rendelkezik, úgy tűnik, hogy a teljes Hortonworks veremre is szüksége lesz. Nem tudjuk, hogy a Hortonworks tervezi-e a vihar fokozását, de jelenleg nincs ilyen jelünk.

számos zárt forráskódú megoldás is létezik a streaminghez, de úgy tűnik, hogy felfelé tartó csatát kell vívniuk. Lehet, hogy érdemeik és ügyfélkörük megmutatkozik, de ennek nagy része régi szerződéseken és kapcsolatokon alapul. A” try before you buy”, a gyors tempójú, nyílt forráskódú világban és a streaming bővülő piacán az új szerződések megnyerése nem lesz könnyű.

továbbá: a jövő jövője: Spark és Big Data Insights

és természetesen ott vannak a felhőgyártók is: AWS a Kinesissel, Google Cloud a Dataflow-val, és az Azure a Stream Analytics-szel. A szokásos motívum itt is játszik. Ezek a motorok lehet, hogy nem az is a legjobban megfelel az Ön igényeinek. De ha már használja az AWS – t, a Google Cloud-ot vagy az Azure-t, akkor nagyon könnyű és csábító lesz az Ön számára, hogy regisztráljon és integrálja a streaming megoldást az alkalmazásaiba.

Streaming motorok elfogadása és verseny

a streaming piac megbeszélése Kostas Tzoumas-szal, a data Artisans vezérigazgatójával, Tzoumas egyértelmű volt arról, hogy mit lát a legnagyobb versenynek az data Artisans számára: örökség. Tzoumas szándékosan tartózkodott attól, hogy összehasonlítsa az Adatművészeket / Flink-et más lehetőségekkel, ehelyett az evangelizálás és az értékesítés terén tett erőfeszítéseikre összpontosított.

nézeteit rezonált sok Flink előre kísérők, köztük néhány adat kézművesek legtöbb nagy horderejű ügyfelek. Az alibaba, a Netflix és a Microsoft hasonló technikai gyakorlati tapasztalataival rendelkező küldöttek mind hangsúlyozták, hogy a paradigma megváltoztatása és a streaming-szel való együttműködés megtanulása olyan dolog, amit minden nap el kell sajátítaniuk és terjeszteniük kell.

továbbá: megszakítjuk ezt a forradalmat: Az Apache Spark megváltoztatja a szabályokat

néhány megjegyzésük olyan dolgokra vonatkozott, mint például a streaming munka szükségessége a kötegelt világban megadott összes megbízhatósággal, hogy megtanulják átgondoltabban programozni az egyszálú alkalmazásokhoz képest, és emelni az absztrakció szintjét. úgy tűnik, hogy az Adatművészek hallgatnak, a napirendje alapján ítélve.

flink7.jpg

a streaming fejlődése. (Kép: Data Artisans)

már említettük az ACID bevezetését a megbízhatóság érdekében, amelyet nagyrészt a data Artisans platformot használó nagy pénzügyi és e-kereskedelmi szervezetek követelményei vezéreltek. Egy másik nagy tét A Flink számára az előrelépés a streaming és a kötegelt API-k egyesítése felé, amelyen az Alibaba már dolgozik, és hamarosan integrálódik a Flink alapvető kódbázisába.

továbbá: Spark Summit 2018 előnézet: Üzembe AI elöl

Flink számos API-k-adatfolyamok, adathalmazok, folyamat funkciók, a tábla API, és a késői, SQL, amely a fejlesztők használhatják a különböző aspektusait a feldolgozás. Ideális esetben az emberek mindenre szeretnék használni az SQL-t. Ez nemcsak egyszerűsítené a fejlesztők életét, hanem a Flink-et is megközelíthetőbbé tenné a nem technikai felhasználók számára.

annak szükségessége, hogy az Adatmesterek fenntarthatóak legyenek, köze lehet más döntésekhez is. Az a tény, hogy a data Artisans Platform nem érhető el például a felhőben, feltűnő különbség a Databricks-szel szemben, amely csak felhőalapú stratégiát hirdet saját platformjára, az iPaaS kártyát játszva.

de amikor a fő ügyfelek behemótok saját infrastruktúrával, mint úgy tűnik, hogy ez a helyzet az adatok kézművesek, kínál nekik egy felhő változat kevésbé értelme. Ez magyarázhatja Tzoumas megjegyzését is, amikor azt mondta, hogy nem sokat versenyeznek a Databricks/Spark-szal. Nem mintha a Flink nem lenne vonzó a kisebb szervezetek számára, de a Flink plus némi támogatás és tanácsadás, nem pedig a data Artisans Platform használatának történetét gyakrabban hallottuk tőlük.

Data Artisans és Apache Flink going forward

az Apache Flink (twin) 1.4-es és 1.5-ös verziói olyan jellegűek voltak, hogy kissé Elbűvölő, nem túl népszerű, de nagyon szükséges fejlesztéseket vezettek be. Ezek mind a termelés telepítéséről és a stabilitási lehetőségekről szóltak, és azt jelentették, hogy néhány visszafelé kompatibilitást meg kellett szakítani. Ezért hallottuk, hogy sok felhasználó még mindig gurul 1.3, annak ellenére, hogy az 1.6-os fejlesztések, főleg az SQL streamingben, kísértést tettek néhányra, hogy belevágjanak és frissítsenek.

továbbá: az enterprise TechRepublic-ban HASZNÁLT top 10 big data keretrendszer

most, hogy a kemény, elbűvölő munka többnyire véget ért. Az egyik fontos része, hogy a Data Artisans célja, hogy foglalkozzon a konténerezés Flink, vagy hogy képes használni, mint egy könyvtár Docker és Kubernetes, amit hívnak reaktív módban.

a közeljövő további napirendi pontjai közé tartozik az automatikus méretezés, az időverziós táblaillesztések (nagyon szükséges funkció egy olyan világban, ahol az adatok folyamatosan frissülnek), valamint az SQL a mintaelemzéshez. Az SQL-t kiterjesztették a MATCH_RECOGNIZE képességgel e cél felé, és az adatművészek ezt Flinkre akarják hozni.

egy másik érdekes irány a Python megnyitása az Apache Beam segítségével. Bár a Beam és a Flink fogalmilag meglehetősen közel állnak egymáshoz, ahogy Stephan Ewen, az adatművészek CTO-ja megjegyezte, a Flinknek eddig nem volt kézzelfogható előnye, hogy a Beam-hez igazodik. De a Python támogatása megváltoztatja ezt.

A Beam egy olyan keretrendszert vezet be, amelyen keresztül a Java-tól eltérő nyelvű API-k támogathatók, és a Python az első. Az Apache Beam people szerint ez elviselhetetlen kompromisszumok nélkül jön létre a végrehajtás sebességében a Java-hoz képest-körülbelül 10 százalék a tesztelhető forgatókönyvekben.

Ez azt jelenti, hogy a Flink most már Pythonban is programozható a Beam segítségével, ami meglehetősen fontos, tekintettel a Python elterjedtségére az adattudományban és a gépi tanulási forgatókönyvekben. Ewen elismerte ezt, megjegyezve azonban, hogy nem hamarosan feladja a Java-t.

továbbá: Hortonworks bemutatja útiterv, hogy Hadoop cloud-natív

Databricks / Spark másrészt már támogatja a Python egy darabig most, ami segíthet megmagyarázni, hogy mit érzékelünk, mint egy széles különbséget a két platform: A Flink-et inkább gyors feldolgozású állapotfelmérő motorként használják, az ACID megerősíti pozícióját a valós idejű vállalkozás integrációs központjaként, míg a Spark-ot inkább adattudományként-analitikai gerincként használják, a Python és a notebook integráció hozzájárul a népszerűségéhez.

természetesen vannak átfedések, és a dolgok nem annyira egyértelműek. Mindenesetre érdemes megjegyezni, hogy a data Artisans ACID support szabadalmaztatott és része a data Artisans platformnak, ami azt jelenti, hogy az állapotos streamingtől eltérően a Databricks nem fogja tudni olyan könnyen bevezetni a saját platformján. Ettől függetlenül a Databricks és a Spark a saját pályáján halad előre, és erről hamarosan többet fogunk megosztani.

előző és kapcsolódó lefedettség:

A Cisco a Spark-ot WebEx Teams-ként redukálja a Webex-be

A Webex Teams a Cisco Spark összes együttműködési funkcióját igénybe veszi, és a Webex konferencia platformon alapuló funkciók mellett kínálja őket.

Ez az Indítás azt hiszi, hogy tudja, hogyan kell felgyorsítani a valós idejű elemzéseket rengeteg adaton

a vállalkozások által összegyűjtött hatalmas mennyiségű adat értelmezése problémát jelent az üzleti vállalkozások számára, hogy Iguazio szerint repedt.

Apache Flink: szüksége van a világnak egy másik streaming motorra?

bár még nem nyerte el a critical mass kereskedelmi támogatását, az Apache Flink azt ígéri, hogy kitölti a rést, amelyet más nyílt forráskódú streaming motorok nem kezeltek: replay and rollback hozzáadása a streaming alkalmazáshoz.

megy a stream: korlátlan adatfeldolgozás Apache Flink

Streaming forró big data, és az Apache Flink az egyik legfontosabb technológiák ezen a téren. Mi különbözteti meg, milyen új funkciókat tartalmaz a legújabb kiadása, és mi a szerepe a big data világ meghódításában?

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.