The playground

More information here

Minulost, současnost a budoucnost streaming: Flink, Jiskra, a gang

Spark: big data nástroj du jour je stále automatizace Streaming je jedním z top trendů, které jsme drželi. Poslední epizodou této ságy bylo přidání acid schopnosti Apache Flink, jak se vztahuje ZDNet Tony Baer minulý týden. Toto oznámení, se na Flink Vpřed v Berlíně, bylo kulisou pro in-hloubkové rozhovory s manažery, inženýry a uživatele, které […]

Spark: big data nástroj du jour je stále automatizace

Streaming je jedním z top trendů, které jsme drželi. Poslední epizodou této ságy bylo přidání acid schopnosti Apache Flink, jak se vztahuje ZDNet Tony Baer minulý týden. Toto oznámení, se na Flink Vpřed v Berlíně, bylo kulisou pro in-hloubkové rozhovory s manažery, inženýry a uživatele, které může pomoci dát věci do souvislostí.

nejprve, jak poznamenal Baer, existuje API pro Flink, které lze stáhnout z GitHubu, ale funguje pouze pro jeden proud. Verze s „runner“ pro více paralelních proudů je součástí platformy data Artisans – komerční inkarnace Flink.

Také: Apache Flink trvá KYSELINY

To není vůbec překvapivé, protože údaje Řemeslníky, dodavatele, který poskytuje podporu pro Flink a zaměstnává velkou část svých plný úvazek přispěvatelů má otevřené jádro politiky. To je velmi běžná politika ve světě open source, a ten, který data Artisans / Flink je hlavní konkurent, Databricks / Apache Spark, je také brát.

kolik streamovacích motorů svět potřebuje?

jak by řekl Baer, kolik streamovacích motorů svět potřebuje? Dobrá otázka, která může být také přeformulována jako dvě následné otázky: Kolik prodejců může přežít dělat to, co dělají řemeslníci a Databricks, nebo jak si vyberete streamovací motor?

odpověď na první otázku je přesně dvě, v tomto bodě: data řemeslníci a Databricks. Třetí konkurent, DataTorrent, a jeho Apache Apex engine, který jsme před chvílí zakryli, šel břicho nahoru. Zdá se, že neobvyklá zpráva „uděláme cokoli, včetně budování na motoru našeho konkurenta“, byla poslední snahou zůstat nad vodou přijetím přístupu vhodnějšího pro poradenství než prodejce za projektem s otevřeným zdrojovým kódem.

Také: Real-time aplikace se chystáte místa,

buď jak Buď, to znamená, že existuje číslo sirotků v open-source streaming řešení prostor: Platformy bez prodávající poskytnout podporu, tvrzené verzi, a řídit jejich rozvoj. Kromě Apexu obsahuje seznam také Apache Storm a Apache Samza. Storm je starší a zralejší než Samza, a také má určitou podporu od Hortonworks.

Hortonworks‘ jádro podnikání není streaming, nicméně, a pokud chcete používat Bouře a podporu podnikání úrovně, zdá se, budete muset jít pro celý Hortonworks zásobníku. Nevíme, zda Hortonworks má v plánu zintenzivnit Storm, ale v tuto chvíli nemáme žádné takové signály.

existuje také řada řešení s uzavřeným zdrojem pro streamování, ale vypadá to, že mají těžký boj. Mohou mít své zásluhy a zákaznickou základnu, ale hodně z toho je založeno na starších smlouvách a vztazích. V“ try before you buy“, rychle se rozvíjejícím světě s otevřeným zdrojovým kódem a rozšiřujícím se trhu pro streamování nebude získání nových smluv snadné.

Také: Budoucnost Budoucnosti: Jiskra a zpracování Velkých objemů Dat Postřehy.

A pak máme také cloud prodejci, samozřejmě: AWS s Kinesis, Google Cloud se Toku dat a Azure Stream Analytics. I zde se odehrává obvyklý motiv. Tyto motory mohou nebo nemusí být ty, které nejlépe vyhovují vašim potřebám. Pokud však již používáte AWS, Google Cloud nebo Azure, bude pro vás opravdu snadné a lákavé zaregistrovat se a integrovat jejich řešení pro streamování do vašich aplikací.

Streaming motory přijetí a konkurence

Diskutovat o streaming na trhu s Kostas Tzoumas, data Artisans‘ CEO, Tzoumas bylo jasné, o co vidí jako největší konkurenci pro data Řemeslníci: Legacy. Tzoumas záměrně upustil od srovnání údajů Řemeslníci/Flink další možnosti, zaměřuje se na jejich úsilí o dosažení a měřítka v oblasti evangelizace a prodeje.

jeho názory rezonovaly u mnoha Flink Forward účastníků, včetně některých dat řemeslníků většina významných klientů. Delegáti se spoustou technických hands-on zkušenosti z likes Alibaba, Netflix, Microsoft, všichni zdůrazňovali, že změna paradigmatu a naučit se pracovat s streaming je něco, co mají zvládnout a šířit slovo pro každý den.

také: přerušujeme tuto revoluci: Apache Spark změny pravidel,

Některé jejich připomínky byly kolem věci, jako je potřeba mít streaming pracovat se všemi spolehlivost, která je dána v dávce světě, naučit se programu na více promyšlené způsob, jak v porovnání se single-threaded aplikace, a zvýšit úroveň abstrakce. zdá se, že datoví řemeslníci poslouchají, soudě podle toho, co je v jeho agendě.

flink7.jpg

vývoj streamování. (Obrázek: Údaje Řemeslníci)

už Jsme zmínili zavedení KYSELINY obstarávat pro spolehlivost, což bylo do velké míry řízen požadavky velké finanční a eCommerce organizace, které používají data Řemeslníky Platforma. Další velkou sázku na Flink je předem ke sjednocení Api pro streamování a šarže, které Alibaba se pracuje a má být integrovaná v základní Flink codebase.

také: Spark Summit 2018 náhled: Uvedení AI vepředu

Flink má řadu Api — datové toky, datové sady, proces, funkce, tabulky API, a jak pozdní, SQL, které mohou vývojáři použít pro různé aspekty jejich zpracování. V ideálním případě by lidé chtěli používat SQL pro všechno. To by nejen zjednodušilo život vývojářů, ale také by Flink byl přístupnější pro netechnické uživatele.

potřeba učinit data řemeslníky udržitelnými může mít něco společného s dalšími rozhodnutími. Skutečnost, že platforma data Artisans není k dispozici v cloudu, je například výrazným rozdílem s Databricks, který propaguje strategii cloud-only pro svou vlastní platformu, hrající kartu iPaaS.

ale když jsou vaši hlavní klienti behemoths s vlastní infrastrukturou, jak se zdá v případě datových řemeslníků, nabízí jim cloudovou verzi méně smysl. To může také vysvětlovat Tzoumasův komentář, když řekl, že s nimi příliš nekonkurují. Ne že by Flink nebyl atraktivní pro menší organizace, ale příběh používání Flink plus nějaké podpory a poradenství, spíše než platforma data Artisans, byl ten, který jsme od nich slyšeli častěji.

Data Řemeslníci a Apache Flink jít dopředu

Apache Flink (twin) verze 1.4 a 1.5 byly o druhu představil poněkud neatraktivní, a ne velmi populární, ale velmi potřebné zlepšení. Všichni byli o nasazení výroby a možnostech stability, a znamenali, že musí být narušena určitá zpětná kompatibilita. To je důvod, proč jsme slyšeli mnoho uživatelů stále válcování s 1.3, i když vylepšení v 1.6, většinou v streamování SQL, pokoušelo některé, aby se ponořili a upgradovali.

Také: top 10 velkých datových rámců používaných v podniku TechRepublic

Nyní, že těžké, prozaická práce je většinou konec. Jednou z důležitých částí, kterou se datoví řemeslníci snaží oslovit, je kontejnerizace Flink nebo možnost použít ji jako knihovnu s Docker a Kubernetes v tom, čemu říkají reaktivní režim.

Další položky v programu pro nejbližší budoucnost zahrnují auto-škálování, čas-verzí tabulky spojnic (tolik potřebné funkce ve světě, kde data jsou neustále aktualizovány), a SQL pro analýzu modelu. SQL byl k tomuto účelu rozšířen o schopnost MATCH_RECOGNIZE a data Artisans to chce přenést na Flink.

dalším zajímavým směrem je otevření Pythonu přes Apache Beam. I když Světlo a Flink jsou koncepčně poměrně blízko, jako data Řemeslníci ČTÚ Stephan Ewen poznamenat, až do teď Flink neměl žádné hmatatelné výhody, aby sklízet, tím, že je zarovnán s Beam. Ale podpora Pythonu to mění.

Beam zavádí framework, jehož prostřednictvím mohou být podporovány API v jiných jazycích než Java, a Python je první. Podle Apache Beam people to přichází bez nesnesitelných kompromisů v rychlosti provádění ve srovnání s Javou – něco jako 10 procent ve scénářích, které byli schopni otestovat.

to znamená, že Flink lze nyní naprogramovat také v Pythonu pomocí Beam, což je vzhledem k prevalenci Pythonu pro datové vědy a scénáře strojového učení poměrně důležité. Ewen to uznal a poznamenal, nicméně, že se Java v dohledné době nevzdává.

Také: Hortonworks odhaluje plán, aby se Hadoop cloud-native

Databricks/Jiskra, na druhou stranu má podporu pro Python na chvíli teď, což může pomoci vysvětlit, to, co vnímáme jako široké diferenciace mezi oběma platformami: Flink se používá spíše jako rychlé zpracování stavové motoru, s KYSELINOU posílení své pozice jako integrační centrum pro real-time enterprise, zatímco Jiskra se používá více jako data science — analytics páteří, s Python a notebook integrace přispívá k jeho popularitě.

samozřejmě existují přesahy a věci nejsou tak jasné. V každém případě stojí za zmínku, že data Artisans acid support je patentována a je součástí platformy data Artisans, což znamená, že na rozdíl od stateful streaming ji Databricks nebudou moci zavést ve své vlastní platformě tak snadno. Bez ohledu na, Databricks a Spark dělají pokrok na své vlastní trajektorii, a brzy o tom budeme sdílet více.

Předchozí a související pokrytí:

Cisco záhyby Jiskru jako Webex Webex Týmy

Webex Týmy se stará o všechny funkce spolupráce v Cisco Spark a nabízí vedle funkcí na základě Webex konference platformy.

spuštění si myslí, že ví, jak rychlost analýzy v reálném čase na tuny dat

dává smysl obrovské množství dat shromážděné podniky je problém pro firmu, která Iguazio říká, že je to popraskané.

Apache Flink: potřebuje svět další streamovací engine?

i Když to zatím remíza kritické obchodní podporu, Apache Flink slibuje vyplnit mezeru tím nezabývají jiné open source streaming motory: přidání replay a vrácení zpět do vaší aplikace streaming.

jít s proudem: neomezené zpracování dat pomocí Apache Flink

streamování je horké ve velkých datech a Apache Flink je jednou z klíčových technologií v tomto prostoru. Čím se liší, jaké nové funkce jsou součástí jeho nejnovější verze a jaká je její role při dobývání světa velkých dat?

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.