The playground

More information here

ストリーミングの過去、現在、未来:Flink、Spark、そしてギャング

Spark:ビッグデータツールdu jourは自動化されています ストリーミングは、私たちが追いついてきたトップトレンドの一つです。 そのサガの最新のエピソードは、先週のZDNetのTony Baerでカバーされているよ […]

Spark:ビッグデータツールdu jourは自動化されています

ストリーミングは、私たちが追いついてきたトップトレンドの一つです。 そのサガの最新のエピソードは、先週のZDNetのTony Baerでカバーされているように、APACHE FlinkにACID機能を追加していました。 ベルリンのFlink Forwardで行われたこの発表は、経営陣、エンジニア、ユーザーとの深い会話の背景にあり、物事を文脈に置くのに役立つかもしれません。まず、Baerが指摘したように、GitHubからダウンロードできるFlink用のAPIがありますが、それは単一のストリームに対してのみ機能します。 複数の並列ストリーム用の「ランナー」を備えたバージョンは、data Artisansプラットフォームの一部であり、Flinkの商業的な化身です。

また、Apache FlinkはACIDを取ります

これは、データ職人として、Flinkをサポートし、フルタイムの貢献者の大部分を雇用するベンダーは、オープンコアポリシーを持ってい これはオープンソースの世界では非常に一般的なポリシーであり、data Artisans/Flinkの主な競争相手であるDatabricks/Apache Sparkも取っています。

世界にはいくつのストリーミングエンジンが必要ですか?

Baerが言うように、世界にはいくつのストリーミングエンジンが必要ですか? どのように多くのベンダーがデータ職人とDatabricksが行うことをやって生き残ることができますか、またはどのようにストリーミングエンジンを選択しますか?

最初の質問に対する答えは、この時点では正確に2つです:data ArtisansとDatabricks。 3番目の競合他社であるDataTorrentとそのApache Apexエンジンは、しばらく前に説明しましたが、腹が立ちました。 珍しい”私たちは競合他社のエンジンを構築することを含めて何でもします”というメッセージは、オープンソースプロジェクトの背後にあるベンダーよりもコンサルに適したアプローチを採用することによって、海上にとどまるための最後の努力だったようです。

また:リアルタイムアプリケーションは場所を行っている

いずれにしても、これは今、オープンソースのストリーミングソリューション空間に孤児の数 Apexのほかに、リストにはApache StormとApache Samzaも含まれています。 StormはSamzaよりも古く、より成熟しており、Hortonworksからもいくつかのサポートがあります。

Hortonworksのコアビジネスはストリーミングではなく、Stormを使用してエンタープライズサポートレベルを持ちたい場合は、Hortonworksスタック全体にも行かなければならな HortonworksがStormにステップアップする計画を持っているかどうかはわかりませんが、現時点ではそのような信号はありません。

ストリーミングのためのクローズドソースのソリューションもいくつかありますが、彼らは戦うために苦しい戦いを持っているように見えます。 彼らにはメリットと顧客基盤があるかもしれませんが、その多くは従来の契約と関係に基づいています。 “あなたが購入する前に試してみてください”、テンポの速い、オープンソースの世界、およびストリーミングのための拡大市場では、新規契約を獲得することは容易ではありません。

また:未来の未来:スパークとビッグデータの洞察

そして、我々はまた、もちろん、クラウドベンダーを持っている:KinesisとAWS、DataflowとGoogleクラウド、ストリーム分析とAzure。 通常のモチーフは、同様に、ここで再生されます。 これらのエンジンはあなたの必要性に最も適する物であるかもしれないし、そうでないかもしれない。 しかし、すでにAWS、Google Cloud、Azureを使用している場合は、ストリーミングソリューションにサインアップしてアプリケーションに統合することが非常に簡単で魅力的

ストリーミングエンジンの採用と競争

ストリーミング市場について、data ArtisansのCEOであるKostas Tzoumas氏と議論したTzoumas氏は、data Artisansの最大の競争であるLegacyについて明 Tzoumasは意図的に他のオプションとデータ職人/Flinkを比較することを控え、代わりに伝道と販売の面で手を差し伸べるとスケールアップするための努力に焦点を

彼の見解は、データ職人の最も知名度の高いクライアントの一部を含む多くのフリンクフォワードアテンダント、と共鳴しました。 Alibaba、Netflix、Microsoftなどからの技術的な実践的な経験の負荷を持つ代表者は、すべてのパラダイムを変更し、ストリーミングで作業することを学ぶことは、彼らが毎日

また:私たちはこの革命を中断します: Apache Spark changes the rules

彼らのコメントの中には、バッチの世界で与えられているすべての信頼性でストリーミング作業を行う必要があること、シングルスレッ データ職人は、その議題にあるものから判断して、聞いているようです。

flink7。jpg

ストリーミングの進化。 (画像: Data Artisans)

私たちはすでに、data Artisansプラットフォームを使用する大規模な金融およびeコマース組織の要件によって駆動された信頼性に応えるた Flinkのもう一つの大きな賭けは、alibabaが取り組んでおり、コアFlinkコードベースに統合されようとしているストリーミングとバッチのApiの統一に向けた進歩です。また、Spark Summit2018のプレビューも表示されます。

: AIを前面に置く

Flinkには、データストリーム、データセット、プロセス関数、テーブルAPI、および最近のSQLなど、多くのApiがあり、開発者は処理のさまざまな側面に使 理想的には、人々はすべてのためにSQLを使用したいと考えています。 これは、開発者の生活を簡素化するだけでなく、非技術的なユーザーのためのFlinkをより親しみやすくするだけではありません。

データ職人を持続可能にする必要性は、他の選択とも関係があるかもしれません。 たとえば、data Artisansプラットフォームがクラウドで利用できないという事実は、Ipaasカードを使用して独自のプラットフォームのクラウドのみの戦略を宣伝するDatabricksとの顕著な違いです。

しかし、あなたの主なクライアントが、データ職人の場合のように、独自のインフラストラクチャを持つ巨大企業である場合、クラウド版を提供することはあまり意味がありません。 それはまた、彼らがDatabricks/Sparkとあまり競争していないと言ったときのTzoumasのコメントを説明するかもしれません。 Flinkが小規模な組織にとって魅力的ではないというわけではありませんが、data Artisansプラットフォームではなく、Flinkプラスいくつかのサポートとコンサルを使

Data ArtisansとApache Flinkの今後

Apache Flinkの(ツイン)バージョン1.4と1.5は、やや魅力的ではなく、あまり人気がありませんが、非常に必要な改善を導入する種 それらはすべて本番環境の展開と安定性のオプションに関するものであり、いくつかの後方互換性が破られなければならないことを意味しました。 このため、多くのユーザーがまだ1つで転がっていると聞いています。3、1.6の改善、主にストリーミングSQLの改善にもかかわらず、いくつかは思い切ってアップグレードするように誘惑しました。

また:エンタープライズTechRepublicで使用されるトップ10のビッグデータフレームワーク

今、そのハード、魅力的な仕事はほとんど終わっています。 Data Artisansが取り組む重要な部分の1つは、Flinkのコンテナ化、またはDockerやKubernetesのライブラリとして、リアクティブモードと呼ばれるものを使用できることです。

近い将来の議題の他の項目には、自動スケーリング、時間バージョン対応のテーブル結合(データが常に更新される世界では非常に必要な機能)、パターン分析のためのSQLが含まれています。 SQLはこの目的のためにMATCH_RECOGNIZE機能で拡張されており、data ArtisansはこれをFlinkにもたらしたいと考えています。別の興味深い方向性は、Apache Beamを介してPythonに開放されています。 BeamとFlinkは概念的にはかなり近いですが、データ職人のCTO Stephan Ewen氏は、これまでFlinkにはBeamと整列することによって得られる具体的な利点はありませんでした。 しかし、Pythonのサポートはそれを変えています。Beamは、Java以外の言語のApiをサポートできるフレームワークを導入しており、Pythonが最初のものです。 Apache Beamの人々によると、これはJavaと比較して実行速度に耐え難い妥協をすることなく提供されます。

これは、FlinkがBeamを介してPythonでもプログラムできるようになったことを意味します。 しかし、Ewenはこれを認め、すぐにJavaを放棄しようとしているわけではないと指摘しました。

また、HortonworksはHadoop cloud-nativeを作るためのロードマップを発表しました

Databricks/Sparkはしばらくの間Pythonをサポートしていました。: Flinkは高速処理ステートフルなエンジンとしてより多く使用され、ACIDはリアルタイム企業の統合ハブとしての地位を強化し、Sparkはデータサイエンス-分析バックボーンとしてより多く使用され、Pythonとノートブックの統合が人気に貢献している。もちろん、重複があり、物事はそれほど明確ではありません。

もちろん、重複があり、物事はそれほど明確ではありません。

もちろん、重複があります。 いずれにしても、data Artisans ACIDサポートは特許を取得しており、data Artisansプラットフォームの一部であることは注目に値します。 それにもかかわらず、DatabricksとSparkは独自の軌道で進歩を遂げており、すぐにそれについてもっと共有する予定です。

以前および関連するカバレッジ:

Ciscoは、Webex TeamsとしてSparkをWebexに折りたたみます

Webex Teamsは、Cisco Sparkのすべてのコラボレーション機能を取り、Webex会議プラッ

このスタートアップは、それがデータのトンにリアルタイム分析を高速化する方法を知っていると考えています

企業が収集した膨大な量のデー

Apache Flink:世界には別のストリーミングエンジンが必要ですか?

まだ重大な商用サポートを提供していませんが、Apache Flinkは他のオープンソースのストリーミングエンジンでは解決されていないギャップを埋めることを約束しています。

ストリームと一緒に行く:Apache Flinkを使用した無制限のデータ処理

ストリーミングはビッグデータでホットであり、Apache Flinkはこの分野の重要な技術の一つです。 何が違うのか、最新のリリースにはどのような新機能が含まれているのか、ビッグデータの世界を征服する上での役割は何ですか?

コメントを残す

メールアドレスが公開されることはありません。