The playground

More information here

The past, present, and future of streaming: Flink, Spark, and the gang

Spark: The big data tool du jour is getting automation Streaming is one of the top trends we’ve been keeping up with. O último episódio dessa saga foi adicionando capacidades de ácido para Apache Flink, como coberto por Tony Baer da ZDNet na semana passada. Este anúncio, feito na Flink Forward em Berlim, foi o […]

Spark: The big data tool du jour is getting automation

Streaming is one of the top trends we’ve been keeping up with. O último episódio dessa saga foi adicionando capacidades de ácido para Apache Flink, como coberto por Tony Baer da ZDNet na semana passada. Este anúncio, feito na Flink Forward em Berlim, foi o pano de fundo para conversas aprofundadas que tivemos com executivos, engenheiros e usuários, o que pode ajudar a colocar as coisas em contexto.

para começar, como Baer observou, há uma API para Flink que pode ser baixada do GitHub, mas só funciona para um único fluxo. A versão com o “runner” para múltiplos fluxos paralelos é parte da plataforma de artesãos de dados – a encarnação comercial de Flink.

também: Apache Flink toma ácido

isso não é de todo surpreendente, como artesãos de dados, o fornecedor que fornece suporte para Flink e emprega uma grande parte de seus colaboradores em tempo integral tem uma política de Núcleo aberto. Essa é uma política muito comum no mundo do código aberto, e uma que o principal concorrente do data Artisans/Flink, Databricks / Apache Spark, também está tomando.de quantos motores de streaming o mundo precisa?

como Baer diria, de quantos motores de streaming o mundo precisa? Boa pergunta, que também pode ser reformulada como duas perguntas de acompanhamento: quantos vendedores podem sobreviver fazendo o que artesãos de dados e bancos de dados fazem, ou como você escolhe um motor de streaming?

a resposta para a primeira pergunta é exatamente dois, neste ponto: artesãos de dados e bancos de dados. Um terceiro concorrente, DataTorrent, e o seu Apex motor Apache, que cobrimos há algum tempo, falhou. Parece que o incomum” vamos fazer qualquer coisa, incluindo construir sobre o motor do nosso concorrente ” mensagem foi um último esforço para permanecer à tona, adotando uma abordagem mais apta para uma consultoria do que um fornecedor por trás de um projeto de código aberto.

também: aplicações em tempo Real estão indo para lugares

de qualquer forma, isso significa que há um número de órfãos no espaço de soluções de streaming open-source agora: plataformas sem um fornecedor para fornecer suporte, uma versão endurecida, e orientar o seu desenvolvimento. Além do Apex, a lista também inclui o Apache Storm e o Apache Samza. Storm é mais velho e mais maduro do que Samza, e também tem algum apoio da Hortonworks.

Hortonworks ‘ core business is not streaming, however, and if you want to use Storm and have enterprise support levels, it seems you’ll have to go for the entire Hortonworks stack, too. Não sabemos se a Hortonworks tem planos para enfrentar a tempestade, mas não temos tais sinais neste momento.

Há também uma série de soluções de código fechado para streaming, mas parece que eles têm uma batalha difícil para lutar. Eles podem ter seus méritos e base de clientes para mostrar, mas grande parte disso é baseado em contratos antigos e relacionamentos. Em um” tente antes de comprar”, Rápido, mundo de código aberto, e um mercado em expansão para streaming, ganhar novos contratos não será fácil.

Also: the Future of the Future: Spark and Big Data Insights

And then we also have the cloud vendors, of course: AWS with Kinesis, Google Cloud with Dataflow, and Azure with Stream Analytics. O motivo habitual também acontece aqui. Estes motores podem ou não ser os mais adequados às suas necessidades. Mas se você já estiver usando AWS, Google Cloud ou Azure, eles vão tornar muito fácil e tentador para você se inscrever e integrar sua solução de streaming em suas aplicações.discutindo o mercado de streaming com Kostas Tzoumas, CEO da data Artisans, Tzoumas foi claro sobre o que ele vê como a maior competição para artesãos de dados: Legacy. Tzoumas deliberadamente se absteve de comparar dados artesãos/Flink a outras opções, focando em seus esforços para alcançar e aumentar em termos de evangelização e vendas.

suas opiniões ressoaram com muitos atendentes Flink para a frente, incluindo alguns dos artesãos de dados mais clientes de alto perfil. Delegados com muita experiência técnica prática de tipos como Alibaba, Netflix e Microsoft, todos enfatizaram que mudar o paradigma e aprender a trabalhar com streaming é algo que eles têm que dominar e espalhar a palavra para todos os dias.interrompemos esta revolução: Apache Spark muda as regras

alguns de seus comentários foram em torno de coisas como a necessidade de ter o trabalho de streaming com toda a confiabilidade que é um dado no mundo do lote, para aprender a programar de uma forma mais pensativa em comparação com aplicações de simples thread, e para aumentar o nível de abstração. os artesãos de dados parecem estar ouvindo, a julgar pelo que está em sua agenda.

flink7.jpg

the evolution of streaming. (Imagem: Dados Artesãos)

Nós já mencionamos, a introdução de ÁCIDO para atender a fiabilidade, que foi, em grande medida impulsionado por grandes financeiras e de comércio eletrônico organizações que usam os dados Artesãos Plataforma. Outra grande aposta para Flink é o avanço para a Unificação de APIs para streaming e batch, em que Alibaba tem trabalhado e está prestes a ser integrado no núcleo do codebase Flink.também: antevisão de Spark Summit 2018: Colocando AI na frente

Flink tem uma série de APIs — Data streams, conjuntos de dados, funções de processo, a API tabela, e a partir de tarde, SQL, que os desenvolvedores podem usar para diferentes aspectos de seu processamento. Idealmente, as pessoas gostariam de usar SQL para tudo. Isso não só simplificaria a vida dos desenvolvedores, mas também tornaria o Flink mais acessível para usuários não-técnicos.

a necessidade de tornar os artesãos de dados sustentáveis pode ter algo a ver com outras escolhas feitas também. O fato de que a plataforma de artesãos de dados não está disponível na nuvem, por exemplo, é uma diferença marcante com bancos de dados, que apresenta uma estratégia só para a nuvem para sua própria plataforma, jogando a carta iPaaS.

mas quando seus clientes principais são behemoths com sua própria infra-estrutura, como parece ser o caso para os artesãos de dados, oferecendo-lhes uma versão em nuvem faz menos sentido. Isso também pode explicar o comentário de Tzoumas quando ele disse que eles não competem com bancos de dados/faísca muito. Não que Flink não é atraente para organizações menores, mas a história de usar Flink mais algum apoio e consultoria, em vez da plataforma de artesãos de dados, foi um que ouvimos mais frequentemente deles.

Dados de Artesãos e Apache Flink vai para a frente

Apache Flink do (twin) versões 1.4 e 1.5 foram do tipo para introduzir um pouco monótono, não muito popular, mas altamente necessárias melhorias. Eles eram todos sobre a implantação da produção e opções de estabilidade, e eles queriam dizer que alguma compatibilidade reversa tinha que ser quebrado. É por isso que ouvimos muitos usuários ainda rolando com 1.3, embora melhorias em 1.6, principalmente em streaming SQL, tentou alguns a tomar o mergulho e atualização.

Also: the top 10 big data frameworks used in the enterprise TechRepublic

Now, that hard, unglamorous work is mostly over. Uma parte importante que os artesãos de dados pretendem abordar é a contenção de Flink, ou ser capaz de usá-lo como uma biblioteca com Docker e Kubernetes, no que eles chamam modo reativo.

outros itens na agenda para o futuro próximo incluem o auto-dimensionamento, junção de tabela com versionamento de tempo (uma característica muito necessária em um mundo onde os dados são constantemente atualizados), e SQL para análise de padrões. SQL foi extnded com a capacidade MATCH_RECONHECER para este fim, e os artesãos de dados querem trazer isso para Flink.

outra direção interessante é abrir-se para Python através do feixe Apache. Embora Beam e Flink são conceitualmente bastante próximos, como os artesãos de dados CTO Stephan Ewen observou até agora Flink não tinha quaisquer benefícios tangíveis para colher, estando alinhados com Beam. Mas o suporte para o Python está mudando isso.

Beam está introduzindo um framework através do qual APIs em outras linguagens que não Java podem ser suportadas, e Python é o primeiro. De acordo com o Apache Beam people, isso vem sem compromissos insuportáveis na velocidade de execução em comparação com Java — algo como 10% nos cenários que eles foram capazes de testar.

isso significa que Flink pode agora ser programado em Python, também, via Beam, o que é bastante importante dada a prevalência de Python para a ciência dos dados e cenários de aprendizagem de máquinas. Ewen reconheceu isso, notando, no entanto, que não está prestes a desistir de Java tão cedo.

Também: Hortonworks revela roteiro para fazer o Hadoop nuvem-nativo

Databricks/Faísca do outro lado tinha suporte para Python por um tempo agora, o que pode ajudar a explicar o que percebemos como uma ampla diferenciação entre as duas plataformas: Flink é usado mais como um motor de processamento rápido, com ACID reforçando sua posição como o hub de integração para a empresa em tempo real, enquanto Spark é usado mais como uma base de Dados — analytics, com Python e integração notebook contribuindo para sua popularidade.

claro, existem sobreposições, e as coisas não são tão claras quanto isso. Em qualquer caso, vale a pena notar que o suporte ácido dos artesãos de dados é patenteado e parte da plataforma de artesãos de dados, o que significa que, ao contrário de streaming stateful, bancos de dados não será capaz de introduzi-lo em sua própria plataforma tão facilmente. Independentemente disso, bancos de dados e faíscas têm feito progressos na sua própria trajectória, e vamos partilhar mais sobre isso em breve.

cobertura anterior e relacionada:

Cisco dobra faísca para Webex como equipas Webex

equipas Webex pega todas as funcionalidades de colaboração na Cisco Spark e oferece-as ao lado de funcionalidades baseadas na plataforma de conferência Webex.

esta startup acha que sabe como acelerar análises em tempo real em toneladas de dados

fazendo sentido das vastas quantidades de dados recolhidos pelas empresas é um problema para as empresas que Iguazio diz que está rachado.

Apache Flink: o mundo precisa de outro motor de streaming?

embora ainda tenha de desenhar suporte comercial de massa crítica, o Apache Flink promete preencher uma lacuna não abordada por outros motores de transmissão de código aberto: adicionando replay e rollback à sua aplicação de streaming.

indo com o fluxo: o processamento de dados ilimitado com o Apache Flink

Streaming é quente em dados grandes, e o Apache Flink é uma das tecnologias chave neste espaço. O que o torna diferente, que novas características estão incluídas em seu último lançamento, e qual é o seu papel na conquista do grande mundo de dados?

Deixe uma resposta

O seu endereço de email não será publicado.