.
Uma relativamente novata no mundo corporativo de dados e análises, a Microsoft não se conteve quando lançou sua plataforma Fabric no mês passado.
Contra empresas como SAS e Teradata – com mais de 95 anos de história entre elas – a gigante do software de Redmond, que só lançou seu data warehouse Synapse em 2019, prometeu abordar “todos os aspectos das necessidades analíticas de uma organização”.
É uma afirmação ousada para organizações cujas necessidades já podem estar sendo atendidas por camadas complexas de fornecedores, tecnologias e arquiteturas, cada uma atendendo a diferentes necessidades de negócios ou populações de usuários.
A decisão da Microsoft de avançar com os dois pés foi prenunciada por alguns movimentos de outros grandes rebatedores no fornecimento de data lakes, armazéns e análises baseados em nuvem.
Em janeiro do ano passado, a empresa de data warehouse baseada em nuvem Snowflake anunciou o suporte a tabelas externas para o Apache Iceberg em visualização privada, seguida de disponibilidade geral no verão. Cloudera seguiu o exemplo em julhoenquanto O Google anunciou seu suporte para o formato de tabela de código aberto em outubro do ano passado.
Tudo isso importa porque promete mude a economia da análisepermitindo que os usuários tragam análises para os dados em vez de gastar dinheiro e esforço movendo dados para um repositório específico.
Agora a Microsoft está fazendo algo semelhante, mas de uma maneira um pouco diferente. A empresa anunciou seu suporte para o formato de tabela Delta, que é de código aberto por meio da Linux Foundation, mas obtém a maior parte de suas contribuições da Databricks, a empresa de IA e análise que já foi famosa por apoiar o mecanismo de análise unificada Apache Spark. A SAP também apoiou a Delta por meio de sua parceria com a Databricks, embora ambas as empresas tenham dito que apoiariam Iceberg e Hudi, outro formato de tabela, na plenitude do tempo.
Mas a Microsoft optou pela Delta devido à demanda do mercado, disse Arun Ulag, vice-presidente corporativo da Azure Data. Strong The One.
“Se você traz dados para o data warehouse, está colocando os dados em seu próprio formato proprietário, o que, do ponto de vista do cliente, não é bom porque eles se sentem presos: cada vez que tocam em seus próprios dados, eles precisam pagar alguém para poder para fazer isso. Portanto, no Fabric isso desaparece. O formato nativo do Fabric é o formato de dados de código aberto, o que, do ponto de vista do cliente, tem sido realmente empolgante porque, se liberar os dados, permite que eles usem todo o ecossistema de ferramentas de origem contra os dados”, disse ele.
Embora o suporte para Iceberg e Hudi venha externamente, Ulag explicou que, por padrão, o Microsoft Fabric favoreceria Delta e Apache Parquet, o formato de arquivo de dados orientado a colunas.
“Introduzimos no Fabric nosso formato nativo, por padrão é Delta e Parquet”, disse ele. “É importante porque não é uma tabela externa. Não é algo que, se os dados existirem, você vincula ao Fabric. Você constrói um data warehouse e, por padrão, os dados estão em Delta-Parquet. Esse é um grande passo à frente porque tivemos que fazer muitas otimizações de desempenho para garantir que o tipo de desempenho que podemos oferecer no Delta Parquet seja líder do setor.”
Embora o Fabric seja capaz de vincular e acessar dados mantidos em Delta-Parquet – e eventualmente em outros formatos – em outros lugares, houve vantagens de custo e desempenho em fazer tudo no Fabric.
O Microsoft Fabric usa um data lake virtualizado chamado OneLake, que é construído no Azure Data Lake Storage Gen 2 existente, mas adiciona atalhos para dados no AWS S3 e, em breve, no Google Storage. Existem sete cargas de trabalho principais no Microsoft Fabric: Data Factory (conectores), Synapse Data Engineering (autoria para Apache Spark), Synapse Data Science (construir modelos de IA), Synapse Data Warehousing, Synapse Real Time Analytics, Power BI e Data Activator ( monitoramento de dados e disparo de notificações e eventos).
As vantagens de trabalhar na Delta vêm da combinação dessas cargas de trabalho, afirmou Ulag.
“Você usa o Power BI em um data warehouse Synapse e o Power BI nem envia mais consultas SQL para o Synapse na malha”, disse ele. “Ele simplesmente vai para Onelake e pagina os dados na memória, o que dá aos clientes uma aceleração massiva de desempenho porque não há mais camada SQL no meio da execução de consultas SQL. O Power BI está simplesmente trabalhando com os dados em Onelake, porque esse é seu formato nativo . É também uma enorme redução de custos para os clientes, porque não há consultas SQL a serem pagas.”
A Microsoft chamando seu produto de Fabric está fadada a introduzir alguma confusão porque – para o bem ou para o mal – a indústria se uniu em torno do conceito de uma malha de dados independente dos produtos do fornecedor.
Robert Thanaraj, diretor de gerenciamento de dados do Gartner, explicou que as organizações que encontram muitas cópias de dados, muitos armazenamentos isolados, com poucas informações compartilhadas sobre a natureza desses dados compartilhados de maneira consistente, podem achar o conceito de malha de dados atraente.
“É a abordagem centrada no ser humano para análise de dados e IA. Com uma malha de dados, as organizações buscam obter uma visão corporativa do que exatamente está acontecendo, dentro de meus sistemas, dentro de meus processos de negócios e dentro das diferentes equipes”, disse ele.
O Gartner estimou que, até 2025, os diretores de dados e análises terão adotado a estrutura de dados como um “fator impulsionador para lidar com sucesso com a complexidade do gerenciamento de dados, permitindo que eles se concentrem nas prioridades de negócios digitais que agregam valor”.
Embora fosse verdade que os produtos Fabric da Microsoft poderiam criar vantagens de desempenho e custo criando atalhos para os dados, em vez de movê-los, essas vantagens não seriam mantidas ao acessar dados fora do ambiente Fabric.
Os usuários que já trabalham com Iceberg ou Hudi precisariam mudar para obter as vantagens de custo e desempenho do Fabric.
“Você pode criar atalhos, mas, por motivos de desempenho, precisará migrar. Uma coisa é garantir que você conectou todos os plugues, mas outra é entrar em operação em grande escala para minha empresa. É um jogo totalmente novo. Pode funcionar? Sim, pode. Isso será suficiente? Acho que não”, disse Thanaraj Strong The One.
Basta dizer que a Microsoft não é o único fornecedor com o desejo de se tornar o locus de controle em uma estratégia de dados corporativos que contém muitas partes móveis. Snowflake, Cloudera e Google já reivindicaram.
Como plataforma de nuvem dominante, a AWS tem sua própria abordagem. Ganapathy Krishnamoorthy, vice-presidente de serviços analíticos da AWS, disse que adotar uma abordagem de tamanho único para análise eventualmente leva a concessões.
Como alternativa, “o Amazon S3 oferece integração com todos os serviços da AWS, oferecendo estabilidade e segurança comprovadas em qualquer escala”.
Krishnamoorthy disse que os clientes do Amazon S3 podem usar o formato de dados aberto de sua escolha, incluindo Apache Iceberg, Hudi e Delta Lake. “A AWS suporta todos os três principais formatos de tabela e fornece orientação para ajudar os clientes a selecionar um formato de tabela aberta com base em suas necessidades exclusivas”, disse ele.
Ele alegou que o Redshift oferecia cinco vezes melhor desempenho de preço do que outros data warehouses em nuvem.
O Google recusou a oportunidade de apresentar um entrevistado.
Embora a Microsoft ameace agitar o mercado de produtos de dados corporativos, é muito cedo para julgar se o Fabric, atualmente disponível apenas em versão prévia, atenderia às expectativas dos clientes, disse Thanaraj, do Gartner.
“Levará mais 12 meses até que este produto possa ser GA. Você precisa ver se haverá comprovação do nível de maturidade deste produto, com integradores de sistemas não dependendo apenas da Microsoft. Apenas esteja ciente disso. Se possível, faça um protótipo, explore e experimente. Dê uma olhada em primeira mão, mas não pule ainda”, disse ele.
Ian Cowley, chefe de engenharia de dados da consultoria Ensono, disse que a decisão da Microsoft de escolher a Delta em vez do Iceberg foi simplesmente um sinal da preferência dos clientes e da maturidade do formato. Outros formatos seriam suportados com o tempo, disse ele.
Mas o plano do fornecedor de oferecer suporte a um conjunto díspar de tecnologias com formatos abertos pode, em última instância, consolidar o mercado com base nos provedores de nuvem primários dos usuários, disse ele.
“Ele parece em forma de seta, porque eles eram muito fragmentados há cinco anos. Mas se você pensar sobre isso, todas essas plataformas têm algum tipo de equivalente ao Spark, estamos usando tipos de arquivos de código aberto mais comuns, como Iceberg e Parquet.
“Eles estão separados, mas cada vez mais estão indo na mesma direção. Eventualmente, haverá algum tipo de unificação.”
No final, a malha que foi projetada para unir diferentes fontes de dados e ambientes analíticos pode ser o fio que leva a uma maior consolidação no mercado. ®
.