.
A Oracle lançou o MySQL HeatWave Lakehouse, uma extensão de sua plataforma analítica proprietária que agora suporta armazenamento de objetos fora do banco de dados.
O sistema de análise, que foi construído sobre o banco de dados MySQL de código aberto, pode consultar dados no armazenamento de objetos em vários formatos de arquivo, bem como combiná-los com dados no MySQL. Enquanto isso, os arquivos no armazenamento de objetos são consultados diretamente pelo HeatWave sem copiar os dados para o banco de dados MySQL, disse a Oracle.
A tecnologia de data lake oferece suporte a formatos de arquivo, incluindo CSV, Parquet e arquivos de exportação de outros bancos de dados. Ao mesmo tempo, o MySQL Autopilot promete melhorar o desempenho e a escalabilidade sem exigir experiência em ajuste de banco de dados.
Em um benchmark TPC-H de 500 TB, as consultas de declarações da Oracle demoravam nove vezes mais no data warehouse da AWS e 17 vezes mais no Snowflake e Databricks em comparação com o novo datalake Heatwave. O BigQuery do Google seria 36 vezes mais lento, calcula a Oracle, embora não tenha publicado comparações com a Teradata, fornecedora de armazenamento de dados fundada em 1979.
O sistema está disponível apenas no Oracle Cloud Infrastructure (OCI), mas Nipun Agarwal, vice-presidente sênior do MySQL HeatWave, disse Strong The One que a Oracle planejou estender o sistema para consultar dados mantidos no armazenamento de objetos em outras nuvens, incluindo AWS, Azure e GCP.
“Uma das coisas importantes a serem observadas aqui é que os dados no armazenamento de objetos permanecem no armazenamento de objetos”, disse ele. “Não copiamos dados do armazenamento de objetos para o banco de dados MySQL. Em segundo lugar, o processamento desses dados, sejam eles carregados ou consultados, é feito pelo Heatwave, não pelo mecanismo MySQL. Isso é o que lhe dá extrema escalabilidade, porque o cluster Heatwave pode escalar até 500 nós.”
O uso de mecanismos analíticos para consultar dados fora de seu banco de dados doméstico não é novidade. A abordagem foi usada por Snowflake, Cloudera e Google’s BigQuery com suporte para o formato de tabela Apache Iceberg. Da mesma forma, Databricks, Microsoft e SAP endossaram o formato de tabela Delta Lake, um formato de código aberto sob a Linux Foundation, criado pela Databricks.
Comentaristas e fornecedores sugeriram que a maioria dos fornecedores oferecerá suporte à maioria dos formatosincluindo Hudi.
Agarwal disse que a Oracle pretende que o HeatWave suporte esses formatos no futuro, começando com Iceberg e Delta Lake.
O recurso Autopilot oferece inferência de esquema, que ajuda os usuários a determinar o tipo de dados no armazenamento de objetos antes que os dados sejam analisados pelo mecanismo de consulta.
“Podemos criar esse mapeamento, mesmo para arquivos que não possuem metadados”, disse Agarwal. “O piloto automático pode fazer essas previsões em menos de um minuto. Inventamos essa técnica chamada amostragem adaptativa de dados, que escaneia e amostra o arquivo de maneira muito inteligente sem comprometer a precisão.”
O piloto automático também prevê a representação na memória para uma fonte de dados específica, o tamanho ideal do cluster necessário para computar os dados e quanto tempo levará para carregar os dados, disse ele.
Holger Mueller, vice-presidente e principal analista da Constellation Research, disse que a Oracle introduziu novos recursos no HeatWave nos últimos três anos em ritmo acelerado. “A equipe HeatWave inovou todos os outros bancos de dados em nuvem”, afirmou.
A mudança para o armazenamento de objetos foi “enorme”, acrescentou ele, porque “permite que os usuários reúnam todos os dados da empresa – em uma única consulta. É algo que as empresas esperavam há muito tempo”.
Enquanto isso, a capacidade de consultar dados no armazenamento de objetos AWS, Azure e GCP atrairia usuários que desejam trabalhar em todos os dados corporativos usando o Heatwave, disse ele.
Como qualquer modelo de suíte, o Oracle Heatwave tinha a desvantagem de competir com players especializados em qualquer um de seus recursos. “Mas, neste ponto, a Oracle é mais do que boa o suficiente”, disse Mueller. ®
.