.
Quais são os pontos de inflexão para um boom de IA?
Alguns são claros em retrospectiva.
O lançamento de código aberto do Stable Diffusion, ainda um dos geradores de imagens mais impressionantes, foi o começo do fim do modelo de acesso fechado que dominava o mundo da IA até então. Chegou quando o gerador de imagens Dall-E 2 ainda estava limitado a um punhado de pessoas que haviam sido vetadas pela OpenAI, e oferecia uma proposta alternativa: criação poderosa de imagens para quem quisesse.
Isso levou ao próximo ponto de inflexão: o lançamento do ChatGPT, o Ford Modelo T de IA. Era de acesso aberto, fácil de usar e poderosamente capaz, e sua aparência capturou a imaginação e impulsionou a tecnologia ao auge do ciclo de hype.
Agora, apenas alguns meses depois, estamos vendo a chegada de um terceiro, à medida que os sistemas de IA deixam de ser um serviço autônomo para algo profundamente integrado às ferramentas e aplicativos que já usamos para trabalhar e viver.
Copiloto (e Google)
Na última terça-feira, o Google anunciou uma série de ferramentas de IA para seu pacote de produtividade. Com o tempo, os usuários poderão usar o modelo de linguagem grande (LLM) da empresa para gerar texto diretamente no Gmail ou no Google Docs; gerar imagens, áudio e vídeo em Slides; e faça perguntas complexas em linguagem natural para manipular dados no Planilhas Google.
A empresa foi evasiva sobre quando esses recursos seriam lançados, dizendo apenas que planeja trazê-los para “testadores confiáveis continuamente ao longo do ano, antes de disponibilizá-los publicamente”. No verdadeiro estilo do Google, a empresa parecia mais preocupada em mostrar sua inegável capacidade do que em enviar projetos.
Mas nunca desconte a espionagem corporativa leve como motivo. Alguns dias depois, a motivação para anunciar os recursos ficou clara quando a Microsoft realizou um evento de lançamento de seu novo recurso Copilot para Microsoft 365 (ainda mais conhecido como MS Office, marca que foi tecnicamente aposentada no início deste ano) . Da beira:
O Copilot, alimentado por GPT-4 da OpenAI, ficará ao lado dos aplicativos do Microsoft 365 como um assistente (lembra do Clippy?), aparecendo na barra lateral como um chatbot que permite aos usuários do Office invocá-lo para gerar texto em documentos, criar apresentações em PowerPoint com base em documentos do Word ou até mesmo ajudar a usar recursos como Tabelas Dinâmicas no Excel.
Os recursos que a Microsoft demonstrou na quinta-feira são extremamente impressionantes. Você pode participar de um bate-papo por vídeo do Teams e pedir não apenas um breve resumo do que foi discutido até agora, mas também uma ideia de como uma proposta específica foi recebida pelos outros membros da chamada. O Copilot pode não apenas redigir um e-mail convidando as pessoas para uma festa de aniversário, mas também pode incluir um pedido para que respondam com anedotas para usar em um discurso e, em seguida, retire automaticamente as três melhores histórias dessas respostas, edite-as para comprimento e jogue diretamente em suas anotações para a própria palestra.
A Microsoft diz que o Copilot não é apenas uma versão do GPT-4 desajeitadamente presa ao Office. A empresa diz que está intimamente integrado com os dados brutos que estão por trás de tudo que você faz e pode ser muito mais preciso como resultado.
Mas acho que isso importa menos do que a simples presença de um sistema de IA integrado ao gigante corporativo que é o Office. Assim que esses recursos forem lançados – e quando o Google apertar o botão em seus próprios aplicativos da web – milhões de pessoas em todo o mundo terão a capacidade de usar uma IA poderosa como colega de trabalho, sem ter que convencer a gerência a assinar sem ter que experimentar e confiar em um novo provedor e sem que ninguém decida conscientemente “mudar para IA”.
Adobe
A Microsoft foi apenas o começo. Hoje, a Adobe anunciou uma revisão semelhante de seus próprios produtos, trazendo a geração de imagens AI para sua Creative Cloud (mais conhecida por Photoshop). O novo serviço, chamado Firefly, é em parte uma extensão semelhante da oferta produzida pela Microsoft, trazendo tecnologia baseada em IA para dentro dos processos e fluxos de trabalho aos quais os clientes da empresa já estão acostumados.
Isso significa que os usuários poderão ativar o Firefly para gerar novas imagens, como outros geradores de imagens, como Midjourney e Stable Diffusion, ou criar efeitos de texto para letras. A empresa também está planejando introduzir a edição de vídeo com inteligência artificial (“faça esta cena parecer como se tivesse sido filmada no inverno”), modelagem 3D e manipulação de imagem digital.
A Adobe é um dos principais fornecedores comerciais de ferramentas baseadas em IA há algum tempo. O “preenchimento sensível ao conteúdo” do Photoshop, que usava técnicas de proto-IA para substituir o fundo em imagens editadas, foi um marco na edição de imagens quando foi lançado há mais de uma década.
Mas a oferta da empresa desta vez é mais do que apenas construir a mesma geração de IA em seu próprio software. Um ponto central da Firefly é que a empresa está oferecendo geração “segura”: seu modelo generativo é, diz ela, “treinado em imagens do Adobe Stock, conteúdo licenciado abertamente e conteúdo de domínio público onde os direitos autorais expiraram”. Em outras palavras, se você trabalha com imagens criadas pelo Firefly, sabe com certeza que não há nenhum processo desagradável de direitos autorais em andamento.
após a promoção do boletim informativo
Isso contrasta fortemente com o GPT-4, que é treinado em … bem, ninguém realmente sabe. (Em uma entrevista muito reveladora, o cientista-chefe da OpenAI “não respondeu quando questionado se a OpenAI poderia afirmar definitivamente que seus dados de treinamento não incluem material pirateado”. Em informações certamente não relacionadas, um dos maiores conjuntos de dados de treinamento LLM, uma coleção de 800 GB de texto chamado Pile, inclui 196.640 livros baixados de um popular site BitTorrent chamado Bibliotik. O aviso de direitos autorais para os anfitriões do Pile é um vídeo de um coro de mulheres fingindo se masturbar.)
Os planos da Adobe para se destacar aqui vão ainda mais longe. Em 2019, a empresa fundou a Content Authenticity Initiative, que visa combater a desinformação criando um padrão para imagens e outras mídias incorporarem provas de sua proveniência. Agora, está expandindo isso introduzindo uma tag “não treinar” nas imagens, permitindo que os criadores garantam que sua mídia não seja incorporada a modelos futuros. Não é tão forte quanto alguns críticos gostariam – um sistema opt-out sempre pegará mais pessoas desprevenidas do que um opt-in – mas é um claro impulso para a respeitabilidade.
Mais uma vez para o Google
Apenas uma hora após o anúncio da Adobe (e a razão pela qual o boletim informativo de hoje é publicado um pouco mais tarde do que o habitual), o Google revelou o projeto que pode matar a galinha dos ovos de ouro – ou salvá-la.
Bard, a IA de conversação no estilo ChatGPT do Google que foi anunciada no início deste ano (novamente, apenas alguns dias antes da Microsoft anunciar e enviar seu próprio Bing Chat) agora é real, com a empresa lançando acesso aos usuários por meio de uma lista de espera.
Comparado com a concorrência, não há nada imediatamente impressionante no que Bard pode fazer. Mas alguns recursos o distinguem, como a capacidade de gerar automaticamente vários rascunhos de uma resposta mais longa para ver qual você prefere, a distinção entre postagens factuais simples que chegam com notas de rodapé para fontes e as mais generativas que não, ou o capacidade de gerar automaticamente uma pesquisa do Google a partir de suas consultas.
Mas levará tempo para descobrir onde Bard se destaca, um fenômeno conhecido na indústria como “excesso de capacidade”. Normalmente, descobrimos o que os modelos de IA podem fazer nas semanas e meses após sua criação, pois consultas simples dão lugar a comandos mais elaborados e práticos. Por enquanto, e com apenas uma rápida demonstração ao vivo, parece estar quase no mesmo nível da concorrência, embora tenha aberto sua primeira resposta com um erro: respondendo a um pedido de lista de atividades para crianças em Tóquio, não mencionou que o mercado que sugeriu havia se realocado substancialmente desde 2018.
Igualmente obscuro e mais existencial, é se Bard pode coexistir com a Pesquisa do Google. A empresa não quis responder a perguntas sobre o custo de execução de uma consulta Bard, em vez disso, falou sobre as melhorias de eficiência que eles fizeram, mas um valor aproximado de 10 a 100 vezes mais do que uma única pesquisa no Google é uma aposta segura. O Bard, no entanto, não mostra aos usuários nenhum anúncio (ainda), então não está claro se ele seria capaz de ganhar elegantemente nem mesmo uma fração da receita de um slot de pesquisa normal.
A empresa insiste que algumas perguntas serão melhor respondidas por meio de uma pesquisa (incluindo minha própria pergunta sobre o Japão), e se Bard servir como uma estratégia cara de aquisição de tráfego para evitar uma possível inundação de usuários no Bing e no ChatGPT, isso pode ser bom suficiente para o curto prazo. Mas parece uma estratégia de espera em que o Google deveria estar buscando as estrelas.
Se você deseja ler a versão completa do boletim informativo, inscreva-se para receber o TechScape em sua caixa de entrada todas as terças-feiras
.







