.

Aurich Lawson | Getty Images
A Dra. Sasha Luccioni é pesquisadora e líder climática na Hugging Face, onde estuda os impactos éticos e sociais de modelos e conjuntos de dados de IA. Ela também é diretora da Women in Machine Learning (WiML), membro fundadora da Climate Change AI (CCAI) e presidente do comitê do Código de Ética da NeurIPS. As opiniões nesta peça não refletem necessariamente as opiniões da Strong The One.
Nos últimos meses, o campo da inteligência artificial teve um rápido crescimento, com onda após onda de novos modelos como Dall-E e GPT-4 surgindo um após o outro. Toda semana traz a promessa de modelos, produtos e ferramentas novos e empolgantes. É fácil ser arrastado pelas ondas do hype, mas esses recursos brilhantes têm um custo real para a sociedade e para o planeta.
As desvantagens incluem o impacto ambiental da mineração de minerais raros, os custos humanos do processo trabalhoso de anotação de dados e o crescente investimento financeiro necessário para treinar modelos de IA à medida que incorporam mais parâmetros.
Vejamos as inovações que alimentaram as gerações recentes desses modelos e aumentaram seus custos associados.
modelos maiores
Nos últimos anos, os modelos de IA ficaram maiores, com os pesquisadores medindo seu tamanho em centenas de bilhões de parâmetros. “Parâmetros” são as conexões internas usadas nos modelos para aprender padrões com base nos dados de treinamento.
Para modelos de linguagem grandes (LLMs) como ChatGPT, passamos de cerca de 100 milhões de parâmetros em 2018 para 500 bilhão em 2023 com o modelo PaLM do Google. A teoria por trás desse crescimento é que modelos com mais parâmetros devem ter melhor desempenho, mesmo em tarefas nas quais não foram inicialmente treinados, embora essa hipótese permaneça sem comprovação.

Modelos maiores normalmente levam mais tempo para treinar, o que significa que eles também precisam de mais GPUs, que custam mais dinheiro, então apenas algumas organizações selecionadas são capazes de treiná-los. As estimativas colocam o custo de treinamento do GPT-3, que tem 175 bilhões de parâmetros, em US$ 4,6 milhões – fora do alcance da maioria das empresas e organizações. (Vale a pena notar que o custo dos modelos de treinamento está caindo em alguns casos, como no caso do LLaMA, o modelo recente treinado pela Meta.)
Isso cria uma divisão digital na comunidade de IA entre aqueles que podem treinar os LLMs mais avançados (principalmente empresas de Big Tech e instituições ricas no Norte Global) e aqueles que não podem (organizações sem fins lucrativos, startups e qualquer pessoa sem acesso a um supercomputador ou milhões em créditos de nuvem). Construir e implantar esses gigantes requer muitos recursos planetários: metais raros para fabricar GPUs, água para resfriar enormes data centers, energia para manter esses data centers funcionando 24 horas por dia, 7 dias por semana em escala planetária… sobre o potencial futuro dos modelos resultantes.
impactos planetários
Um estudo da professora Emma Strubell da Carnegie Melon University sobre a pegada de carbono do treinamento de LLMs estimou que o treinamento de um modelo de 2019 chamado BERT, que tem apenas 213 milhões de parâmetros, emitiu 280 toneladas métricas de emissões de carbono, aproximadamente o equivalente às emissões de cinco carros ao longo de seus vidas. Desde então, os modelos cresceram e o hardware tornou-se mais eficiente, então onde estamos agora?
Em um artigo acadêmico recente que escrevi para estudar as emissões de carbono decorrentes do treinamento do BLOOM, um modelo de linguagem de 176 bilhões de parâmetros, comparamos o consumo de energia e as emissões de carbono resultantes de vários LLMs, todos lançados nos últimos anos. O objetivo da comparação era ter uma ideia da escala de emissões de diferentes tamanhos de LLMs e o que os impacta.
.






