Ciência e Tecnologia

Pedi um algoritmo para otimizar minha vida. Aqui está o que aconteceu

.

Com um limite de cinco, eu escolheria uma opção aleatória para cerca de uma em cada 20 decisões que tomei com meu algoritmo. Escolhi cinco como limite porque parecia uma frequência razoável para aleatoriedade ocasional. Para empreendedores, existem outros processos de otimização para decidir qual corte usar ou até mesmo alterar o valor de corte à medida que o aprendizado continua. Sua melhor aposta geralmente é tentar alguns valores e ver qual é o mais eficaz. Os algoritmos de aprendizado por reforço às vezes realizam ações aleatórias porque dependem de experiências passadas. Sempre selecionar a melhor opção prevista pode significar perder uma escolha melhor que nunca foi tentada antes.

Eu duvidava que esse algoritmo fosse realmente melhorar minha vida. Mas a estrutura de otimização, apoiada por provas matemáticas, artigos revisados ​​por pares e bilhões em receitas do Vale do Silício, fez muito sentido para mim. Como, exatamente, isso desmoronaria na prática?

8:30 da manhã

A primeira decisão? Se devo acordar às 8h30 como planejei. Desliguei meu alarme, abri o RNG e prendi a respiração enquanto ele girava e cuspia… um 9!

Agora a grande questão: no passado, dormir até tarde ou acordar no horário produziu resultados mais preferíveis para mim? Minha intuição gritou que eu deveria pular qualquer raciocínio e apenas dormir, mas por uma questão de justiça, tentei ignorá-la e registrar minhas memórias nebulosas de sonecas matinais. A alegria de ficar na cama era maior do que uma manhã sem pressa de fim de semana, decidi, desde que não perdesse nada importante.

9:00 da manhã

Eu tinha uma reunião de projeto em grupo pela manhã e algumas leituras de aprendizado de máquina para terminar antes de começar (“Bayesian Deep Learning via Subnetwork Inference”, alguém?), Então não consegui dormir por muito tempo. O RNG me instruiu a decidir com base na experiência anterior se deveria pular a reunião; Eu optei por assistir. Para decidir se faria minha leitura, rolei novamente e tirei 5, o que significa que escolheria aleatoriamente entre fazer a leitura ou pular.

Foi uma decisão tão pequena, mas eu estava surpreendentemente nervoso enquanto me preparava para rolar outro número aleatório no meu telefone. Se tirasse 50 ou menos, pularia a leitura para honrar o componente de “exploração” do algoritmo de tomada de decisão, mas na verdade não queria. Aparentemente, fugir da leitura só é divertido quando você faz isso de propósito.

Apertei o botão GERAR.

65. Afinal, eu leria.

11h15

Escrevi uma lista de opções de como passar o tempo livre que agora tenho. Eu poderia caminhar até um café distante que estava querendo experimentar, ligar para casa, começar alguns trabalhos escolares, procurar programas de doutorado para os quais me inscrever, mergulhar em uma toca de coelho irrelevante na Internet ou tirar uma soneca. Um número alto saiu do RNG – eu precisaria tomar uma decisão baseada em dados sobre o que fazer.

Esta foi a primeira decisão do dia mais complicada do que sim ou não, e no momento em que comecei a pensar em quão “preferível” cada opção era, ficou claro que eu não tinha como fazer uma estimativa precisa. Quando um agente de IA que segue um algoritmo como o meu toma decisões, os cientistas da computação já lhe disseram o que qualifica como “preferível”. Eles traduzem o que o agente experimenta em uma pontuação de recompensa, que a IA tenta maximizar, como “tempo sobrevivido em um videogame” ou “dinheiro ganho no mercado de ações”. As funções de recompensa podem ser complicadas de definir, no entanto. Um robô de limpeza inteligente é um exemplo clássico. Se você instruir o robô a simplesmente maximizar os pedaços de lixo jogados fora, ele poderá aprender a derrubar a lata de lixo e colocar o mesmo lixo novamente para aumentar sua pontuação.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo