A OpenAI apresenta o GPTBot com informações sobre como limitar a sua utilização.
A OpenAI introduziu o GPTBot, um novo mecanismo de busca na web destinado a aprimorar os próximos modelos de inteligência artificial, como o GPT-4 e o eventual GPT-5.
Qual é o mecanismo de operação do GPTBot?
Identificável através do token de agente de usuário e da cadeia de caracteres user-agent correspondente, essa plataforma monitora a internet em busca de informações que possam aprimorar a eficácia, funcionalidades e segurança da inteligência artificial.
Deve-se ser rigoroso ao filtrar qualquer fonte restrita por paywall, que viole as políticas da OpenAI ou que colete informações pessoalmente identificáveis.
O uso do GPTBot tem o potencial de impulsionar de forma significativa os modelos de IA.
Ao dar permissão para que ele visite o seu site, você está ajudando a enriquecer o conjunto de dados, o que beneficia o desenvolvimento da inteligência artificial em escala global.
Entretanto, não se trata de uma situação universal. O OpenAI possibilitou aos administradores de sites da web a decisão de permitir ou não o acesso ao GPTBot em seus sites.
Limitando a entrada do GPTBot.
Se os administradores do site quiserem impedir que o GPTBot acesse seu site, eles podem alterar o arquivo robots.txt.
Adicionando isso, é possível evitar que o GPTBot acesse todo o conteúdo do seu site.
Em contrapartida, indivíduos que queiram autorizar um acesso limitado podem ajustar as pastas que o GPTBot tem permissão para acessar. Para realizar essa ação, inclua a seguinte informação no arquivo de texto dos robôs.
No que diz respeito às operações técnicas do GPTBot, as solicitações feitas aos sites são feitas a partir de intervalos de endereços IP que estão registrados no site da OpenAI. Isso ajuda os administradores de sites a terem mais transparência e compreensão sobre a origem do tráfego em seus sites.
Permitir ou desativar o rastreador web GPTBot pode ter um impacto substancial na privacidade, segurança e na forma como os dados do seu site são utilizados para desenvolver a inteligência artificial.
Questões legais e morais em mente.
A notícia mais recente da OpenAI gerou discussões na Hacker News sobre a ética e legalidade de utilizar dados da web raspados para o treinamento de sistemas de inteligência artificial proprietários.
O GPT Bot se apresenta aos administradores de sites para que possam bloqueá-lo usando o arquivo robots.txt, porém há quem questione se vale a pena permitir sua presença, uma vez que não oferece os mesmos benefícios que os rastreadores de motores de busca, que ajudam a aumentar o tráfego. Uma questão importante levantada é o uso de conteúdo protegido por direitos autorais sem a devida atribuição, sendo que o ChatGPT atualmente não fornece referências.
Existem dúvidas sobre como o GPTBot lida com imagens, vídeos, músicas e outras formas de mídia protegidas por direitos autorais encontradas em sites. Se esse tipo de mídia for utilizada no treinamento do modelo, poderia resultar em violação de direitos autorais. Alguns especialistas estão preocupados que os dados gerados pelo GPTBot possam prejudicar os modelos se o conteúdo criado pela inteligência artificial for reintroduzido no treinamento.
Por outro lado, há quem defenda que a OpenAI tem o direito de utilizar livremente dados públicos da internet, fazendo uma analogia com uma pessoa que aprende através de conteúdos online. Porém, há também aqueles que argumentam que a OpenAI deveria compartilhar os lucros caso venha a lucrar com a monetização desses dados web para fins comerciais.
Em linhas gerais, o GPTBot gerou discussões abrangentes sobre questões como propriedade, uso adequado e motivações dos criadores de conteúdo online. Embora a adoção do arquivo robots.txt seja positiva, ainda há uma lacuna em termos de transparência. A comunidade de tecnologia está questionando como seus dados serão utilizados à medida que os produtos de IA evoluem rapidamente.
Ilustração principal: Foto de Vitor Miranda da Shutterstock.