Banco de dados global avalia eficácia de inteligência artificial com novo teste

Pesquisadores de mais de 40 países, incluindo o Brasil, desenvolveram um novo banco de dados que promete funcionar como um "teste final" para medir a eficácia da inteligência artificial (IA). A ferramenta, chamada Humanity’s Last Exam (HLE), ou "o último exame da humanidade", está disponível ao público e teve seu funcionamento detalhado na revista Nature. As informações foram publicadas pelo Jornal da USP, da Universidade de São Paulo.

O HLE reúne aproximadamente 2.500 questões distribuídas em diversas áreas do conhecimento, como matemática, ciências naturais e humanidades. O principal objetivo é avaliar com precisão o nível de acerto de modelos de IA, incluindo os LLMs (modelos de linguagem de grande porte), como o ChatGPT e o Gemini. A pesquisadora Emily de Oliveira Santos, do Instituto de Ciências Matemáticas e da Computação da USP, que participou do projeto, explicou que a ideia é criar uma ferramenta que possa medir o avanço dos modelos de IA atualmente disponíveis.

Segundo Santos, as empresas que desenvolvem esses modelos costumam divulgar seu desempenho com base em benchmarks, que são conjuntos padronizados de problemas usados para testar as capacidades técnicas. "Benchmarks são coletâneas de problemas que buscam testar as capacidades de um dado modelo. A proposta original do HLE é criar o 'benchmark supremo', um teste onde tirar próximo a 100% seria equivalente a conseguir fazer qualquer coisa que um ser humano faz", destacou.

Em relação ao funcionamento do teste, a pesquisadora detalhou que o diferencial do HLE é que todas as questões possuem uma resposta única e objetivamente verificável. Isso significa que dois especialistas em um determinado assunto chegariam à mesma resposta correta. As respostas costumam ser um número inteiro ou algo igualmente fácil de verificar.

Os pesquisadores podem rodar modelos de IA nas questões do banco de dados por meio de scripts padronizados. Após gerar uma resposta, essa é comparada com o gabarito oficial, permitindo calcular o percentual de acerto. "Desse modo, você pode verificar o desempenho do modelo de IA no teste, sabendo assim quão bem ou mal ele se saiu", explicou Santos.

O banco de dados foi estruturado para avaliar diferentes tipos de habilidades, que vão desde o conhecimento científico até o raciocínio aplicado. A pesquisadora enfatizou que o HLE pode testar desde conhecimentos gerais e senso comum até competências mais complexas, como a aplicação da equação de Schrödinger na mecânica quântica.

Um exemplo prático citado por Santos envolve uma questão sobre como dobrar um origami de tsuru e depois desfazer as dobras, calculando em quantas partes o papel foi dividido. A iniciativa foi disponibilizada no site lastexam.ai e visa subsidiar pesquisas e políticas públicas relacionadas à inteligência artificial.

Além da USP, o projeto conta com a colaboração do Center for AI Safety, da empresa Scale AI, ambos sediados em São Francisco, e do HLE Contributors Consortium.

Desta forma, a criação do HLE representa um avanço significativo na avaliação das capacidades da inteligência artificial. Isso é crucial em um momento em que a tecnologia avança rapidamente e se torna cada vez mais integrada ao nosso cotidiano.

O teste não apenas oferece uma maneira de medir a eficácia dos modelos de IA, mas também pode servir como base para futuras regulamentações e diretrizes no uso dessa tecnologia. A transparência nos resultados pode fomentar a confiança do público nas aplicações de IA.

Entender os limites e as capacidades da inteligência artificial é essencial para evitar mal-entendidos e o uso indevido da tecnologia. O HLE pode contribuir para que empresas e desenvolvedores compreendam melhor o que suas criações realmente são capazes de realizar.

Além disso, a colaboração internacional nesse projeto é um exemplo positivo de como a ciência pode unir esforços em prol de um objetivo comum. Isso demonstra que, quando se trata de inovação, o trabalho conjunto pode levar a resultados mais eficazes e abrangentes.

Finalmente, a disponibilização do HLE ao público pode incentivar a pesquisa e o desenvolvimento de novas soluções em IA, ampliando a discussão sobre o futuro dessa tecnologia e suas aplicações.

Uma dica especial para você

Após a leitura sobre o banco de dados Humanity’s Last Exam e a evolução da inteligência artificial, é hora de garantir que suas medições também estejam no mais alto nível de precisão. Conheça o Nível de precisão de 150 mm, precisão de 0,02 mm/m ... - Amazon. Ideal para quem busca qualidade e exatidão em cada projeto!

Este nível de precisão é a ferramenta perfeita para profissionais que não aceitam erros. Com uma precisão impressionante de 0,02 mm/m, você terá confiança em cada medição, garantindo resultados impecáveis em suas construções e reformas. Seja você um engenheiro, arquiteto ou entusiasta do DIY, este produto elevará seu trabalho a um novo patamar.

Não perca tempo! A demanda por ferramentas de alta precisão está crescendo e este nível é sua chance de se destacar. Garanta já o seu e esteja sempre um passo à frente. Clique aqui para conhecer melhor o produto: Nível de precisão de 150 mm, precisão de 0,02 mm/m ... - Amazon.

Quero Conhecer o Nível de precisão de 150 mm, precisão de 0,02 mm/m ... - Amazon Agora!

Gostou dessa notícia? Você pode compartilhá-la com seus amigos!

Carta Branca News - O seu portal de notícias imparcial

Banco de dados global avalia eficácia de inteligência artificial com novo teste - Informações e Detalhes

Uma dica especial para você

Sobre Hugo Valente Barros

Banco de dados global avalia eficácia de inteligência artificial com novo teste - Informações e Detalhes

Uma dica especial para você

Sobre Hugo Valente Barros

VOCÊ TAMBÉM PODE GOSTAR

Transforme a inteligência artificial em sua aliada

Amazon envia cheques a brasileiros após acordo judicial nos EUA

Estudo revela que ChatGPT associa inteligência a regiões do Brasil de forma preconceituosa

Apple Maps e Apple Ads não serão considerados controladores de acesso pela União Europeia

Primeiro-ministro espanhol responde a críticas de bilionários da tecnologia

Musk propõe construir data centers no espaço, mas especialistas alertam para desafios significativos

Conflito entre Elon Musk e Pedro Sánchez: o que motiva os ataques do magnata ao primeiro-ministro espanhol

Starlink se torna motor de crescimento da SpaceX e pode lançar telefone próprio

Vídeo falso de Marcos Palmeira pede doações para o caso do cão Orelha; golpe utiliza IA

Dicas de Filmes e Séries em Alta na Netflix para o Fim de Semana

Google exibe número falso do Nubank e usuários caem em golpes

Criador de Conteúdo Liga Starlink em Avião e Alega que Não é Proibido

Rumble retoma funcionamento irregular no Brasil, afirma Anatel

Como Proteger sua Conta gov.br e Evitar Golpes

Casal descobre que momentos íntimos foram gravados em hotel na China e compartilhados online

639COM: Aplicativo de Relacionamento Baseado em Astrologia Chega a Eventos de Anitta

FMU implementa novo modelo de avaliação acadêmica utilizando inteligência artificial

Golpe do "Falso Tinder": novo aplicativo tenta roubar dados pessoais

Aviso de Cookies

Preferências de Cookies