Banco de dados global avalia eficácia de inteligência artificial com novo teste - Informações e Detalhes
Pesquisadores de mais de 40 países, incluindo o Brasil, desenvolveram um novo banco de dados que promete funcionar como um "teste final" para medir a eficácia da inteligência artificial (IA). A ferramenta, chamada Humanity’s Last Exam (HLE), ou "o último exame da humanidade", está disponível ao público e teve seu funcionamento detalhado na revista Nature. As informações foram publicadas pelo Jornal da USP, da Universidade de São Paulo.
O HLE reúne aproximadamente 2.500 questões distribuídas em diversas áreas do conhecimento, como matemática, ciências naturais e humanidades. O principal objetivo é avaliar com precisão o nível de acerto de modelos de IA, incluindo os LLMs (modelos de linguagem de grande porte), como o ChatGPT e o Gemini. A pesquisadora Emily de Oliveira Santos, do Instituto de Ciências Matemáticas e da Computação da USP, que participou do projeto, explicou que a ideia é criar uma ferramenta que possa medir o avanço dos modelos de IA atualmente disponíveis.
Segundo Santos, as empresas que desenvolvem esses modelos costumam divulgar seu desempenho com base em benchmarks, que são conjuntos padronizados de problemas usados para testar as capacidades técnicas. "Benchmarks são coletâneas de problemas que buscam testar as capacidades de um dado modelo. A proposta original do HLE é criar o 'benchmark supremo', um teste onde tirar próximo a 100% seria equivalente a conseguir fazer qualquer coisa que um ser humano faz", destacou.
Em relação ao funcionamento do teste, a pesquisadora detalhou que o diferencial do HLE é que todas as questões possuem uma resposta única e objetivamente verificável. Isso significa que dois especialistas em um determinado assunto chegariam à mesma resposta correta. As respostas costumam ser um número inteiro ou algo igualmente fácil de verificar.
Os pesquisadores podem rodar modelos de IA nas questões do banco de dados por meio de scripts padronizados. Após gerar uma resposta, essa é comparada com o gabarito oficial, permitindo calcular o percentual de acerto. "Desse modo, você pode verificar o desempenho do modelo de IA no teste, sabendo assim quão bem ou mal ele se saiu", explicou Santos.
O banco de dados foi estruturado para avaliar diferentes tipos de habilidades, que vão desde o conhecimento científico até o raciocínio aplicado. A pesquisadora enfatizou que o HLE pode testar desde conhecimentos gerais e senso comum até competências mais complexas, como a aplicação da equação de Schrödinger na mecânica quântica.
Um exemplo prático citado por Santos envolve uma questão sobre como dobrar um origami de tsuru e depois desfazer as dobras, calculando em quantas partes o papel foi dividido. A iniciativa foi disponibilizada no site lastexam.ai e visa subsidiar pesquisas e políticas públicas relacionadas à inteligência artificial.
Além da USP, o projeto conta com a colaboração do Center for AI Safety, da empresa Scale AI, ambos sediados em São Francisco, e do HLE Contributors Consortium.
Desta forma, a criação do HLE representa um avanço significativo na avaliação das capacidades da inteligência artificial. Isso é crucial em um momento em que a tecnologia avança rapidamente e se torna cada vez mais integrada ao nosso cotidiano.
O teste não apenas oferece uma maneira de medir a eficácia dos modelos de IA, mas também pode servir como base para futuras regulamentações e diretrizes no uso dessa tecnologia. A transparência nos resultados pode fomentar a confiança do público nas aplicações de IA.
Entender os limites e as capacidades da inteligência artificial é essencial para evitar mal-entendidos e o uso indevido da tecnologia. O HLE pode contribuir para que empresas e desenvolvedores compreendam melhor o que suas criações realmente são capazes de realizar.
Além disso, a colaboração internacional nesse projeto é um exemplo positivo de como a ciência pode unir esforços em prol de um objetivo comum. Isso demonstra que, quando se trata de inovação, o trabalho conjunto pode levar a resultados mais eficazes e abrangentes.
Finalmente, a disponibilização do HLE ao público pode incentivar a pesquisa e o desenvolvimento de novas soluções em IA, ampliando a discussão sobre o futuro dessa tecnologia e suas aplicações.
Uma dica especial para você
Após a leitura sobre o banco de dados Humanity’s Last Exam e a evolução da inteligência artificial, é hora de garantir que suas medições também estejam no mais alto nível de precisão. Conheça o Nível de precisão de 150 mm, precisão de 0,02 mm/m ... - Amazon. Ideal para quem busca qualidade e exatidão em cada projeto!
Este nível de precisão é a ferramenta perfeita para profissionais que não aceitam erros. Com uma precisão impressionante de 0,02 mm/m, você terá confiança em cada medição, garantindo resultados impecáveis em suas construções e reformas. Seja você um engenheiro, arquiteto ou entusiasta do DIY, este produto elevará seu trabalho a um novo patamar.
Não perca tempo! A demanda por ferramentas de alta precisão está crescendo e este nível é sua chance de se destacar. Garanta já o seu e esteja sempre um passo à frente. Clique aqui para conhecer melhor o produto: Nível de precisão de 150 mm, precisão de 0,02 mm/m ... - Amazon.
Gostou dessa notícia? Você pode compartilhá-la com seus amigos!