Dados do Jīnshí em 6 de novembro indicam que um novo estudo aponta que os métodos de avaliação da capacidade dos sistemas de inteligência artificial frequentemente exageram o desempenho da IA e carecem de rigor científico. Esta pesquisa, liderada pelo Oxford Internet Institute e realizada em colaboração com mais de trinta instituições e pesquisadores, analisou 445 testes de referência avançados — conhecidos como benchmarks — que são comumente utilizados para medir o desempenho de modelos de IA em diferentes áreas temáticas. O estudo destaca que esses testes básicos podem carecer de confiabilidade e questiona a validade de muitos resultados de benchmarks.
A pesquisa afirma que muitos benchmarks de alto nível não definem claramente seus objetivos de teste, preocupando-se com a reutilização repetida de dados e métodos de teste existentes, além de raramente utilizarem métodos estatísticos confiáveis para comparar os resultados de diferentes modelos. Adam Mahdi, pesquisador sênior do Oxford Internet Institute e principal autor do estudo, acredita que esses benchmarks podem gerar informações enganosas preocupantes, afirmando: “Quando pedimos a um modelo de IA que execute uma tarefa específica, muitas vezes estamos na verdade medindo conceitos ou construções completamente diferentes do objetivo pretendido.” Outro autor principal também considera que, mesmo os benchmarks de credibilidade, frequentemente, são aceitos de forma cega, sendo necessário um exame mais aprofundado.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Nova pesquisa indica: a capacidade de IA pode estar superestimada devido a testes com falhas
Dados do Jīnshí em 6 de novembro indicam que um novo estudo aponta que os métodos de avaliação da capacidade dos sistemas de inteligência artificial frequentemente exageram o desempenho da IA e carecem de rigor científico. Esta pesquisa, liderada pelo Oxford Internet Institute e realizada em colaboração com mais de trinta instituições e pesquisadores, analisou 445 testes de referência avançados — conhecidos como benchmarks — que são comumente utilizados para medir o desempenho de modelos de IA em diferentes áreas temáticas. O estudo destaca que esses testes básicos podem carecer de confiabilidade e questiona a validade de muitos resultados de benchmarks.
A pesquisa afirma que muitos benchmarks de alto nível não definem claramente seus objetivos de teste, preocupando-se com a reutilização repetida de dados e métodos de teste existentes, além de raramente utilizarem métodos estatísticos confiáveis para comparar os resultados de diferentes modelos. Adam Mahdi, pesquisador sênior do Oxford Internet Institute e principal autor do estudo, acredita que esses benchmarks podem gerar informações enganosas preocupantes, afirmando: “Quando pedimos a um modelo de IA que execute uma tarefa específica, muitas vezes estamos na verdade medindo conceitos ou construções completamente diferentes do objetivo pretendido.” Outro autor principal também considera que, mesmo os benchmarks de credibilidade, frequentemente, são aceitos de forma cega, sendo necessário um exame mais aprofundado.