Нові дослідження вказують на те, що здатності штучного інтелекту можуть бути перебільшені через недосконалість тестів

GateNewsBot

2025-11-06 12:51:57

Генерація анотацій у процесі

11 листопада, за даними Gold Ten Data, нове дослідження вказує на те, що методи оцінки здатностей систем штучного інтелекту часто перебільшують їхні можливості і позбавлені наукової строгості. Це дослідження, яке очолила Оксфордська школа інтернету у співпраці з понад тридцятьма іншими установами та дослідниками, проаналізувало 445 провідних тестів штучного інтелекту (так званих бенчмарків), що зазвичай використовуються для оцінки роботи моделей у різних галузях. У дослідженні зазначається, що ці базові тести можуть бути ненадійними, а результати багатьох бенчмарків — сумнівними. Виявлено, що багато провідних тестів не мають чітких цілей, викликає занепокоєння повторне використання вже існуючих даних і методів тестування, а також рідко застосовуються надійні статистичні методи для порівняння результатів різних моделей. Старший дослідник Оксфордської школи інтернету, головний автор дослідження Адам Махді, вважає, що ці бенчмарки можуть вводити в оману, і зазначає: «Коли ми просимо модель штучного інтелекту виконати конкретне завдання, насправді ми часто вимірюємо зовсім інші поняття або конструкції, що не відповідають цілі». Ще один з головних авторів підкреслює, що навіть авторитетні бенчмарки часто сліпо довіряють, і потребують більш глибокого аналізу.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.