11 листопада, за даними Gold Ten Data, нове дослідження вказує на те, що методи оцінки здатностей систем штучного інтелекту часто перебільшують їхні можливості і позбавлені наукової строгості. Це дослідження, яке очолила Оксфордська школа інтернету у співпраці з понад тридцятьма іншими установами та дослідниками, проаналізувало 445 провідних тестів штучного інтелекту (так званих бенчмарків), що зазвичай використовуються для оцінки роботи моделей у різних галузях. У дослідженні зазначається, що ці базові тести можуть бути ненадійними, а результати багатьох бенчмарків — сумнівними. Виявлено, що багато провідних тестів не мають чітких цілей, викликає занепокоєння повторне використання вже існуючих даних і методів тестування, а також рідко застосовуються надійні статистичні методи для порівняння результатів різних моделей. Старший дослідник Оксфордської школи інтернету, головний автор дослідження Адам Махді, вважає, що ці бенчмарки можуть вводити в оману, і зазначає: «Коли ми просимо модель штучного інтелекту виконати конкретне завдання, насправді ми часто вимірюємо зовсім інші поняття або конструкції, що не відповідають цілі». Ще один з головних авторів підкреслює, що навіть авторитетні бенчмарки часто сліпо довіряють, і потребують більш глибокого аналізу.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Нові дослідження вказують на те, що здатності штучного інтелекту можуть бути перебільшені через недосконалість тестів
11 листопада, за даними Gold Ten Data, нове дослідження вказує на те, що методи оцінки здатностей систем штучного інтелекту часто перебільшують їхні можливості і позбавлені наукової строгості. Це дослідження, яке очолила Оксфордська школа інтернету у співпраці з понад тридцятьма іншими установами та дослідниками, проаналізувало 445 провідних тестів штучного інтелекту (так званих бенчмарків), що зазвичай використовуються для оцінки роботи моделей у різних галузях. У дослідженні зазначається, що ці базові тести можуть бути ненадійними, а результати багатьох бенчмарків — сумнівними. Виявлено, що багато провідних тестів не мають чітких цілей, викликає занепокоєння повторне використання вже існуючих даних і методів тестування, а також рідко застосовуються надійні статистичні методи для порівняння результатів різних моделей. Старший дослідник Оксфордської школи інтернету, головний автор дослідження Адам Махді, вважає, що ці бенчмарки можуть вводити в оману, і зазначає: «Коли ми просимо модель штучного інтелекту виконати конкретне завдання, насправді ми часто вимірюємо зовсім інші поняття або конструкції, що не відповідають цілі». Ще один з головних авторів підкреслює, що навіть авторитетні бенчмарки часто сліпо довіряють, і потребують більш глибокого аналізу.