Скануйте, щоб завантажити додаток Gate
qrCode
Більше варіантів завантаження
Не нагадувати сьогодні

Нові дослідження вказують на те, що здатності штучного інтелекту можуть бути перебільшені через недосконалість тестів

robot
Генерація анотацій у процесі

11 листопада, за даними Gold Ten Data, нове дослідження вказує на те, що методи оцінки здатностей систем штучного інтелекту часто перебільшують їхні можливості і позбавлені наукової строгості. Це дослідження, яке очолила Оксфордська школа інтернету у співпраці з понад тридцятьма іншими установами та дослідниками, проаналізувало 445 провідних тестів штучного інтелекту (так званих бенчмарків), що зазвичай використовуються для оцінки роботи моделей у різних галузях. У дослідженні зазначається, що ці базові тести можуть бути ненадійними, а результати багатьох бенчмарків — сумнівними. Виявлено, що багато провідних тестів не мають чітких цілей, викликає занепокоєння повторне використання вже існуючих даних і методів тестування, а також рідко застосовуються надійні статистичні методи для порівняння результатів різних моделей. Старший дослідник Оксфордської школи інтернету, головний автор дослідження Адам Махді, вважає, що ці бенчмарки можуть вводити в оману, і зазначає: «Коли ми просимо модель штучного інтелекту виконати конкретне завдання, насправді ми часто вимірюємо зовсім інші поняття або конструкції, що не відповідають цілі». Ще один з головних авторів підкреслює, що навіть авторитетні бенчмарки часто сліпо довіряють, і потребують більш глибокого аналізу.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Пов'язані теми
#
ai
Прокоментувати
0/400
Немає коментарів
  • Закріпити