Неожиданно тест MIT по математике был нарушен GPT-4? !
Внезапно кто-то сделал громкое заявление в последних газетах:
GPT-4 На экзаменах бакалавриата по математике и EECS (факультет электротехники и информатики) Массачусетского технологического института продемонстрировал способность полностью соответствовать выпускным требованиям.
И правильно получить максимальные оценки!
Вы знаете, не кто иной, как исследовательская группа из Массачусетского технологического института, Бостонского университета и Корнельского университета, измерила этот результат.
И он сильнее, чем король предыдущего поколения GPT-3.5.В том же тесте он преуспел только на одну треть.
△Результаты теста GPT-3.5
Как только газета вышла, бесчисленное количество глаз тут же привлекло к себе внимание.
Хакерское поведение GPT-4, естественно, вызвало эмоции у многих пользователей сети.
Гораздо лучше ГПТ-3,5, да!
Скажем так, можно ли в будущем решать академические задачи без более сильной модели, чем GPT-4?
Некоторые пользователи сети продемонстрировали свой «новейший» серфинг в Интернете, разыграв стелк, на который Янн ЛеКун жаловался, что «IQ GPT-4 не так хорош, как у собаки» в последние два дня:
GPT-4 открытый экзамен MIT
Конкретно в таком испытании на этот раз участвовала ГПТ-4:
Исследовательская группа курировала набор данных, содержащий 4550 проблем и решений.
Эти 4550 задач и решений взяты из наборов задач курса, промежуточных и выпускных экзаменов, которые студенты** факультета математики Массачусетского технологического института и EECS должны изучить, чтобы получить степень бакалавра. **
включать:
6-1: Электротехника и инженерия;
6-2: Электротехника и информатика;
6-3: Информатика и инженерия;
6-4: Искусственный интеллект и принятие решений;
18-1: Общая математика;
18-2: Прикладная математика;
18-3: Чистая математика;
18-C: Математика и информатика.
Подробная классификационная сводка по каждому основному
Все вопросы взяты из набора данных Массачусетского технологического института, из которого случайным образом генерируются 228 вопросов, проблемы, не связанные с изображениями и существующими решениями.
Уровень сложности тем в порядке от простого к сложному: упражнения, упражнения, промежуточные экзамены, выпускные экзамены, эксперименты и специальные проекты.
Отсортированные по типу ответа, сложность вопросов от простого к сложному: программирование, открытый, с множественным выбором, числовой, выражение и изображение.
На этот раз в тесте участвуют не только GPT-4 и GPT-3.5, но и StableVicuna-13B, LLaMA-30B и LLaMA-60B**.
Эти 4 большие модели были выбраны в качестве участников тестирования, потому что они представляют собой «современные большие языковые модели».
Итоговая оценка за экзамен
Как видно из данных в таблице, настроенный GPT-4 имеет самый высокий балл, с коэффициентом оценки 100%; наиболее общие характеристики у LLaMA-30B, который набрал только 30% баллов.
Стоит отметить, что оригинальная версия GPT-4 использовалась «из коробки» без какой-либо настройки, и на этом экзамене MIT она также набрала 90% баллов.
Процесс настройки, в том числе Few-Shot+CoT+Самокритика+Эксперты.
Из табличных данных окончательных результатов тестирования мы видим, что каждый раз, когда ссылка добавляется слева направо, настроенный балл GPT-4 будет улучшаться до более высокого уровня.
Кроме того, исследовательская группа провела инженерную оптимизацию окна подсказок, конкретные «заклинания»:
Подождите, рейтер сам GPT-4?
Увидев такой результат, многие пользователи сети посчитали, что прогресс LLM в тесте по математике был немного быстрым.
2 года назад ИИ боролся с задачами по математике в начальной школе.
Подобно "Сяо Мин посадил 5 лимонных деревьев и каждый год собирал по 6 лимонов с каждого дерева, сколько всего лимонов он получил за 10 лет" такого рода.
В начале прошлого года совместное исследование Массачусетского технологического института + Гарварда + Колумбийского университета + Университета Ватерлоо показало, что путем преобразования математических задач в эквивалентные задачи программирования, брат GPT-3, Кодекс OpenAI, может справиться с большими числами и достичь ** уровня бакалавриата MIT. **.
Я выучил 6 случайно выбранных примеров вопросов из курсов базовой математики для студентов Массачусетского технологического института.Каждый из 6 курсов случайным образом дал 25 вопросов, а также 60 вопросов из набора данных уровня ACT (американский вступительный экзамен в колледж).
** Всего 210 вопросов, на все ИИ ответил правильно. **
Однако некоторые люди предположили, что «уровень бакалавриата Массачусетского технологического института», достигнутый ИИ, на самом деле является тем, что Кодекс решает языковые, а не математические задачи——
Потому что в оценке того времени Кодекс отвечал за чтение и письмо, а не за решение.
Итак, в этот раз GPT-4 показал себя очень хорошо, какое замечательное слово~
Что ж, я знаю, что вам не терпится похвалить его, но не спешите его хвалить, потому что кто-то вскоре обнаружил что-то «странное».
В основном есть 2 основных слота.
Первое, что стоит усомниться, это то, что набор обучающих данных OpenAI не был полностью выпущен.
Это также означает, что не может доказать, что 4550 задач и решений в наборе данных не существуют в обучающем наборе GPT-4.
Другими словами, если GPT-4 подвергся тестовым вопросам на этапе подготовки к обучению, то в итоге он наберет высший балл, и сюрпризов не будет.
Неудивительно, что некоторые пользователи сети бесцеремонно yygq, и считают, что GPT-4 получил такой результат, должно быть, набор данных был включен в данные обучения.
Второй слот — это финальная 100% оценка GPT 4. Что кажется неправильным? ? ?
Присмотритесь, в разделе 2.6 документа есть ключевой момент:
Команда точно настраивает большую модель с открытым исходным кодом на наборе данных: «Учитывая вопрос Q, истинное решение S и ответ A LLM, мы используем GPT-4 для автоматической оценки ответов модели».
На практике каждая большая модель генерирует ответы на этот тест, а затем отправляет GPT-4 для оценки с оценкой от 0 до 5.
** Таким образом, тот, кто дал GPT-4 полную оценку, на самом деле сам GPT-4. **
Ах, это... Трудно сказать, что нет никаких подозрений, что Ван Бо продает дыни и хвастается.
Кроме того, многие люди жаловались на необходимость давать GPT-4 «хорошие подсказки», чтобы он мог получить полные оценки.
Что такое «хороший совет»? Кажется, это невозможно определить.
Некоторые люди даже кричали, что эти вопросы нужно задавать студентам математики MIT и EECS, и продолжать давать им «хорошие подсказки», чтобы студенты-люди тоже могли получить 100% вопросов...
Еще кое-что
Маленькая пасхалка:
На протяжении всего теста StableVicuna-13B, который в основном можно развернуть и запустить на ноутбуке, также набрал 48%.
Этот показатель не только почти на 10 процентных пунктов выше, чем у LLaMA-65B с более крупной моделью, но даже у LLaMA-30B после тонкой настройки в Массачусетском технологическом институте он даже выше.
Люди должны задуматься о взаимосвязи между размером модели и ее возможностями.
Ссылка на ссылку:
[1]
[2]
[3]
[4]
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Сдал экзамен по математике бакалавриата Массачусетского технологического института с полным баллом GPT-4! Этот набор подсказок в огне
Источник: Кубит
Неожиданно тест MIT по математике был нарушен GPT-4? !
Внезапно кто-то сделал громкое заявление в последних газетах:
GPT-4 На экзаменах бакалавриата по математике и EECS (факультет электротехники и информатики) Массачусетского технологического института продемонстрировал способность полностью соответствовать выпускным требованиям.
И правильно получить максимальные оценки!
Вы знаете, не кто иной, как исследовательская группа из Массачусетского технологического института, Бостонского университета и Корнельского университета, измерила этот результат.
И он сильнее, чем король предыдущего поколения GPT-3.5.В том же тесте он преуспел только на одну треть.
Как только газета вышла, бесчисленное количество глаз тут же привлекло к себе внимание.
GPT-4 открытый экзамен MIT
Конкретно в таком испытании на этот раз участвовала ГПТ-4:
Исследовательская группа курировала набор данных, содержащий 4550 проблем и решений.
Эти 4550 задач и решений взяты из наборов задач курса, промежуточных и выпускных экзаменов, которые студенты** факультета математики Массачусетского технологического института и EECS должны изучить, чтобы получить степень бакалавра. **
включать:
6-1: Электротехника и инженерия; 6-2: Электротехника и информатика; 6-3: Информатика и инженерия; 6-4: Искусственный интеллект и принятие решений; 18-1: Общая математика; 18-2: Прикладная математика; 18-3: Чистая математика; 18-C: Математика и информатика.
Подробная классификационная сводка по каждому основному
Все вопросы взяты из набора данных Массачусетского технологического института, из которого случайным образом генерируются 228 вопросов, проблемы, не связанные с изображениями и существующими решениями.
Уровень сложности тем в порядке от простого к сложному: упражнения, упражнения, промежуточные экзамены, выпускные экзамены, эксперименты и специальные проекты.
Отсортированные по типу ответа, сложность вопросов от простого к сложному: программирование, открытый, с множественным выбором, числовой, выражение и изображение.
На этот раз в тесте участвуют не только GPT-4 и GPT-3.5, но и StableVicuna-13B, LLaMA-30B и LLaMA-60B**.
Эти 4 большие модели были выбраны в качестве участников тестирования, потому что они представляют собой «современные большие языковые модели».
Итоговая оценка за экзамен
Как видно из данных в таблице, настроенный GPT-4 имеет самый высокий балл, с коэффициентом оценки 100%; наиболее общие характеристики у LLaMA-30B, который набрал только 30% баллов.
Стоит отметить, что оригинальная версия GPT-4 использовалась «из коробки» без какой-либо настройки, и на этом экзамене MIT она также набрала 90% баллов.
Процесс настройки, в том числе Few-Shot+CoT+Самокритика+Эксперты.
Кроме того, исследовательская группа провела инженерную оптимизацию окна подсказок, конкретные «заклинания»:
Подождите, рейтер сам GPT-4?
Увидев такой результат, многие пользователи сети посчитали, что прогресс LLM в тесте по математике был немного быстрым.
Подобно "Сяо Мин посадил 5 лимонных деревьев и каждый год собирал по 6 лимонов с каждого дерева, сколько всего лимонов он получил за 10 лет" такого рода.
Я выучил 6 случайно выбранных примеров вопросов из курсов базовой математики для студентов Массачусетского технологического института.Каждый из 6 курсов случайным образом дал 25 вопросов, а также 60 вопросов из набора данных уровня ACT (американский вступительный экзамен в колледж).
** Всего 210 вопросов, на все ИИ ответил правильно. **
Потому что в оценке того времени Кодекс отвечал за чтение и письмо, а не за решение.
Итак, в этот раз GPT-4 показал себя очень хорошо, какое замечательное слово~
В основном есть 2 основных слота.
Первое, что стоит усомниться, это то, что набор обучающих данных OpenAI не был полностью выпущен.
Это также означает, что не может доказать, что 4550 задач и решений в наборе данных не существуют в обучающем наборе GPT-4.
Другими словами, если GPT-4 подвергся тестовым вопросам на этапе подготовки к обучению, то в итоге он наберет высший балл, и сюрпризов не будет.
Неудивительно, что некоторые пользователи сети бесцеремонно yygq, и считают, что GPT-4 получил такой результат, должно быть, набор данных был включен в данные обучения.
Присмотритесь, в разделе 2.6 документа есть ключевой момент:
Команда точно настраивает большую модель с открытым исходным кодом на наборе данных: «Учитывая вопрос Q, истинное решение S и ответ A LLM, мы используем GPT-4 для автоматической оценки ответов модели».
На практике каждая большая модель генерирует ответы на этот тест, а затем отправляет GPT-4 для оценки с оценкой от 0 до 5.
** Таким образом, тот, кто дал GPT-4 полную оценку, на самом деле сам GPT-4. **
Ах, это... Трудно сказать, что нет никаких подозрений, что Ван Бо продает дыни и хвастается.
Что такое «хороший совет»? Кажется, это невозможно определить.
Еще кое-что
Маленькая пасхалка:
На протяжении всего теста StableVicuna-13B, который в основном можно развернуть и запустить на ноутбуке, также набрал 48%.
Люди должны задуматься о взаимосвязи между размером модели и ее возможностями.
Ссылка на ссылку: [1] [2] [3] [4]