Вірю, що ті, хто використовував модель DeepSeek-R1, не знайомі з процесом роздумів перед наданням відповіді, що є однією з причин, чому великі моделі міркувань (LRM, Large Reasoning Model), до яких входить DeepSeek-R1, користуються великою повагою.
Однак команда з шести дослідників Apple поставила це під сумнів. Попросивши моделі вирішити різноманітні головоломки, дослідницька група виявила, що точність передових моделей великого висновку, DeepSeek-R1, o3-mini та Claude-3.7-Sonnet-Thinking, падала по всіх напрямках після того, як вони перевищували певний поріг складності.
Зображення | Відповідні статті (джерело:
Зокрема, Семмі Бенджіо, старший директор Apple з досліджень машинного навчання