LLM и IMO
Jul. 20th, 2025 07:12 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
OpenAI объявила, что их экспериментальая модель (недоступная для широкой публики) достигла уровня золотой медали на Международной Математической Олимпиаде (IMO) этого года.
Несомненно, это важное достижение, и хотя его возможность обсуждали не раз последние пару лет, далеко не все думали, что уже в 2025 это будет возможно. Я, например, не думал, опираясь на то, что могут лучшие публичные модели (та же o3 от OpenAI).
Чтобы внести свой вклад в качество обсуждений этой темы, приведу краткий список очевидных возражений и возможных ответов на них:
- нет, это не была модель, которую специально тренировали на задачах олимпиады прошлых лет (если верить OpenAI). Эта модель общего характера, в которой использовали дополнительные экспериментальные подходы для улучшения "думательных" способностей (reasoning, chain-of-thought).
- нет, у модели не было доступа к дополнительным возможностям (типа написать и запустить код), также не было какой-то особой "символической" структуры. Согласно OpenAI, это чистая "reasoning LLM". Это наверное самый значительный аспект данного результата. Подозревают, что DeepMind в этом году тоже поборол олимпиаду - официального объявления пока нет - но если так, то почти наверняка с специальной архитектурой, заточенной и натренированной под это.
- OpenAI не координировала свою работу с представителями олимпиады, они просто взяли условия задач и запустили свою модель на тех же условиях, что дают людям (4.5 часа на три задачи, в два раунда). Проверяли свои результаты тоже сами, используя неназванных прошлых призеров IMO. Модель решила идеально 5 задач из 6, не решила шестую, которая в этом году была очень тяжелой и ее решили полностью только 6 участников.
- Гендиректор IMO сообщил, что они просили OpenAI не выступать с заявлением о "победе" неделю, чтобы не отобрать внимение публики/прессы от реальных победителей, но OpenAI это игнорировали, в отличие от DeepMind и других AI-компаний, которые сотрудничали с IMO. Ясно, что OpenAI стремились к максимуму хайпа и в общем этого добились.
- пока неизвестно, когда модель, которая решила эти задачи, или другая с такими же возможностями, будет доступна широкой публике, сказано только, что не в ближайшие месяцы, и ожидаемая GPT-5 не она. OpenAI предоставила только официальные "ответы" модели. Они написаны несколько странным для LLM языком, сокращающим грамматику (как бы желая поменьше токенов потратить на неважное). В начале каждой задачи есть условие, но если я не ошибаюсь, это не официальное условие, как оно представлено модели - этого нам не дали - а ее пересказ моделью, согласно данным ей указаниям (это видно из задачи номер 3)
- Теренс Тао выступил с критикой объявления OpenAI, не называя их по имени, на основании того, что трудно судить о том, какое это достижение, не зная многих деталей протокола, которые OpenAI сознательно не зафиксировала заранее и не сообщает сейчас; например, кто выбирал окончательную версию ответа, если было много попыток, и по каким критериям - и многое другое. Стоит прочитать.
- Нил Нанда, другой золотой призер IMO, сейчас работающий в DeepMind (но над другой темой, над интерпретацией внутренних механизмов LLM), тоже написал интересную ветку о том, почему именно порог "золотая медаль" довольно сомнительный в данном случае.
Несомненно, это важное достижение, и хотя его возможность обсуждали не раз последние пару лет, далеко не все думали, что уже в 2025 это будет возможно. Я, например, не думал, опираясь на то, что могут лучшие публичные модели (та же o3 от OpenAI).
Чтобы внести свой вклад в качество обсуждений этой темы, приведу краткий список очевидных возражений и возможных ответов на них:
- нет, это не была модель, которую специально тренировали на задачах олимпиады прошлых лет (если верить OpenAI). Эта модель общего характера, в которой использовали дополнительные экспериментальные подходы для улучшения "думательных" способностей (reasoning, chain-of-thought).
- нет, у модели не было доступа к дополнительным возможностям (типа написать и запустить код), также не было какой-то особой "символической" структуры. Согласно OpenAI, это чистая "reasoning LLM". Это наверное самый значительный аспект данного результата. Подозревают, что DeepMind в этом году тоже поборол олимпиаду - официального объявления пока нет - но если так, то почти наверняка с специальной архитектурой, заточенной и натренированной под это.
- OpenAI не координировала свою работу с представителями олимпиады, они просто взяли условия задач и запустили свою модель на тех же условиях, что дают людям (4.5 часа на три задачи, в два раунда). Проверяли свои результаты тоже сами, используя неназванных прошлых призеров IMO. Модель решила идеально 5 задач из 6, не решила шестую, которая в этом году была очень тяжелой и ее решили полностью только 6 участников.
- Гендиректор IMO сообщил, что они просили OpenAI не выступать с заявлением о "победе" неделю, чтобы не отобрать внимение публики/прессы от реальных победителей, но OpenAI это игнорировали, в отличие от DeepMind и других AI-компаний, которые сотрудничали с IMO. Ясно, что OpenAI стремились к максимуму хайпа и в общем этого добились.
- пока неизвестно, когда модель, которая решила эти задачи, или другая с такими же возможностями, будет доступна широкой публике, сказано только, что не в ближайшие месяцы, и ожидаемая GPT-5 не она. OpenAI предоставила только официальные "ответы" модели. Они написаны несколько странным для LLM языком, сокращающим грамматику (как бы желая поменьше токенов потратить на неважное). В начале каждой задачи есть условие, но если я не ошибаюсь, это не официальное условие, как оно представлено модели - этого нам не дали - а ее пересказ моделью, согласно данным ей указаниям (это видно из задачи номер 3)
- Теренс Тао выступил с критикой объявления OpenAI, не называя их по имени, на основании того, что трудно судить о том, какое это достижение, не зная многих деталей протокола, которые OpenAI сознательно не зафиксировала заранее и не сообщает сейчас; например, кто выбирал окончательную версию ответа, если было много попыток, и по каким критериям - и многое другое. Стоит прочитать.
- Нил Нанда, другой золотой призер IMO, сейчас работающий в DeepMind (но над другой темой, над интерпретацией внутренних механизмов LLM), тоже написал интересную ветку о том, почему именно порог "золотая медаль" довольно сомнительный в данном случае.