Agent-as-Judge

Оценка генеративных способностей LLM агентов

Обзор Данные Турнирная таблица Комментарии

@gislason6375

5 сентября 2025

Здравствуйте, сейчас я просматриваю датасет, и у меня появились вопросы по его разметке:

Пример 1
```
### Задание для оценки: Сложите два числа: 6328 + 7522 =

### Эталонный ответ:

13850

### Ответ для оценки:

6328 + 7522 = 13840

### Критерий оценки:

Правильность ответа и формата

### Шкала оценивания по критерию:

0: Ответ содержит ошибки и не выполнены требования из инструкции.

1: Формат ответа совпадает с требуемым в инструкции, но ответ содержит ошибки.

2: Ответ правильный, но не выполнены требования из инструкции.

3: Ответ правильный и соответствует требованиям формата.
```

Оценка эксперта (судя по датасету): 1, но здесь должно ведь быть 0, так как формат неправильный.

Пример 2
```
### Задание для оценки:

Реши математическую задачу на сложение чисел. Выведи ответ в формате "number", где number - число, которое является результатом сложения.

Ответ:

### Эталонный ответ:

56463

### Ответ для оценки:

55663

### Критерий оценки:

Правильность ответа и формата

### Шкала оценивания по критерию:

0: Ответ содержит ошибки и не выполнены требования из инструкции.

1: Формат ответа совпадает с требуемым в инструкции, но ответ содержит ошибки.

2: Ответ правильный, но не выполнены требования из инструкции.

3: Ответ правильный и соответствует требованиям формата.
```

Здесь вообще не описана задача

Пример 3
```
### Задание для оценки:

Реши математическую задачу на сложение чисел. Выведи ответ в формате "number", где number - число, которое является результатом сложения. Ответ:

### Эталонный ответ:

984

### Ответ для оценки:

984<end_of_turn>

### Критерий оценки:

Правильность ответа и формата

### Шкала оценивания по критерию:

0: Ответ содержит ошибки и не выполнены требования из инструкции.

1: Формат ответа совпадает с требуемым в инструкции, но ответ содержит ошибки.

2: Ответ правильный, но не выполнены требования из инструкции.

3: Ответ правильный и соответствует требованиям формата.
```

Оценка эксперта: 3, здесь нет описания задачи и формат ошибочен.

Пожалуйста, проверьте датасет!

@crist8332

5 сентября 2025

В примерах 1 и 3 формат задан не так строго:

Написано вывести число, но не сказано, можно ли писать что-то еще

По поводу наличия задания: оно необязательно, потому что не помогает сравнить правильный ответ с сгенерированным, поэтому убирали другие модальности из примеров (например, картинки)

Примеры размечались с большим перекрытием, а примеры для теста дополнительно валидировались экспертами

@gislason6375

5 сентября 2025

@crist8332, но ведь в примере 3 там ясно написано: "Введи ответ в формате "number"", а испытуемый выдаёт ответ: "984<end_of_turn>" - что не должно соответствовать формату (по логике). Просто если считать, что наличие <end_of_turn> допустимо для формата, может тогда и допустимы ответы:

- "1984" - просто 1 лишняя
- "0,1,2,3,4,5...,983,984,985" - ответ 984 есть - то получается это должно считать за правильный ответ

Но такая логика не должна работать. Ответ должен быть лишь "984" ("984 ") - а в задании это не так. К тому же в датасет есть примеры, которые нарушают данную логику.

@crist8332

5 сентября 2025

Формулировка
Введи ответ в формате "number"
Подразумевает только отдельное число (исключаем 1984 - потому что отдельное число), но не запрещает дополнения к ответу
В train выборке есть более неоднозначные примеры, но все примеры разметили одинаково много разметчиков. Здесь предлагаю руководствоваться фактом, что, как часто на практике, test много раз проверен и train - попытка приблизиться к тесту по качеству

@gislason6375

5 сентября 2025

Добавьте, пожалуйста, пример submission.zip (как архива), чтобы он запускался.

@crist8332

5 сентября 2025

Добрый день! Полностью запускаемый сабмит лежит в baseline.zip

@gislason6375

5 сентября 2025

@crist8332, я отправил данный файл на проверку системе - получил ошибку на стадии:

16. Статус работы кода инференса (полный сет)

Code run

@crist8332

5 сентября 2025

Видимо коллеги не загрузили актуальную версию
Надо добавить в run.py проверку на ошибки, например, так
results = [int(a[0]) if a[0].isdigit() else 0 for a in answers]

@hackett1620

5 сентября 2025

Здравствуйте!
А будут ли в ходе соревнования предоставлены данные (пример для обучения) по 2 и 3 подзадачам?

@crist8332

5 сентября 2025

Сложность этих подзадач в том, что данных для обучения не выкладываем, предлагаем самостоятельно собрать данные, для 3 подзадачи можно посмотреть проект POLLUX

-1

@hackett1620

5 сентября 2025

Доступен ли в этой задаче GigaChat API?

@crist8332

5 сентября 2025

Интернет в этой задаче не доступен, в частности нет доступа к GigaChat API

@hackett1620

5 сентября 2025

Вопросы по ограничениям.
> Размер файла с сабмитом не должен превышать 5GB.

Тут имеется в виду размер архива или размер распакованных данных?

> размер всех файлов решения во время работы и библиотек образа не должен превышать 10GB

Эти 10GB включают в себя 5Gb, которые описаны выше?

@crist8332

5 сентября 2025

Размер архива - 5GB
до 10GB - размер рабочего пространства после разархивации решения, к файлам решения туда добавляются установленные библиотеки

То есть из 10GB уже будут заняты 5+GB от распакованного архива

@hackett1620

5 сентября 2025

Тестовый прогон идет только на данных для публичного лидерборда, а для приватного будет отдельно после завершения соревнования?

@crist8332

5 сентября 2025

Тестовый прогон идет только на данных публичного сета, после окончания конкурса выбранные решения будут проверены на приватном датасете и опубликованы их результаты приватного лидерборда

@beer6656

6 сентября 2025

При загрузке решения в пайплайн внизу (История запусков) иногда пропадает ячейка выбора, вчера при отправке ее вообще не было, хотя я отправлял несколько, сейчас появилась и снова пропала будто я не закидывал ничего

@crist8332

6 сентября 2025

Передали в тех поддержку платформы

@hackett1620

7 сентября 2025

Появилась проблема с "Новым запуском". Невозможно загрузить решение. Кнопки для загрузки куда-то пропали.

@blanda7513

8 сентября 2025

Добрый день. Уточните пожалуйста, в каком браузере наблюдается данная проблема? Название и версия.

@blanda7513

8 сентября 2025

И уточните пожалуйста, воспроизводится ли проблема в последней версии Хрома.

@hackett1620

8 сентября 2025

Firefox 142.0.1
Сейчас проверил, заработало как раньше, кнопка "Выберите файл" стала появляться.

@blanda7513

9 сентября 2025

Крайне рекомендуем использовать для работы с платформой google chrome последней доступной версии.

@batz9569

10 сентября 2025

Можно ли уточнить сколько семплов в тестовой выборке чтобы рассчитать инференс под условие работы 1 часа?

@crist8332

10 сентября 2025

Боюсь, что эта информация не поможет, потому что большой разброс количества токенов. Можно отправить необученную модель для замера времени

@grady2958

14 сентября 2025

зависла задача, несколько часов крутится распаковка

@block7975

14 сентября 2025

Тоже самое

@carter9468

14 сентября 2025

С утра на платформе проблемы с интернетом. Я связался со службой поддержки, но пока не получил ответа.

@blanda7513

15 сентября 2025

Уважаемые участники. При обращении по проблеме с запуском сабмиста, указывайте, пожалуйста, имя команды и примерное время сабмита.

@koepp1540

16 сентября 2025

Здравствуйте! А можно ли попросить увидеть пример function calling промпта (пример с overview страницы) на русском языке

@schneider1128

20 сентября 2025

Здравствуйте! Уже более двух часов крутится шаг 2 статус очистки дискового пространства(( Будто бы что-то подвисло...

@renner4544

20 сентября 2025

уже более 10 часов тоже лежит, команда Aleksandr Gaptrakhmanov, время сабмита около 20:00, если есть возможность, положите решение, а то новые тоже не отправляются.

@schneider1128

20 сентября 2025

продолжает бесконечно крутиться...(

@wilkinson7068

20 сентября 2025

О и в этом конкурсе все легло. Привет от создателей памяти для ИИ)

@block2136

20 сентября 2025

такаяже проблема

@blanda7513

20 сентября 2025

Уважаемые участники, на настоящий момент, ранее наблюдаемый аппаратный сбой был устранен. Задача полностью функциональна.

@mccullough8320

21 сентября 2025

А можно какую то шкалу выполнения когда основной дата-сет проверяется, а то непонятно выдержит ли тайм-аут решение или нет, становится понятно только когда час проходит((((

@blanda7513

30 сентября 2025

Добрый день. Такого функционала пока не планируется.

@block2136

22 сентября 2025

Добрый день, новая ошибка с ранерами
ℹ️ NODES INFO

Nodes: hpcsrv-048.k2

2025-09-22T05:38:52Z Job lm-mpi-job-784af365-d21a-4265-879f-265eb9e81260 (binary) is starting...

2025-09-22T05:38:52Z cat: /home/jovyan/.ssh/ai0001071-04586.pub: No such file or directory

2025-09-22T05:38:52Z 🕒 Waiting for workers to be ready... 🕒

2025-09-22T05:39:07Z Connecting to mpimaster-0 ..... Ready ✓

2025-09-22T05:39:07Z 🚀 All workers are READY 🚀

🤖 CLOUD.RU PLATFORM LOGS 🤖

ℹ️ JOB INFO

lm-mpi-job-784af365-d21a-4265-879f-265eb9e81260

Status: Failed

@blanda7513

30 сентября 2025

Уточните команду и дату/время запуска.

@langworth5746

22 сентября 2025

А когда можно ожидать решения проблемы, описанной выше?

Когда в логах нет записи об ошибке, а статус Failed?

@wilderman1475

25 сентября 2025

Крутиться с вчерашнего дня 16. Статус работы кода инференса (полный сет)

@terry1911

25 сентября 2025

Добрый день!

Присоединяюсь. Сегодня всё останавливается на шаге 16 с "превышено время запуска инстанса".
Из за чего может возникнуть?
Видел перед этим шаг с проверкой на части данных => делаю вывод, что запускается.

@blanda7513

30 сентября 2025

"Сегодня всё останавливается на шаге 16 с "превышено время запуска инстанса".
Из за чего может возникнуть?"

Такое поведение происходит из-за исчерпания времени на запуск сабмита.

@wilderman1475

25 сентября 2025

Здравствуйте 18. Статус расчета метрики

Code run падает и нет логов пробовал разные решения все так же команда Владимир Калюта

@wilderman1475

27 сентября 2025

Проблема с метриками не куда не ушла

@blanda7513

30 сентября 2025

Падение в статусе рассчета метрики происходит из-за проблем с вашим сабмитом.

@block7975

1 октября 2025

Добрый день! Пропустил информацию про вебинар по задаче. Запись где то можно посмотреть?

@crist8332

6 октября 2025

Запись в процессе публикации

@renner4544

1 октября 2025

А можно ли как-то скачать свое старое решение, которое давно было отправлено? Вижу, что его можно заново отправить на проверку, значит оно где-то сохранено?

@crist8332

6 октября 2025

Такой функционал не предусмотрен

@armstrong8695

3 октября 2025

How to submit the solution? When i tried to upload the baseline.zip it is uploading very slow, showing 7 hours to just upload. Can anyone please guide me.

@crist8332

6 октября 2025

check your internet connection and try again please

@hermann5422

7 октября 2025

Добрый день, всё таки подскажите размер приватной выборки в сравнении с публичной?

Может быть есть результаты за сколько бейзлайн выполняется на приватной части?

@legros2758

13 октября 2025

Два вопроса:
1. Где можно посмотреть запись вебинара?
2. Можно ли по сабмиту, который не вошел в лидерборд узнать оценки не финальной rmse общей, а по каждой из 3х задач?

@renner4544

13 октября 2025

там если навести на стадии, на звездочках можно увидеть скор за 2 и 3 задачу, а за первую соответственно вычесть из об

@legros2758

13 октября 2025

@renner4544

спасибо!

@legros2758

13 октября 2025

остался вопрос организаторам про записи вебинаров

@mccullough8323

18 октября 2025

Если изучить примеры, то видно, что для первой задачи возможные значения оценок - {0,1,2,3}. Для второй - {0,1,2}. Для третьей - {-1,0,1,2}. Для первой задачи у нас есть возможность свериться с обучающей выборкой и понять, что там, аналогично примеру, всюду дается набор {0,1,2,3}. Однако для второй и третьей задач у нас нет возможности провалидировать диапазоны оценок. Верно ли понимаю, что в промптах для этих двух задач не будет отклонений от примеров из раздела "Обзор"? То есть для второй задачи у нас всегда только {0,1,2}, а для третьей только {-1,0,1,2}. Или же может оказаться, например {0,1,2,3} для второй и {-1,0,1} для третьей в каких-то случах?

@crist8332

20 октября 2025

Не даем гарантий на шкалу в третьей задаче, она может быть любой, но всегда есть -1, подробнее обсудили в вебинаре
Для первой и второй задачи шкалы всегда как в примерах

@west6814

20 октября 2025

Добрый день, команда SoloTech загружал ваш baseline.zip, скаченный сегодня и получил ошибку. Подскажите, как исправить?

ℹ️ NODES INFO

Nodes: hpcsrv-048.k2

2025-10-20T10:37:43.855057341+03:00 Job lm-mpi-job-38ad264c-83d8-4477-8aeb-7c6e7b8813c0 (binary) is starting...

2025-10-20T10:37:43.900097632+03:00 cat: /home/jovyan/.ssh/ai0001071-05180.pub: No such file or directory

2025-10-20T10:37:43.928535981+03:00 🕒 Waiting for workers to be ready... 🕒

2025-10-20T10:37:58.946455951+03:00 Connecting to mpimaster-0 ..... Ready ✓

2025-10-20T10:37:58.946515224+03:00 🚀 All workers are READY 🚀

2025-10-20T10:37:59.275492119+03:00 [1,0]<stderr>:python: can't open file '/home/jovyan/a9a6ec39-a7fa-456b-a959-065326b01da6/run.py': [Errno 2] No such file or directory

2025-10-20T10:37:59.299474510+03:00 --------------------------------------------------------------------------

2025-10-20T10:37:59.299487395+03:00 Primary job terminated normally, but 1 process returned

2025-10-20T10:37:59.299496201+03:00 a non-zero exit code. Per user-direction, the job has been aborted.

2025-10-20T10:37:59.299504237+03:00 --------------------------------------------------------------------------

2025-10-20T10:38:01.300866809+03:00 --------------------------------------------------------------------------

2025-10-20T10:38:01.300890414+03:00 mpirun detected that one or more processes exited with non-zero status, thus causing

2025-10-20T10:38:01.300898900+03:00 the job to be terminated. The first process to do so was:

2025-10-20T10:38:01.300906324+03:00

2025-10-20T10:38:01.300914189+03:00 Process name: [[13941,1],0]

2025-10-20T10:38:01.300922205+03:00 Exit code: 2

2025-10-20T10:38:01.300930019+03:00 --------------------------------------------------------------------------

🤖 CLOUD.RU PLATFORM LOGS 🤖

ℹ️ JOB INFO

lm-mpi-job-38ad264c-83d8-4477-8aeb-7c6e7b8813c0

Status: Failed

@crist8332

20 октября 2025

похоже в сабмите потерялся файл run.py

@west6814

20 октября 2025

перезапустил в браузере хром до этого был сафари с тем же самым сабмитом - сработало!

@armstrong8695

22 октября 2025

Hey, can anyone help me to find the data for subtask 2. I am unable to get it from the BFCL. Can anyone suggest me what to do?

@schneider1128

23 октября 2025

Добрый вечер, бесконечно работает очистка дискового пространства(((

@schneider1128

23 октября 2025

Кажется, не бесконечно, но очень долго...

@gaylord6180

27 октября 2025

Добрый день! а можно ли в соревновании написать свой кастомный run.py и использовать другие библиотеки в run.py, например peft? установлена ли она на платформе?

@armstrong8695

28 октября 2025

Эй, какой максимальный размер модели по количеству параметров ты можешь использовать для этого соревнования? Сейчас я могу использовать примерно модель с 2 миллиардами параметров. Возможно ли вообще использовать модель большего размера?

@schmitt1866

29 октября 2025

Шаг 16 время выполнения истек, можете ли вы предоставить журнал?

@barrows4322

30 октября 2025

организаторы пожалуйста разъясните вот сейчас 27 человек занимают призовые места золото серебро бронза между ними поделится приз или получит только три первых человека?

@beatty6278

30 октября 2025

Загрузил исправленное решение, где оказался неверный путь к файлу из бейзлайна.

Висит полчаса уже на этапе
02. Статус очистки дискового пространства

Code run

Что делать?

@beatty6278

30 октября 2025

Или там надо было старый удалять, но сейчас это сделать невозможно.

@hackett1620

30 октября 2025

Это очередь на платформе для доступа к ресурсам. Участники тут ничего сделать не могут.

@beatty6278

30 октября 2025

И ещё, тут кличка странная, beatty6278.
Я вроде правильную ставил, MedAI, она опять слетела.
Я тут новый если что, условия пару дней назад смотрел, но зайти только сегодня получилось.
Поменять ее самому можно?

@beatty6278

30 октября 2025

Это точно висит из-за очереди?
Первый сабмит быстро запустился.
Может там чистить надо всё-таки?
Модераторы, скажите?

@beatty6278

30 октября 2025

Попытался удалить, ничего не вышло. Всё висит по-прежнему.

@heathcote5735

30 октября 2025

будет какое-то продление из-за бага?

@beatty6278

30 октября 2025

А что за баг, о чем речь?
У меня висит уже больше 4 часов.

@beatty6278

30 октября 2025

Всё висит уже 4 часа наглухо
Есть какая-то поддержка или чат в телеграм по задаче или контесту?
Будет ли засчитана попытка и передано решение, которое я загрузил на расчёт, но не успел мне пайплайн обсчитать, чуть ниже, отдать на контест?

@beatty6278

30 октября 2025

через 6 часов ещё 2 раза pipeline successfully started, и все на том же месте

@schmitt1866

30 октября 2025

02. Статус очистки дискового пространства

Уже 10 минут...

@beatty6278

30 октября 2025

02. Статус очистки дискового пространства

через 7 часов ещё 2 раза pipeline successfully started, и все на том же месте

сдвинуть с этого места невозможно

пишу сюда без конца

@beatty6278

30 октября 2025

продвинулся запуск, но висит теперь на
14. Статус распаковки данных

Code run

очень долго
а кнопка Submit неактивна

@toy4498

31 октября 2025

Уважаемые участники!

Для вашего удобства мы продлеваем время выбора трёх итоговых сабмитов для оценки на приватных данных до 12:00 (по МСК) 31.10.25

Для всех отправленных решений к этому времени будут рассчитаны оценки на публичной турнирной таблице.

Если Участники Конкурса не выберут три решения самостоятельно, то, по Правилам Конкурса, выбор будет сделан автоматически — на проверку уйдут три лучшие решения по скору на публичной турнирной таблице. На приватную турнирную таблицу (итоговый лидерборд) попадает одно из трех решений Задачи с лучшим значением метрики.

С уважением,

Команда AIJ Contest

@beatty6278

31 октября 2025

А на неофициальный лидерборд еще подавать можно будет?

2. И мне уже с неактивной кнопкой уже не подать, хотя оно посчиталось.
Запускал за 8 с лишним часов до окончания принятия решений.
Все автоматом попадёт?

@baumbach1148

31 октября 2025

Как корректно выбрать три сабмита? Прожимаю галочки напротив нужных, но после обновления страницы они пропадают.

@renner4544

31 октября 2025

там в самый низ надо прокрутить страницу, и там будет отправить решение

@beatty6278

31 октября 2025

моделька посчиталась, и для первого обсчёта всё не так уж и плохо, было бы, но кнопка Submit неактивна.
Вроде в таблицу попало, имя подлиннее и цифры подлиннее на лидерборде светятся.
А у меня это единственный положительный результат из 2х, поданный за 8 с лишним часов до окончания принятия решений.
Жалко, что меньше суток участвовал, мог бы и в призёры попасть и по второй задаче не успел немного подать

@renner4544

31 октября 2025

а приват будет только 14 числа?

@beatty6278

1 ноября 2025

Охренеть, до сих пор считаются кнопки, которые я повторно тыкал, когда думал, что все зависло. одна точно. Знал бы, доработал до топа)))

@eichmann2945

2 ноября 2025

Уважаемые организаторы,

Подскажите пожалуйста, что означают три запуска от 31.10? Если это запуск из трёх лучших за всю историю, то отобранные сабмиты таковыми не являются.

ЗЫ да, галочки я не ставил, но было обозначено, что «Если Участники Конкурса не выберут три решения самостоятельно, то, по Правилам Конкурса, выбор будет сделан автоматически — на проверку уйдут три лучшие решения по скору на публичной турнирной таблице». Сейчас не так.

@blanda7513

3 ноября 2025

Добрый день. Пожалуйста не беспокойтесь. Для приватного лидерборда будут выбраны сабмиты с лучшим публичным скором, если вы не сделали игого выбора в ручную.

@haley6830

2 декабря 2025

Vsem privet!

Agent-as-Judge

Комментарии (3)

Комментарии (3)

Комментарии (1)

Комментарии (1)

Комментарии (1)

Комментарии (1)

Комментарии (1)

Комментарии (4)

Комментарии (1)

Комментарии (2)

Комментарии (2)

Комментарии (1)

Комментарии (1)

Комментарии (2)

Комментарии (2)

Комментарии (1)

Комментарии (1)

Комментарии (1)

Комментарии (2)

Комментарии (1)

Комментарии (1)

Комментарии (1)

Комментарии (1)

Комментарии (1)

Комментарии (3)

Комментарии (1)