Agent-as-Judge

Оценка генеративных способностей LLM агентов

champ imagechamp image
gislason6375@gislason6375

5 сентября 2025

Здравствуйте, сейчас я просматриваю датасет, и у меня появились вопросы по его разметке:

Пример 1
```
### Задание для оценки: Сложите два числа: 6328 + 7522 =

### Эталонный ответ:

13850

### Ответ для оценки:

6328 + 7522 = 13840

### Критерий оценки:

Правильность ответа и формата

### Шкала оценивания по критерию:

0: Ответ содержит ошибки и не выполнены требования из инструкции.

1: Формат ответа совпадает с требуемым в инструкции, но ответ содержит ошибки.

2: Ответ правильный, но не выполнены требования из инструкции.

3: Ответ правильный и соответствует требованиям формата.
```


Оценка эксперта (судя по датасету): 1, но здесь должно ведь быть 0, так как формат неправильный.



Пример 2
```
### Задание для оценки:

Реши математическую задачу на сложение чисел. Выведи ответ в формате "number", где number - число, которое является результатом сложения.

Ответ:

### Эталонный ответ:

56463

### Ответ для оценки:

55663

### Критерий оценки:

Правильность ответа и формата

### Шкала оценивания по критерию:

0: Ответ содержит ошибки и не выполнены требования из инструкции.

1: Формат ответа совпадает с требуемым в инструкции, но ответ содержит ошибки.

2: Ответ правильный, но не выполнены требования из инструкции.

3: Ответ правильный и соответствует требованиям формата.
```


Здесь вообще не описана задача


Пример 3
```
### Задание для оценки:

Реши математическую задачу на сложение чисел. Выведи ответ в формате "number", где number - число, которое является результатом сложения. Ответ:

### Эталонный ответ:

984

### Ответ для оценки:

984<end_of_turn>

### Критерий оценки:

Правильность ответа и формата

### Шкала оценивания по критерию:

0: Ответ содержит ошибки и не выполнены требования из инструкции.

1: Формат ответа совпадает с требуемым в инструкции, но ответ содержит ошибки.

2: Ответ правильный, но не выполнены требования из инструкции.

3: Ответ правильный и соответствует требованиям формата.
```


Оценка эксперта: 3, здесь нет описания задачи и формат ошибочен.


Пожалуйста, проверьте датасет!

0

crist8332@crist8332

5 сентября 2025

В примерах 1 и 3 формат задан не так строго:

Написано вывести число, но не сказано, можно ли писать что-то еще

По поводу наличия задания: оно необязательно, потому что не помогает сравнить правильный ответ с сгенерированным, поэтому убирали другие модальности из примеров (например, картинки)

Примеры размечались с большим перекрытием, а примеры для теста дополнительно валидировались экспертами

0

gislason6375@gislason6375

5 сентября 2025

@crist8332, но ведь в примере 3 там ясно написано: "Введи ответ в формате "number"", а испытуемый выдаёт ответ: "984<end_of_turn>" - что не должно соответствовать формату (по логике). Просто если считать, что наличие <end_of_turn> допустимо для формата, может тогда и допустимы ответы:

- "1984" - просто 1 лишняя
- "0,1,2,3,4,5...,983,984,985" - ответ 984 есть - то получается это должно считать за правильный ответ

Но такая логика не должна работать. Ответ должен быть лишь "984" ("984 ") - а в задании это не так. К тому же в датасет есть примеры, которые нарушают данную логику.

0

crist8332@crist8332

5 сентября 2025

Формулировка
Введи ответ в формате "number"
Подразумевает только отдельное число (исключаем 1984 - потому что отдельное число), но не запрещает дополнения к ответу
В train выборке есть более неоднозначные примеры, но все примеры разметили одинаково много разметчиков. Здесь предлагаю руководствоваться фактом, что, как часто на практике, test много раз проверен и train - попытка приблизиться к тесту по качеству

0

gislason6375@gislason6375

5 сентября 2025

Добавьте, пожалуйста, пример submission.zip (как архива), чтобы он запускался.

0

crist8332@crist8332

5 сентября 2025

Добрый день! Полностью запускаемый сабмит лежит в baseline.zip

0

gislason6375@gislason6375

5 сентября 2025

@crist8332, я отправил данный файл на проверку системе - получил ошибку на стадии:

16. Статус работы кода инференса (полный сет)

Code run

0

crist8332@crist8332

5 сентября 2025

Видимо коллеги не загрузили актуальную версию
Надо добавить в run.py проверку на ошибки, например, так
results = [int(a[0]) if a[0].isdigit() else 0 for a in answers]

0

hackett1620@hackett1620

5 сентября 2025

Здравствуйте!
А будут ли в ходе соревнования предоставлены данные (пример для обучения) по 2 и 3 подзадачам?

0

crist8332@crist8332

5 сентября 2025

Сложность этих подзадач в том, что данных для обучения не выкладываем, предлагаем самостоятельно собрать данные, для 3 подзадачи можно посмотреть проект POLLUX

-1

hackett1620@hackett1620

5 сентября 2025

Доступен ли в этой задаче GigaChat API?

0

crist8332@crist8332

5 сентября 2025

Интернет в этой задаче не доступен, в частности нет доступа к GigaChat API

1

hackett1620@hackett1620

5 сентября 2025

Вопросы по ограничениям.
> Размер файла с сабмитом не должен превышать 5GB.

Тут имеется в виду размер архива или размер распакованных данных?

> размер всех файлов решения во время работы и библиотек образа не должен превышать 10GB

Эти 10GB включают в себя 5Gb, которые описаны выше?

0

crist8332@crist8332

5 сентября 2025

Размер архива - 5GB
до 10GB - размер рабочего пространства после разархивации решения, к файлам решения туда добавляются установленные библиотеки

То есть из 10GB уже будут заняты 5+GB от распакованного архива

0

hackett1620@hackett1620

5 сентября 2025

Тестовый прогон идет только на данных для публичного лидерборда, а для приватного будет отдельно после завершения соревнования?

0

crist8332@crist8332

5 сентября 2025

Тестовый прогон идет только на данных публичного сета, после окончания конкурса выбранные решения будут проверены на приватном датасете и опубликованы их результаты приватного лидерборда

2

beer6656@beer6656

6 сентября 2025

При загрузке решения в пайплайн внизу (История запусков) иногда пропадает ячейка выбора, вчера при отправке ее вообще не было, хотя я отправлял несколько, сейчас появилась и снова пропала будто я не закидывал ничего

0

crist8332@crist8332

6 сентября 2025

Передали в тех поддержку платформы

1

hackett1620@hackett1620

7 сентября 2025

Появилась проблема с "Новым запуском". Невозможно загрузить решение. Кнопки для загрузки куда-то пропали.

0

blanda7513@blanda7513

8 сентября 2025

Добрый день. Уточните пожалуйста, в каком браузере наблюдается данная проблема? Название и версия.

0

blanda7513@blanda7513

8 сентября 2025

И уточните пожалуйста, воспроизводится ли проблема в последней версии Хрома.

0

hackett1620@hackett1620

8 сентября 2025

Firefox 142.0.1
Сейчас проверил, заработало как раньше, кнопка "Выберите файл" стала появляться.

0

blanda7513@blanda7513

9 сентября 2025

Крайне рекомендуем использовать для работы с платформой google chrome последней доступной версии.

1

batz9569@batz9569

10 сентября 2025

Можно ли уточнить сколько семплов в тестовой выборке чтобы рассчитать инференс под условие работы 1 часа?

0

crist8332@crist8332

10 сентября 2025

Боюсь, что эта информация не поможет, потому что большой разброс количества токенов. Можно отправить необученную модель для замера времени

0

grady2958@grady2958

14 сентября 2025

зависла задача, несколько часов крутится распаковка

5

block7975@block7975

14 сентября 2025

Тоже самое

0

carter9468@carter9468

14 сентября 2025

С утра на платформе проблемы с интернетом. Я связался со службой поддержки, но пока не получил ответа.

0

blanda7513@blanda7513

15 сентября 2025

Уважаемые участники. При обращении по проблеме с запуском сабмиста, указывайте, пожалуйста, имя команды и примерное время сабмита.

0

koepp1540@koepp1540

16 сентября 2025

Здравствуйте! А можно ли попросить увидеть пример function calling промпта (пример с overview страницы) на русском языке

0

schneider1128@schneider1128

20 сентября 2025

Здравствуйте! Уже более двух часов крутится шаг 2 статус очистки дискового пространства(( Будто бы что-то подвисло...

2

renner4544@renner4544

20 сентября 2025

уже более 10 часов тоже лежит, команда Aleksandr Gaptrakhmanov, время сабмита около 20:00, если есть возможность, положите решение, а то новые тоже не отправляются.

1

schneider1128@schneider1128

20 сентября 2025

продолжает бесконечно крутиться...(

1

wilkinson7068@wilkinson7068

20 сентября 2025

О и в этом конкурсе все легло. Привет от создателей памяти для ИИ)

1

block2136@block2136

20 сентября 2025

такаяже проблема

1

blanda7513@blanda7513

20 сентября 2025

Уважаемые участники, на настоящий момент, ранее наблюдаемый аппаратный сбой был устранен. Задача полностью функциональна.

1

mccullough8320@mccullough8320

21 сентября 2025

А можно какую то шкалу выполнения когда основной дата-сет проверяется, а то непонятно выдержит ли тайм-аут решение или нет, становится понятно только когда час проходит((((

0

blanda7513@blanda7513

30 сентября 2025

Добрый день. Такого функционала пока не планируется.

0

block2136@block2136

22 сентября 2025

Добрый день, новая ошибка с ранерами
ℹ️ NODES INFO

Nodes: hpcsrv-048.k2

2025-09-22T05:38:52Z Job lm-mpi-job-784af365-d21a-4265-879f-265eb9e81260 (binary) is starting...

2025-09-22T05:38:52Z cat: /home/jovyan/.ssh/ai0001071-04586.pub: No such file or directory

2025-09-22T05:38:52Z 🕒 Waiting for workers to be ready... 🕒

2025-09-22T05:39:07Z Connecting to mpimaster-0 ..... Ready ✓

2025-09-22T05:39:07Z 🚀 All workers are READY 🚀

🤖 CLOUD.RU PLATFORM LOGS 🤖

ℹ️ JOB INFO

lm-mpi-job-784af365-d21a-4265-879f-265eb9e81260

Status: Failed

3

blanda7513@blanda7513

30 сентября 2025

Уточните команду и дату/время запуска.

0

langworth5746@langworth5746

22 сентября 2025

А когда можно ожидать решения проблемы, описанной выше?

Когда в логах нет записи об ошибке, а статус Failed?

4

wilderman1475@wilderman1475

25 сентября 2025

Крутиться с вчерашнего дня 16. Статус работы кода инференса (полный сет)

1

terry1911@terry1911

25 сентября 2025

Добрый день!

Присоединяюсь. Сегодня всё останавливается на шаге 16 с "превышено время запуска инстанса".
Из за чего может возникнуть?
Видел перед этим шаг с проверкой на части данных => делаю вывод, что запускается.

0

blanda7513@blanda7513

30 сентября 2025

"Сегодня всё останавливается на шаге 16 с "превышено время запуска инстанса".
Из за чего может возникнуть?"

Такое поведение происходит из-за исчерпания времени на запуск сабмита.

0

wilderman1475@wilderman1475

25 сентября 2025

Здравствуйте 18. Статус расчета метрики

Code run падает и нет логов пробовал разные решения все так же команда Владимир Калюта

2

wilderman1475@wilderman1475

27 сентября 2025

Проблема с метриками не куда не ушла

0

blanda7513@blanda7513

30 сентября 2025

Падение в статусе рассчета метрики происходит из-за проблем с вашим сабмитом.

0

block7975@block7975

1 октября 2025

Добрый день! Пропустил информацию про вебинар по задаче. Запись где то можно посмотреть?

1

crist8332@crist8332

6 октября 2025

Запись в процессе публикации

1

renner4544@renner4544

1 октября 2025

А можно ли как-то скачать свое старое решение, которое давно было отправлено? Вижу, что его можно заново отправить на проверку, значит оно где-то сохранено?

0

crist8332@crist8332

6 октября 2025

Такой функционал не предусмотрен

0

armstrong8695@armstrong8695

3 октября 2025

How to submit the solution? When i tried to upload the baseline.zip it is uploading very slow, showing 7 hours to just upload. Can anyone please guide me.

1

crist8332@crist8332

6 октября 2025

check your internet connection and try again please

0

hermann5422@hermann5422

7 октября 2025

Добрый день, всё таки подскажите размер приватной выборки в сравнении с публичной?

Может быть есть результаты за сколько бейзлайн выполняется на приватной части?

0

legros2758@legros2758

13 октября 2025

Два вопроса:
1. Где можно посмотреть запись вебинара?
2. Можно ли по сабмиту, который не вошел в лидерборд узнать оценки не финальной rmse общей, а по каждой из 3х задач?

1

renner4544@renner4544

13 октября 2025

там если навести на стадии, на звездочках можно увидеть скор за 2 и 3 задачу, а за первую соответственно вычесть из об

1

legros2758@legros2758

13 октября 2025

@renner4544

спасибо!

0

legros2758@legros2758

13 октября 2025

остался вопрос организаторам про записи вебинаров

3

mccullough8323@mccullough8323

18 октября 2025

Если изучить примеры, то видно, что для первой задачи возможные значения оценок - {0,1,2,3}. Для второй - {0,1,2}. Для третьей - {-1,0,1,2}. Для первой задачи у нас есть возможность свериться с обучающей выборкой и понять, что там, аналогично примеру, всюду дается набор {0,1,2,3}. Однако для второй и третьей задач у нас нет возможности провалидировать диапазоны оценок. Верно ли понимаю, что в промптах для этих двух задач не будет отклонений от примеров из раздела "Обзор"? То есть для второй задачи у нас всегда только {0,1,2}, а для третьей только {-1,0,1,2}. Или же может оказаться, например {0,1,2,3} для второй и {-1,0,1} для третьей в каких-то случах?

0

crist8332@crist8332

20 октября 2025

Не даем гарантий на шкалу в третьей задаче, она может быть любой, но всегда есть -1, подробнее обсудили в вебинаре
Для первой и второй задачи шкалы всегда как в примерах

2

west6814@west6814

20 октября 2025

Добрый день, команда SoloTech загружал ваш baseline.zip, скаченный сегодня и получил ошибку. Подскажите, как исправить?

ℹ️ NODES INFO

Nodes: hpcsrv-048.k2

2025-10-20T10:37:43.855057341+03:00 Job lm-mpi-job-38ad264c-83d8-4477-8aeb-7c6e7b8813c0 (binary) is starting...

2025-10-20T10:37:43.900097632+03:00 cat: /home/jovyan/.ssh/ai0001071-05180.pub: No such file or directory

2025-10-20T10:37:43.928535981+03:00 🕒 Waiting for workers to be ready... 🕒

2025-10-20T10:37:58.946455951+03:00 Connecting to mpimaster-0 ..... Ready ✓

2025-10-20T10:37:58.946515224+03:00 🚀 All workers are READY 🚀

2025-10-20T10:37:59.275492119+03:00 [1,0]<stderr>:python: can't open file '/home/jovyan/a9a6ec39-a7fa-456b-a959-065326b01da6/run.py': [Errno 2] No such file or directory

2025-10-20T10:37:59.299474510+03:00 --------------------------------------------------------------------------

2025-10-20T10:37:59.299487395+03:00 Primary job terminated normally, but 1 process returned

2025-10-20T10:37:59.299496201+03:00 a non-zero exit code. Per user-direction, the job has been aborted.

2025-10-20T10:37:59.299504237+03:00 --------------------------------------------------------------------------

2025-10-20T10:38:01.300866809+03:00 --------------------------------------------------------------------------

2025-10-20T10:38:01.300890414+03:00 mpirun detected that one or more processes exited with non-zero status, thus causing

2025-10-20T10:38:01.300898900+03:00 the job to be terminated. The first process to do so was:

2025-10-20T10:38:01.300906324+03:00

2025-10-20T10:38:01.300914189+03:00 Process name: [[13941,1],0]

2025-10-20T10:38:01.300922205+03:00 Exit code: 2

2025-10-20T10:38:01.300930019+03:00 --------------------------------------------------------------------------

🤖 CLOUD.RU PLATFORM LOGS 🤖

ℹ️ JOB INFO

lm-mpi-job-38ad264c-83d8-4477-8aeb-7c6e7b8813c0

Status: Failed

0

crist8332@crist8332

20 октября 2025

похоже в сабмите потерялся файл run.py

1

west6814@west6814

20 октября 2025

перезапустил в браузере хром до этого был сафари с тем же самым сабмитом - сработало!

0

armstrong8695@armstrong8695

22 октября 2025

Hey, can anyone help me to find the data for subtask 2. I am unable to get it from the BFCL. Can anyone suggest me what to do?

1

schneider1128@schneider1128

23 октября 2025

Добрый вечер, бесконечно работает очистка дискового пространства(((

0

schneider1128@schneider1128

23 октября 2025

Кажется, не бесконечно, но очень долго...

0

gaylord6180@gaylord6180

27 октября 2025

Добрый день! а можно ли в соревновании написать свой кастомный run.py и использовать другие библиотеки в run.py, например peft? установлена ли она на платформе?

1

armstrong8695@armstrong8695

28 октября 2025

Эй, какой максимальный размер модели по количеству параметров ты можешь использовать для этого соревнования? Сейчас я могу использовать примерно модель с 2 миллиардами параметров. Возможно ли вообще использовать модель большего размера?

0

schmitt1866@schmitt1866

29 октября 2025

Шаг 16 время выполнения истек, можете ли вы предоставить журнал?

0

barrows4322@barrows4322

30 октября 2025

организаторы пожалуйста разъясните вот сейчас 27 человек занимают призовые места золото серебро бронза между ними поделится приз или получит только три первых человека?

3

beatty6278@beatty6278

30 октября 2025

Загрузил исправленное решение, где оказался неверный путь к файлу из бейзлайна.

Висит полчаса уже на этапе
02. Статус очистки дискового пространства

Code run

Что делать?


2

beatty6278@beatty6278

30 октября 2025

Или там надо было старый удалять, но сейчас это сделать невозможно.

0

hackett1620@hackett1620

30 октября 2025

Это очередь на платформе для доступа к ресурсам. Участники тут ничего сделать не могут.

1

beatty6278@beatty6278

30 октября 2025

И ещё, тут кличка странная, beatty6278.
Я вроде правильную ставил, MedAI, она опять слетела.
Я тут новый если что, условия пару дней назад смотрел, но зайти только сегодня получилось.
Поменять ее самому можно?

0

beatty6278@beatty6278

30 октября 2025

Это точно висит из-за очереди?
Первый сабмит быстро запустился.
Может там чистить надо всё-таки?
Модераторы, скажите?

0

beatty6278@beatty6278

30 октября 2025

Попытался удалить, ничего не вышло. Всё висит по-прежнему.

3

heathcote5735@heathcote5735

30 октября 2025

будет какое-то продление из-за бага?

2

beatty6278@beatty6278

30 октября 2025

А что за баг, о чем речь?
У меня висит уже больше 4 часов.

0

beatty6278@beatty6278

30 октября 2025

Всё висит уже 4 часа наглухо
Есть какая-то поддержка или чат в телеграм по задаче или контесту?
Будет ли засчитана попытка и передано решение, которое я загрузил на расчёт, но не успел мне пайплайн обсчитать, чуть ниже, отдать на контест?

1

beatty6278@beatty6278

30 октября 2025

через 6 часов ещё 2 раза pipeline successfully started, и все на том же месте

1

schmitt1866@schmitt1866

30 октября 2025

02. Статус очистки дискового пространства

Уже 10 минут...

2

beatty6278@beatty6278

30 октября 2025

02. Статус очистки дискового пространства

через 7 часов ещё 2 раза pipeline successfully started, и все на том же месте

сдвинуть с этого места невозможно

пишу сюда без конца

2

beatty6278@beatty6278

30 октября 2025

продвинулся запуск, но висит теперь на
14. Статус распаковки данных

Code run

очень долго
а кнопка Submit неактивна

1

toy4498@toy4498

31 октября 2025

Уважаемые участники!

Для вашего удобства мы продлеваем время выбора трёх итоговых сабмитов для оценки на приватных данных до 12:00 (по МСК) 31.10.25

Для всех отправленных решений к этому времени будут рассчитаны оценки на публичной турнирной таблице.

Если Участники Конкурса не выберут три решения самостоятельно, то, по Правилам Конкурса, выбор будет сделан автоматически — на проверку уйдут три лучшие решения по скору на публичной турнирной таблице. На приватную турнирную таблицу (итоговый лидерборд) попадает одно из трех решений Задачи с лучшим значением метрики.

С уважением,

Команда AIJ Contest

1

beatty6278@beatty6278

31 октября 2025

  1. А на неофициальный лидерборд еще подавать можно будет?

    2. И мне уже с неактивной кнопкой уже не подать, хотя оно посчиталось.
    Запускал за 8 с лишним часов до окончания принятия решений.
    Все автоматом попадёт?

0

baumbach1148@baumbach1148

31 октября 2025

Как корректно выбрать три сабмита? Прожимаю галочки напротив нужных, но после обновления страницы они пропадают.

0

renner4544@renner4544

31 октября 2025

там в самый низ надо прокрутить страницу, и там будет отправить решение

1

beatty6278@beatty6278

31 октября 2025

моделька посчиталась, и для первого обсчёта всё не так уж и плохо, было бы, но кнопка Submit неактивна.
Вроде в таблицу попало, имя подлиннее и цифры подлиннее на лидерборде светятся.
А у меня это единственный положительный результат из 2х, поданный за 8 с лишним часов до окончания принятия решений.
Жалко, что меньше суток участвовал, мог бы и в призёры попасть и по второй задаче не успел немного подать

0

renner4544@renner4544

31 октября 2025

а приват будет только 14 числа?

2

beatty6278@beatty6278

1 ноября 2025

Охренеть, до сих пор считаются кнопки, которые я повторно тыкал, когда думал, что все зависло. одна точно. Знал бы, доработал до топа)))

0

eichmann2945@eichmann2945

2 ноября 2025

Уважаемые организаторы,

Подскажите пожалуйста, что означают три запуска от 31.10? Если это запуск из трёх лучших за всю историю, то отобранные сабмиты таковыми не являются.

ЗЫ да, галочки я не ставил, но было обозначено, что «Если Участники Конкурса не выберут три решения самостоятельно, то, по Правилам Конкурса, выбор будет сделан автоматически — на проверку уйдут три лучшие решения по скору на публичной турнирной таблице». Сейчас не так.

0

blanda7513@blanda7513

3 ноября 2025

Добрый день. Пожалуйста не беспокойтесь. Для приватного лидерборда будут выбраны сабмиты с лучшим публичным скором, если вы не сделали игого выбора в ручную.

0

haley6830@haley6830

2 декабря 2025

Vsem privet!

0