Agent-as-Judge

Evaluation of the generative capabilities of LLM agents

champ imagechamp image
gislason6375@gislason6375

September 5, 2025

Здравствуйте, сейчас я просматриваю датасет, и у меня появились вопросы по его разметке:

Пример 1
```
### Задание для оценки: Сложите два числа: 6328 + 7522 =

### Эталонный ответ:

13850

### Ответ для оценки:

6328 + 7522 = 13840

### Критерий оценки:

Правильность ответа и формата

### Шкала оценивания по критерию:

0: Ответ содержит ошибки и не выполнены требования из инструкции.

1: Формат ответа совпадает с требуемым в инструкции, но ответ содержит ошибки.

2: Ответ правильный, но не выполнены требования из инструкции.

3: Ответ правильный и соответствует требованиям формата.
```


Оценка эксперта (судя по датасету): 1, но здесь должно ведь быть 0, так как формат неправильный.



Пример 2
```
### Задание для оценки:

Реши математическую задачу на сложение чисел. Выведи ответ в формате "number", где number - число, которое является результатом сложения.

Ответ:

### Эталонный ответ:

56463

### Ответ для оценки:

55663

### Критерий оценки:

Правильность ответа и формата

### Шкала оценивания по критерию:

0: Ответ содержит ошибки и не выполнены требования из инструкции.

1: Формат ответа совпадает с требуемым в инструкции, но ответ содержит ошибки.

2: Ответ правильный, но не выполнены требования из инструкции.

3: Ответ правильный и соответствует требованиям формата.
```


Здесь вообще не описана задача


Пример 3
```
### Задание для оценки:

Реши математическую задачу на сложение чисел. Выведи ответ в формате "number", где number - число, которое является результатом сложения. Ответ:

### Эталонный ответ:

984

### Ответ для оценки:

984<end_of_turn>

### Критерий оценки:

Правильность ответа и формата

### Шкала оценивания по критерию:

0: Ответ содержит ошибки и не выполнены требования из инструкции.

1: Формат ответа совпадает с требуемым в инструкции, но ответ содержит ошибки.

2: Ответ правильный, но не выполнены требования из инструкции.

3: Ответ правильный и соответствует требованиям формата.
```


Оценка эксперта: 3, здесь нет описания задачи и формат ошибочен.


Пожалуйста, проверьте датасет!

0

crist8332@crist8332

September 5, 2025

В примерах 1 и 3 формат задан не так строго:

Написано вывести число, но не сказано, можно ли писать что-то еще

По поводу наличия задания: оно необязательно, потому что не помогает сравнить правильный ответ с сгенерированным, поэтому убирали другие модальности из примеров (например, картинки)

Примеры размечались с большим перекрытием, а примеры для теста дополнительно валидировались экспертами

0

gislason6375@gislason6375

September 5, 2025

@crist8332, но ведь в примере 3 там ясно написано: "Введи ответ в формате "number"", а испытуемый выдаёт ответ: "984<end_of_turn>" - что не должно соответствовать формату (по логике). Просто если считать, что наличие <end_of_turn> допустимо для формата, может тогда и допустимы ответы:

- "1984" - просто 1 лишняя
- "0,1,2,3,4,5...,983,984,985" - ответ 984 есть - то получается это должно считать за правильный ответ

Но такая логика не должна работать. Ответ должен быть лишь "984" ("984 ") - а в задании это не так. К тому же в датасет есть примеры, которые нарушают данную логику.

0

crist8332@crist8332

September 5, 2025

Формулировка
Введи ответ в формате "number"
Подразумевает только отдельное число (исключаем 1984 - потому что отдельное число), но не запрещает дополнения к ответу
В train выборке есть более неоднозначные примеры, но все примеры разметили одинаково много разметчиков. Здесь предлагаю руководствоваться фактом, что, как часто на практике, test много раз проверен и train - попытка приблизиться к тесту по качеству

0

gislason6375@gislason6375

September 5, 2025

Добавьте, пожалуйста, пример submission.zip (как архива), чтобы он запускался.

0

crist8332@crist8332

September 5, 2025

Добрый день! Полностью запускаемый сабмит лежит в baseline.zip

0

gislason6375@gislason6375

September 5, 2025

@crist8332, я отправил данный файл на проверку системе - получил ошибку на стадии:

16. Статус работы кода инференса (полный сет)

Code run

0

crist8332@crist8332

September 5, 2025

Видимо коллеги не загрузили актуальную версию
Надо добавить в run.py проверку на ошибки, например, так
results = [int(a[0]) if a[0].isdigit() else 0 for a in answers]

0

hackett1620@hackett1620

September 5, 2025

Здравствуйте!
А будут ли в ходе соревнования предоставлены данные (пример для обучения) по 2 и 3 подзадачам?

0

crist8332@crist8332

September 5, 2025

Сложность этих подзадач в том, что данных для обучения не выкладываем, предлагаем самостоятельно собрать данные, для 3 подзадачи можно посмотреть проект POLLUX

-1

hackett1620@hackett1620

September 5, 2025

Доступен ли в этой задаче GigaChat API?

0

crist8332@crist8332

September 5, 2025

Интернет в этой задаче не доступен, в частности нет доступа к GigaChat API

1

hackett1620@hackett1620

September 5, 2025

Вопросы по ограничениям.
> Размер файла с сабмитом не должен превышать 5GB.

Тут имеется в виду размер архива или размер распакованных данных?

> размер всех файлов решения во время работы и библиотек образа не должен превышать 10GB

Эти 10GB включают в себя 5Gb, которые описаны выше?

0

crist8332@crist8332

September 5, 2025

Размер архива - 5GB
до 10GB - размер рабочего пространства после разархивации решения, к файлам решения туда добавляются установленные библиотеки

То есть из 10GB уже будут заняты 5+GB от распакованного архива

0

hackett1620@hackett1620

September 5, 2025

Тестовый прогон идет только на данных для публичного лидерборда, а для приватного будет отдельно после завершения соревнования?

0

crist8332@crist8332

September 5, 2025

Тестовый прогон идет только на данных публичного сета, после окончания конкурса выбранные решения будут проверены на приватном датасете и опубликованы их результаты приватного лидерборда

2

beer6656@beer6656

September 6, 2025

При загрузке решения в пайплайн внизу (История запусков) иногда пропадает ячейка выбора, вчера при отправке ее вообще не было, хотя я отправлял несколько, сейчас появилась и снова пропала будто я не закидывал ничего

0

crist8332@crist8332

September 6, 2025

Передали в тех поддержку платформы

1

hackett1620@hackett1620

September 7, 2025

Появилась проблема с "Новым запуском". Невозможно загрузить решение. Кнопки для загрузки куда-то пропали.

0

blanda7513@blanda7513

September 8, 2025

Добрый день. Уточните пожалуйста, в каком браузере наблюдается данная проблема? Название и версия.

0

blanda7513@blanda7513

September 8, 2025

И уточните пожалуйста, воспроизводится ли проблема в последней версии Хрома.

0

hackett1620@hackett1620

September 8, 2025

Firefox 142.0.1
Сейчас проверил, заработало как раньше, кнопка "Выберите файл" стала появляться.

0

blanda7513@blanda7513

September 9, 2025

Крайне рекомендуем использовать для работы с платформой google chrome последней доступной версии.

1

batz9569@batz9569

September 10, 2025

Можно ли уточнить сколько семплов в тестовой выборке чтобы рассчитать инференс под условие работы 1 часа?

0

crist8332@crist8332

September 10, 2025

Боюсь, что эта информация не поможет, потому что большой разброс количества токенов. Можно отправить необученную модель для замера времени

0

grady2958@grady2958

September 14, 2025

зависла задача, несколько часов крутится распаковка

5

block7975@block7975

September 14, 2025

Тоже самое

0

carter9468@carter9468

September 14, 2025

С утра на платформе проблемы с интернетом. Я связался со службой поддержки, но пока не получил ответа.

0

blanda7513@blanda7513

September 15, 2025

Уважаемые участники. При обращении по проблеме с запуском сабмиста, указывайте, пожалуйста, имя команды и примерное время сабмита.

0

koepp1540@koepp1540

September 16, 2025

Здравствуйте! А можно ли попросить увидеть пример function calling промпта (пример с overview страницы) на русском языке

0

schneider1128@schneider1128

September 20, 2025

Здравствуйте! Уже более двух часов крутится шаг 2 статус очистки дискового пространства(( Будто бы что-то подвисло...

2

renner4544@renner4544

September 20, 2025

уже более 10 часов тоже лежит, команда Aleksandr Gaptrakhmanov, время сабмита около 20:00, если есть возможность, положите решение, а то новые тоже не отправляются.

1

schneider1128@schneider1128

September 20, 2025

продолжает бесконечно крутиться...(

1

wilkinson7068@wilkinson7068

September 20, 2025

О и в этом конкурсе все легло. Привет от создателей памяти для ИИ)

1

block2136@block2136

September 20, 2025

такаяже проблема

1

blanda7513@blanda7513

September 20, 2025

Уважаемые участники, на настоящий момент, ранее наблюдаемый аппаратный сбой был устранен. Задача полностью функциональна.

1

mccullough8320@mccullough8320

September 21, 2025

А можно какую то шкалу выполнения когда основной дата-сет проверяется, а то непонятно выдержит ли тайм-аут решение или нет, становится понятно только когда час проходит((((

0

blanda7513@blanda7513

September 30, 2025

Добрый день. Такого функционала пока не планируется.

0

block2136@block2136

September 22, 2025

Добрый день, новая ошибка с ранерами
ℹ️ NODES INFO

Nodes: hpcsrv-048.k2

2025-09-22T05:38:52Z Job lm-mpi-job-784af365-d21a-4265-879f-265eb9e81260 (binary) is starting...

2025-09-22T05:38:52Z cat: /home/jovyan/.ssh/ai0001071-04586.pub: No such file or directory

2025-09-22T05:38:52Z 🕒 Waiting for workers to be ready... 🕒

2025-09-22T05:39:07Z Connecting to mpimaster-0 ..... Ready ✓

2025-09-22T05:39:07Z 🚀 All workers are READY 🚀

🤖 CLOUD.RU PLATFORM LOGS 🤖

ℹ️ JOB INFO

lm-mpi-job-784af365-d21a-4265-879f-265eb9e81260

Status: Failed

3

blanda7513@blanda7513

September 30, 2025

Уточните команду и дату/время запуска.

0

langworth5746@langworth5746

September 22, 2025

А когда можно ожидать решения проблемы, описанной выше?

Когда в логах нет записи об ошибке, а статус Failed?

4

wilderman1475@wilderman1475

September 25, 2025

Крутиться с вчерашнего дня 16. Статус работы кода инференса (полный сет)

1

terry1911@terry1911

September 25, 2025

Добрый день!

Присоединяюсь. Сегодня всё останавливается на шаге 16 с "превышено время запуска инстанса".
Из за чего может возникнуть?
Видел перед этим шаг с проверкой на части данных => делаю вывод, что запускается.

0

blanda7513@blanda7513

September 30, 2025

"Сегодня всё останавливается на шаге 16 с "превышено время запуска инстанса".
Из за чего может возникнуть?"

Такое поведение происходит из-за исчерпания времени на запуск сабмита.

0

wilderman1475@wilderman1475

September 25, 2025

Здравствуйте 18. Статус расчета метрики

Code run падает и нет логов пробовал разные решения все так же команда Владимир Калюта

2

wilderman1475@wilderman1475

September 27, 2025

Проблема с метриками не куда не ушла

0

blanda7513@blanda7513

September 30, 2025

Падение в статусе рассчета метрики происходит из-за проблем с вашим сабмитом.

0

block7975@block7975

October 1, 2025

Добрый день! Пропустил информацию про вебинар по задаче. Запись где то можно посмотреть?

1

crist8332@crist8332

October 6, 2025

Запись в процессе публикации

1

renner4544@renner4544

October 1, 2025

А можно ли как-то скачать свое старое решение, которое давно было отправлено? Вижу, что его можно заново отправить на проверку, значит оно где-то сохранено?

0

crist8332@crist8332

October 6, 2025

Такой функционал не предусмотрен

0

armstrong8695@armstrong8695

October 3, 2025

How to submit the solution? When i tried to upload the baseline.zip it is uploading very slow, showing 7 hours to just upload. Can anyone please guide me.

1

crist8332@crist8332

October 6, 2025

check your internet connection and try again please

0

hermann5422@hermann5422

October 7, 2025

Добрый день, всё таки подскажите размер приватной выборки в сравнении с публичной?

Может быть есть результаты за сколько бейзлайн выполняется на приватной части?

0

legros2758@legros2758

October 13, 2025

Два вопроса:
1. Где можно посмотреть запись вебинара?
2. Можно ли по сабмиту, который не вошел в лидерборд узнать оценки не финальной rmse общей, а по каждой из 3х задач?

1

renner4544@renner4544

October 13, 2025

там если навести на стадии, на звездочках можно увидеть скор за 2 и 3 задачу, а за первую соответственно вычесть из об

1

legros2758@legros2758

October 13, 2025

@renner4544

спасибо!

0

legros2758@legros2758

October 13, 2025

остался вопрос организаторам про записи вебинаров

3

mccullough8323@mccullough8323

October 18, 2025

Если изучить примеры, то видно, что для первой задачи возможные значения оценок - {0,1,2,3}. Для второй - {0,1,2}. Для третьей - {-1,0,1,2}. Для первой задачи у нас есть возможность свериться с обучающей выборкой и понять, что там, аналогично примеру, всюду дается набор {0,1,2,3}. Однако для второй и третьей задач у нас нет возможности провалидировать диапазоны оценок. Верно ли понимаю, что в промптах для этих двух задач не будет отклонений от примеров из раздела "Обзор"? То есть для второй задачи у нас всегда только {0,1,2}, а для третьей только {-1,0,1,2}. Или же может оказаться, например {0,1,2,3} для второй и {-1,0,1} для третьей в каких-то случах?

0

crist8332@crist8332

October 20, 2025

Не даем гарантий на шкалу в третьей задаче, она может быть любой, но всегда есть -1, подробнее обсудили в вебинаре
Для первой и второй задачи шкалы всегда как в примерах

2

west6814@west6814

October 20, 2025

Добрый день, команда SoloTech загружал ваш baseline.zip, скаченный сегодня и получил ошибку. Подскажите, как исправить?

ℹ️ NODES INFO

Nodes: hpcsrv-048.k2

2025-10-20T10:37:43.855057341+03:00 Job lm-mpi-job-38ad264c-83d8-4477-8aeb-7c6e7b8813c0 (binary) is starting...

2025-10-20T10:37:43.900097632+03:00 cat: /home/jovyan/.ssh/ai0001071-05180.pub: No such file or directory

2025-10-20T10:37:43.928535981+03:00 🕒 Waiting for workers to be ready... 🕒

2025-10-20T10:37:58.946455951+03:00 Connecting to mpimaster-0 ..... Ready ✓

2025-10-20T10:37:58.946515224+03:00 🚀 All workers are READY 🚀

2025-10-20T10:37:59.275492119+03:00 [1,0]<stderr>:python: can't open file '/home/jovyan/a9a6ec39-a7fa-456b-a959-065326b01da6/run.py': [Errno 2] No such file or directory

2025-10-20T10:37:59.299474510+03:00 --------------------------------------------------------------------------

2025-10-20T10:37:59.299487395+03:00 Primary job terminated normally, but 1 process returned

2025-10-20T10:37:59.299496201+03:00 a non-zero exit code. Per user-direction, the job has been aborted.

2025-10-20T10:37:59.299504237+03:00 --------------------------------------------------------------------------

2025-10-20T10:38:01.300866809+03:00 --------------------------------------------------------------------------

2025-10-20T10:38:01.300890414+03:00 mpirun detected that one or more processes exited with non-zero status, thus causing

2025-10-20T10:38:01.300898900+03:00 the job to be terminated. The first process to do so was:

2025-10-20T10:38:01.300906324+03:00

2025-10-20T10:38:01.300914189+03:00 Process name: [[13941,1],0]

2025-10-20T10:38:01.300922205+03:00 Exit code: 2

2025-10-20T10:38:01.300930019+03:00 --------------------------------------------------------------------------

🤖 CLOUD.RU PLATFORM LOGS 🤖

ℹ️ JOB INFO

lm-mpi-job-38ad264c-83d8-4477-8aeb-7c6e7b8813c0

Status: Failed

0

crist8332@crist8332

October 20, 2025

похоже в сабмите потерялся файл run.py

1

west6814@west6814

October 20, 2025

перезапустил в браузере хром до этого был сафари с тем же самым сабмитом - сработало!

0

armstrong8695@armstrong8695

October 22, 2025

Hey, can anyone help me to find the data for subtask 2. I am unable to get it from the BFCL. Can anyone suggest me what to do?

1

schneider1128@schneider1128

October 23, 2025

Добрый вечер, бесконечно работает очистка дискового пространства(((

0

schneider1128@schneider1128

October 23, 2025

Кажется, не бесконечно, но очень долго...

0

gaylord6180@gaylord6180

October 27, 2025

Добрый день! а можно ли в соревновании написать свой кастомный run.py и использовать другие библиотеки в run.py, например peft? установлена ли она на платформе?

1

armstrong8695@armstrong8695

October 28, 2025

Эй, какой максимальный размер модели по количеству параметров ты можешь использовать для этого соревнования? Сейчас я могу использовать примерно модель с 2 миллиардами параметров. Возможно ли вообще использовать модель большего размера?

0

schmitt1866@schmitt1866

October 29, 2025

Шаг 16 время выполнения истек, можете ли вы предоставить журнал?

0

barrows4322@barrows4322

October 30, 2025

организаторы пожалуйста разъясните вот сейчас 27 человек занимают призовые места золото серебро бронза между ними поделится приз или получит только три первых человека?

3

beatty6278@beatty6278

October 30, 2025

Загрузил исправленное решение, где оказался неверный путь к файлу из бейзлайна.

Висит полчаса уже на этапе
02. Статус очистки дискового пространства

Code run

Что делать?


2

beatty6278@beatty6278

October 30, 2025

Или там надо было старый удалять, но сейчас это сделать невозможно.

0

hackett1620@hackett1620

October 30, 2025

Это очередь на платформе для доступа к ресурсам. Участники тут ничего сделать не могут.

1

beatty6278@beatty6278

October 30, 2025

И ещё, тут кличка странная, beatty6278.
Я вроде правильную ставил, MedAI, она опять слетела.
Я тут новый если что, условия пару дней назад смотрел, но зайти только сегодня получилось.
Поменять ее самому можно?

0

beatty6278@beatty6278

October 30, 2025

Это точно висит из-за очереди?
Первый сабмит быстро запустился.
Может там чистить надо всё-таки?
Модераторы, скажите?

0

beatty6278@beatty6278

October 30, 2025

Попытался удалить, ничего не вышло. Всё висит по-прежнему.

3

heathcote5735@heathcote5735

October 30, 2025

будет какое-то продление из-за бага?

2

beatty6278@beatty6278

October 30, 2025

А что за баг, о чем речь?
У меня висит уже больше 4 часов.

0

beatty6278@beatty6278

October 30, 2025

Всё висит уже 4 часа наглухо
Есть какая-то поддержка или чат в телеграм по задаче или контесту?
Будет ли засчитана попытка и передано решение, которое я загрузил на расчёт, но не успел мне пайплайн обсчитать, чуть ниже, отдать на контест?

1

beatty6278@beatty6278

October 30, 2025

через 6 часов ещё 2 раза pipeline successfully started, и все на том же месте

1

schmitt1866@schmitt1866

October 30, 2025

02. Статус очистки дискового пространства

Уже 10 минут...

2

beatty6278@beatty6278

October 30, 2025

02. Статус очистки дискового пространства

через 7 часов ещё 2 раза pipeline successfully started, и все на том же месте

сдвинуть с этого места невозможно

пишу сюда без конца

2

beatty6278@beatty6278

October 30, 2025

продвинулся запуск, но висит теперь на
14. Статус распаковки данных

Code run

очень долго
а кнопка Submit неактивна

1

toy4498@toy4498

October 31, 2025

Уважаемые участники!

Для вашего удобства мы продлеваем время выбора трёх итоговых сабмитов для оценки на приватных данных до 12:00 (по МСК) 31.10.25

Для всех отправленных решений к этому времени будут рассчитаны оценки на публичной турнирной таблице.

Если Участники Конкурса не выберут три решения самостоятельно, то, по Правилам Конкурса, выбор будет сделан автоматически — на проверку уйдут три лучшие решения по скору на публичной турнирной таблице. На приватную турнирную таблицу (итоговый лидерборд) попадает одно из трех решений Задачи с лучшим значением метрики.

С уважением,

Команда AIJ Contest

1

beatty6278@beatty6278

October 31, 2025

  1. А на неофициальный лидерборд еще подавать можно будет?

    2. И мне уже с неактивной кнопкой уже не подать, хотя оно посчиталось.
    Запускал за 8 с лишним часов до окончания принятия решений.
    Все автоматом попадёт?

0

baumbach1148@baumbach1148

October 31, 2025

Как корректно выбрать три сабмита? Прожимаю галочки напротив нужных, но после обновления страницы они пропадают.

0

renner4544@renner4544

October 31, 2025

там в самый низ надо прокрутить страницу, и там будет отправить решение

1

beatty6278@beatty6278

October 31, 2025

моделька посчиталась, и для первого обсчёта всё не так уж и плохо, было бы, но кнопка Submit неактивна.
Вроде в таблицу попало, имя подлиннее и цифры подлиннее на лидерборде светятся.
А у меня это единственный положительный результат из 2х, поданный за 8 с лишним часов до окончания принятия решений.
Жалко, что меньше суток участвовал, мог бы и в призёры попасть и по второй задаче не успел немного подать

0

renner4544@renner4544

October 31, 2025

а приват будет только 14 числа?

2

beatty6278@beatty6278

November 1, 2025

Охренеть, до сих пор считаются кнопки, которые я повторно тыкал, когда думал, что все зависло. одна точно. Знал бы, доработал до топа)))

0

eichmann2945@eichmann2945

November 2, 2025

Уважаемые организаторы,

Подскажите пожалуйста, что означают три запуска от 31.10? Если это запуск из трёх лучших за всю историю, то отобранные сабмиты таковыми не являются.

ЗЫ да, галочки я не ставил, но было обозначено, что «Если Участники Конкурса не выберут три решения самостоятельно, то, по Правилам Конкурса, выбор будет сделан автоматически — на проверку уйдут три лучшие решения по скору на публичной турнирной таблице». Сейчас не так.

0

blanda7513@blanda7513

November 3, 2025

Добрый день. Пожалуйста не беспокойтесь. Для приватного лидерборда будут выбраны сабмиты с лучшим публичным скором, если вы не сделали игого выбора в ручную.

0

haley6830@haley6830

December 2, 2025

Vsem privet!

0