Agent-as-Judge
Оценка генеративных способностей LLM агентов


Оценка генеративных способностей LLM агентов
2 месяца назад
Здравствуйте, сейчас я просматриваю датасет, и у меня появились вопросы по его разметке:
Пример 1
```
### Задание для оценки: Сложите два числа: 6328 + 7522 =
### Эталонный ответ:
13850
### Ответ для оценки:
6328 + 7522 = 13840
### Критерий оценки:
Правильность ответа и формата
### Шкала оценивания по критерию:
0: Ответ содержит ошибки и не выполнены требования из инструкции.
1: Формат ответа совпадает с требуемым в инструкции, но ответ содержит ошибки.
2: Ответ правильный, но не выполнены требования из инструкции.
3: Ответ правильный и соответствует требованиям формата.
```
Оценка эксперта (судя по датасету): 1, но здесь должно ведь быть 0, так как формат неправильный.
Пример 2
```
### Задание для оценки:
Реши математическую задачу на сложение чисел. Выведи ответ в формате "number", где number - число, которое является результатом сложения.
Ответ:
### Эталонный ответ:
56463
### Ответ для оценки:
55663
### Критерий оценки:
Правильность ответа и формата
### Шкала оценивания по критерию:
0: Ответ содержит ошибки и не выполнены требования из инструкции.
1: Формат ответа совпадает с требуемым в инструкции, но ответ содержит ошибки.
2: Ответ правильный, но не выполнены требования из инструкции.
3: Ответ правильный и соответствует требованиям формата.
```
Здесь вообще не описана задача
Пример 3
```
### Задание для оценки:
Реши математическую задачу на сложение чисел. Выведи ответ в формате "number", где number - число, которое является результатом сложения. Ответ:
### Эталонный ответ:
984
### Ответ для оценки:
984<end_of_turn>
### Критерий оценки:
Правильность ответа и формата
### Шкала оценивания по критерию:
0: Ответ содержит ошибки и не выполнены требования из инструкции.
1: Формат ответа совпадает с требуемым в инструкции, но ответ содержит ошибки.
2: Ответ правильный, но не выполнены требования из инструкции.
3: Ответ правильный и соответствует требованиям формата.
```
Оценка эксперта: 3, здесь нет описания задачи и формат ошибочен.
Пожалуйста, проверьте датасет!
0
2 месяца назад
В примерах 1 и 3 формат задан не так строго:
Написано вывести число, но не сказано, можно ли писать что-то еще
По поводу наличия задания: оно необязательно, потому что не помогает сравнить правильный ответ с сгенерированным, поэтому убирали другие модальности из примеров (например, картинки)
Примеры размечались с большим перекрытием, а примеры для теста дополнительно валидировались экспертами
0
2 месяца назад
@crist8332, но ведь в примере 3 там ясно написано: "Введи ответ в формате "number"", а испытуемый выдаёт ответ: "
984<end_of_turn>" - что не должно соответствовать формату (по логике). Просто если считать, что наличие <end_of_turn> допустимо для формата, может тогда и допустимы ответы:
- "1984" - просто 1 лишняя
- "0,1,2,3,4,5...,983,984,985" - ответ 984 есть - то получается это должно считать за правильный ответ
Но такая логика не должна работать. Ответ должен быть лишь "984" ("984 ") - а в задании это не так. К тому же в датасет есть примеры, которые нарушают данную логику.
0
месяц назад
Формулировка
Введи ответ в формате "number"
Подразумевает только отдельное число (исключаем 1984 - потому что отдельное число), но не запрещает дополнения к ответу
В train выборке есть более неоднозначные примеры, но все примеры разметили одинаково много разметчиков. Здесь предлагаю руководствоваться фактом, что, как часто на практике, test много раз проверен и train - попытка приблизиться к тесту по качеству
0
2 месяца назад
Добавьте, пожалуйста, пример submission.zip (как архива), чтобы он запускался.
0
2 месяца назад
Добрый день! Полностью запускаемый сабмит лежит в baseline.zip
0
2 месяца назад
@crist8332, я отправил данный файл на проверку системе - получил ошибку на стадии:
16. Статус работы кода инференса (полный сет)
Code run
0
месяц назад
Видимо коллеги не загрузили актуальную версию
Надо добавить в run.py проверку на ошибки, например, так
results = [int(a[0]) if a[0].isdigit() else 0 for a in answers]
0
2 месяца назад
Здравствуйте!
А будут ли в ходе соревнования предоставлены данные (пример для обучения) по 2 и 3 подзадачам?
0
месяц назад
Сложность этих подзадач в том, что данных для обучения не выкладываем, предлагаем самостоятельно собрать данные, для 3 подзадачи можно посмотреть проект POLLUX
-1
2 месяца назад
Доступен ли в этой задаче GigaChat API?
0
месяц назад
Интернет в этой задаче не доступен, в частности нет доступа к GigaChat API
1
2 месяца назад
Вопросы по ограничениям.
> Размер файла с сабмитом не должен превышать 5GB.
Тут имеется в виду размер архива или размер распакованных данных?
> размер всех файлов решения во время работы и библиотек образа не должен превышать 10GB
Эти 10GB включают в себя 5Gb, которые описаны выше?
0
месяц назад
Размер архива - 5GB
до 10GB - размер рабочего пространства после разархивации решения, к файлам решения туда добавляются установленные библиотеки
То есть из 10GB уже будут заняты 5+GB от распакованного архива
0
2 месяца назад
Тестовый прогон идет только на данных для публичного лидерборда, а для приватного будет отдельно после завершения соревнования?
0
месяц назад
Тестовый прогон идет только на данных публичного сета, после окончания конкурса выбранные решения будут проверены на приватном датасете и опубликованы их результаты приватного лидерборда
1
месяц назад
При загрузке решения в пайплайн внизу (История запусков) иногда пропадает ячейка выбора, вчера при отправке ее вообще не было, хотя я отправлял несколько, сейчас появилась и снова пропала будто я не закидывал ничего
0
месяц назад
Передали в тех поддержку платформы
1
месяц назад
Появилась проблема с "Новым запуском". Невозможно загрузить решение. Кнопки для загрузки куда-то пропали.
0
месяц назад
Добрый день. Уточните пожалуйста, в каком браузере наблюдается данная проблема? Название и версия.
0
месяц назад
И уточните пожалуйста, воспроизводится ли проблема в последней версии Хрома.
0
месяц назад
Firefox 142.0.1
Сейчас проверил, заработало как раньше, кнопка "Выберите файл" стала появляться.
0
месяц назад
Крайне рекомендуем использовать для работы с платформой google chrome последней доступной версии.
1
месяц назад
Можно ли уточнить сколько семплов в тестовой выборке чтобы рассчитать инференс под условие работы 1 часа?
0
месяц назад
Боюсь, что эта информация не поможет, потому что большой разброс количества токенов. Можно отправить необученную модель для замера времени
0
месяц назад
зависла задача, несколько часов крутится распаковка
5
месяц назад
Тоже самое
0
месяц назад
С утра на платформе проблемы с интернетом. Я связался со службой поддержки, но пока не получил ответа.
0
месяц назад
Уважаемые участники. При обращении по проблеме с запуском сабмиста, указывайте, пожалуйста, имя команды и примерное время сабмита.
0
месяц назад
Здравствуйте! А можно ли попросить увидеть пример function calling промпта (пример с overview страницы) на русском языке
0
месяц назад
Здравствуйте! Уже более двух часов крутится шаг 2 статус очистки дискового пространства(( Будто бы что-то подвисло...
2
месяц назад
уже более 10 часов тоже лежит, команда Aleksandr Gaptrakhmanov, время сабмита около 20:00, если есть возможность, положите решение, а то новые тоже не отправляются.
1
месяц назад
продолжает бесконечно крутиться...(
1
месяц назад
О и в этом конкурсе все легло. Привет от создателей памяти для ИИ)
1
месяц назад
такаяже проблема
1
месяц назад
Уважаемые участники, на настоящий момент, ранее наблюдаемый аппаратный сбой был устранен. Задача полностью функциональна.
1
месяц назад
А можно какую то шкалу выполнения когда основной дата-сет проверяется, а то непонятно выдержит ли тайм-аут решение или нет, становится понятно только когда час проходит((((
0
21 день назад
Добрый день. Такого функционала пока не планируется.
0
месяц назад
Добрый день, новая ошибка с ранерами
ℹ️ NODES INFO
Nodes: hpcsrv-048.k2
2025-09-22T05:38:52Z Job lm-mpi-job-784af365-d21a-4265-879f-265eb9e81260 (binary) is starting...
2025-09-22T05:38:52Z cat: /home/jovyan/.ssh/ai0001071-04586.pub: No such file or directory
2025-09-22T05:38:52Z 🕒 Waiting for workers to be ready... 🕒
2025-09-22T05:39:07Z Connecting to mpimaster-0 ..... Ready ✓
2025-09-22T05:39:07Z 🚀 All workers are READY 🚀
🤖 CLOUD.RU PLATFORM LOGS 🤖
ℹ️ JOB INFO
lm-mpi-job-784af365-d21a-4265-879f-265eb9e81260
Status: Failed
3
21 день назад
Уточните команду и дату/время запуска.
0
месяц назад
А когда можно ожидать решения проблемы, описанной выше?
Когда в логах нет записи об ошибке, а статус Failed?
4
месяц назад
Крутиться с вчерашнего дня 16. Статус работы кода инференса (полный сет)
1
месяц назад
Добрый день!
Присоединяюсь. Сегодня всё останавливается на шаге 16 с "превышено время запуска инстанса".
Из за чего может возникнуть?
Видел перед этим шаг с проверкой на части данных => делаю вывод, что запускается.
0
21 день назад
"Сегодня всё останавливается на шаге 16 с "превышено время запуска инстанса".
Из за чего может возникнуть?"
Такое поведение происходит из-за исчерпания времени на запуск сабмита.
0
25 дней назад
Здравствуйте 18. Статус расчета метрики
Code run падает и нет логов пробовал разные решения все так же команда Владимир Калюта
2
24 дня назад
Проблема с метриками не куда не ушла
0
21 день назад
Падение в статусе рассчета метрики происходит из-за проблем с вашим сабмитом.
0
20 дней назад
Добрый день! Пропустил информацию про вебинар по задаче. Запись где то можно посмотреть?
1
15 дней назад
Запись в процессе публикации
1
20 дней назад
А можно ли как-то скачать свое старое решение, которое давно было отправлено? Вижу, что его можно заново отправить на проверку, значит оно где-то сохранено?
0
15 дней назад
Такой функционал не предусмотрен
0
18 дней назад
How to submit the solution? When i tried to upload the baseline.zip it is uploading very slow, showing 7 hours to just upload. Can anyone please guide me.
1
15 дней назад
check your internet connection and try again please
0
13 дней назад
Добрый день, всё таки подскажите размер приватной выборки в сравнении с публичной?
Может быть есть результаты за сколько бейзлайн выполняется на приватной части?
0
8 дней назад
Два вопроса:
1. Где можно посмотреть запись вебинара?
2. Можно ли по сабмиту, который не вошел в лидерборд узнать оценки не финальной rmse общей, а по каждой из 3х задач?
0
7 дней назад
там если навести на стадии, на звездочках можно увидеть скор за 2 и 3 задачу, а за первую соответственно вычесть из об
1
7 дней назад
@renner4544
спасибо!
0
7 дней назад
остался вопрос организаторам про записи вебинаров
2
3 дня назад
Если изучить примеры, то видно, что для первой задачи возможные значения оценок - {0,1,2,3}. Для второй - {0,1,2}. Для третьей - {-1,0,1,2}. Для первой задачи у нас есть возможность свериться с обучающей выборкой и понять, что там, аналогично примеру, всюду дается набор {0,1,2,3}. Однако для второй и третьей задач у нас нет возможности провалидировать диапазоны оценок. Верно ли понимаю, что в промптах для этих двух задач не будет отклонений от примеров из раздела "Обзор"? То есть для второй задачи у нас всегда только {0,1,2}, а для третьей только {-1,0,1,2}. Или же может оказаться, например {0,1,2,3} для второй и {-1,0,1} для третьей в каких-то случах?
0
17 часов назад
Не даем гарантий на шкалу в третьей задаче, она может быть любой, но всегда есть -1, подробнее обсудили в вебинаре
Для первой и второй задачи шкалы всегда как в примерах
1
19 часов назад
Добрый день, команда SoloTech загружал ваш baseline.zip, скаченный сегодня и получил ошибку. Подскажите, как исправить?
ℹ️ NODES INFO
Nodes: hpcsrv-048.k2
2025-10-20T10:37:43.855057341+03:00 Job lm-mpi-job-38ad264c-83d8-4477-8aeb-7c6e7b8813c0 (binary) is starting...
2025-10-20T10:37:43.900097632+03:00 cat: /home/jovyan/.ssh/ai0001071-05180.pub: No such file or directory
2025-10-20T10:37:43.928535981+03:00 🕒 Waiting for workers to be ready... 🕒
2025-10-20T10:37:58.946455951+03:00 Connecting to mpimaster-0 ..... Ready ✓
2025-10-20T10:37:58.946515224+03:00 🚀 All workers are READY 🚀
2025-10-20T10:37:59.275492119+03:00 [1,0]<stderr>:python: can't open file '/home/jovyan/a9a6ec39-a7fa-456b-a959-065326b01da6/run.py': [Errno 2] No such file or directory
2025-10-20T10:37:59.299474510+03:00 --------------------------------------------------------------------------
2025-10-20T10:37:59.299487395+03:00 Primary job terminated normally, but 1 process returned
2025-10-20T10:37:59.299496201+03:00 a non-zero exit code. Per user-direction, the job has been aborted.
2025-10-20T10:37:59.299504237+03:00 --------------------------------------------------------------------------
2025-10-20T10:38:01.300866809+03:00 --------------------------------------------------------------------------
2025-10-20T10:38:01.300890414+03:00 mpirun detected that one or more processes exited with non-zero status, thus causing
2025-10-20T10:38:01.300898900+03:00 the job to be terminated. The first process to do so was:
2025-10-20T10:38:01.300906324+03:00
2025-10-20T10:38:01.300914189+03:00 Process name: [[13941,1],0]
2025-10-20T10:38:01.300922205+03:00 Exit code: 2
2025-10-20T10:38:01.300930019+03:00 --------------------------------------------------------------------------
🤖 CLOUD.RU PLATFORM LOGS 🤖
ℹ️ JOB INFO
lm-mpi-job-38ad264c-83d8-4477-8aeb-7c6e7b8813c0
Status: Failed
0
17 часов назад
похоже в сабмите потерялся файл run.py
1
16 часов назад
перезапустил в браузере хром до этого был сафари с тем же самым сабмитом - сработало!
0