Agent-as-Judge

Оценка генеративных способностей LLM агентов

champ imagechamp image

aij_judge_task_1_train.csv — данные первой подзадачи для обучения модели, состоит из полей

  • prompt — запросы в модель, описанные во вкладке Описание
  • score — оценка эксперта

run.py - код инференса с vllm

sample_submission.csv - пример файла с результатами по итогам работы модели

Архив с решением должен содержать файл run.py, который будет принимать аргументы --test_path - путь к тестовому csv файлу с полями id и prompt, которым надо присвоить оценку, и --pred_path - путь, по которому надо сохранить файл с ответами.