Agent-as-Judge
Оценка генеративных способностей LLM агентов


aij_judge_task_1_train.csv — данные первой подзадачи для обучения модели, состоит из полей
- prompt — запросы в модель, описанные во вкладке Описание
- score — оценка эксперта
run.py - код инференса с vllm
sample_submission.csv - пример файла с результатами по итогам работы модели
Архив с решением должен содержать файл run.py, который будет принимать аргументы --test_path - путь к тестовому csv файлу с полями id и prompt, которым надо присвоить оценку, и --pred_path - путь, по которому надо сохранить файл с ответами.