Agent-as-Judge

Оценка генеративных способностей LLM агентов

champ imagechamp image
МестоНазваниеРешенияRMSERMSE1RMSE2RMSE3
1carter9468362040.933430.908520.950790.93297
2Baseline21.184850.972170.93931.41725
3Denisiuskley21.245091.325340.980931.37148