Agent-as-Judge
Оценка генеративных способностей LLM агентов
Оценка генеративных способностей LLM агентов
| Место | Команда | Решения | RMSE | RMSE1 | RMSE2 | RMSE3 |
|---|---|---|---|---|---|---|
| 1 | ammarali32 (MWS AI Research) | 1 | 0.75904 | 0.39615 | 0.79008 | 0.88558 |
| 2 | Михаил Голубчик | 1 | 0.78056 | 0.43913 | 0.75258 | 0.93392 |
| 3 | ALT+ | 1 | 0.80176 | 0.45445 | 0.77643 | 0.95589 |
| 4 | Aleksandr Gaptrakhmanov | 1 | 0.81205 | 0.54311 | 0.79437 | 0.93024 |
| 5 | Михаил Суховей | 1 | 0.88376 | 0.51318 | 0.89702 | 1.02404 |
| 6 | OPIA | 1 | 0.90449 | 0.80218 | 0.815 | 0.9991 |
| 7 | walker58109572 | 1 | 0.90782 | 0.73742 | 0.83756 | 1.01813 |
| 8 | misis ahh moment | 1 | 0.93101 | 0.41064 | 0.89319 | 1.16184 |
| 9 | Горячий Grok | 1 | 0.93147 | 0.62579 | 0.98098 | 1.02404 |
| 10 | Владимир Калюта | 1 | 0.93663 | 0.82275 | 0.81167 | 1.05717 |