Agent-as-Judge
Оценка генеративных способностей LLM агентов
Оценка генеративных способностей LLM агентов
| Место | Команда | Решения | RMSE | RMSE1 | RMSE2 | RMSE3 |
|---|---|---|---|---|---|---|
| 1 | ammarali32 (MWS AI Research) | 109 | 0.6846 | 0.51617 | 0.78929 | 0.68916 |
| 2 | Aleksandr Gaptrakhmanov | 207 | 0.70656 | 0.61284 | 0.79 | 0.69399 |
| 3 | Михаил Голубчик | 121 | 0.7143 | 0.53143 | 0.75166 | 0.76504 |
| 4 | ALT+ | 126 | 0.73257 | 0.54234 | 0.77359 | 0.78404 |
| 5 | misis ahh moment | 12 | 0.81943 | 0.59237 | 0.86947 | 0.88023 |
| 6 | Михаил Суховей | 28 | 0.85075 | 0.70074 | 0.89645 | 0.88334 |
| 7 | Владимир Калюта | 105 | 0.85399 | 0.94153 | 0.81137 | 0.84454 |
| 8 | walker58109572 | 19 | 0.85782 | 0.94038 | 0.83717 | 0.83719 |
| 9 | Alexander Dudin | 93 | 0.87851 | 0.88122 | 0.79557 | 0.9272 |
| 10 | eichmann29452197 | 21 | 0.88598 | 0.78511 | 0.98093 | 0.86936 |