Human-centered AI Assistant
Автономный AI-агент для рекомендаций


2 месяца назад
Позвольте узнать за какой период берутся тестовые факты?
Например в предоставленном датасет для всех пользователей конечная дата стоит 2025-06-30, я так понимаю тестовые факты берутся для последующих дат. Но можно ли быть поконкретнее?
Это может быть важно, например, для того, чтобы определить - стоит предсказывать, что пользователь купит осеннюю одежду (если период для теста задевает осень) или даже зимнюю одежду.
0
месяц назад
Проверяются факты из будущего пользователей в горизонте 1-4 месяца
1
2 месяца назад
Здравствуйте!
Установленные из pypi пакеты входят в ограничение "5 Гб." ? И время на установку этих пакетов вычитается их выделенных 45 минут?
0
месяц назад
Пакеты входят в ограничение, время установки входит в 45 минут.
0
2 месяца назад
А для чего нужна дополнительная номинация? Для нее будет отдельный лидерборд? Какие-то призы?
0
месяц назад
Дополнительной номинации в этом соревновании нет, только основная номинация
0
месяц назад
Добрый день! Большое спасибо, что увидели на странице данную формулировку. Это баг, который был удален. В этом году дополнительной номинации ни по одной задачи Конкурса нет. Приносим извинения, что ввели в заблуждение 🙏🏻
0
месяц назад
Какие-то языковые модели, помимо GigaChat и FRIDA, разрешено использовать? Например, можно, ли поместить в submission модель Qwen?
0
месяц назад
Разрешены только GigaChat и FRIDA
-3
месяц назад
А какая версия питона будет в Docker-образе, используемом для проверки решений?
Может есть ссылка на этот Docker-образ?
0
месяц назад
Python 3.12
0
месяц назад
Можно ли дообучать FRIDA ?
1
месяц назад
Можно, главное чтобы общее время оценки решения не превышало 45 минут с пересчетом всех эмбеддингов вашей моделью
0
месяц назад
Внутри докера колонки также названы?
А то есть подозрение, что нет
0
месяц назад
Колонки идентичные
0
месяц назад
К GigaChat предполагается дать доступ? Чтобы локально тестировать.
0
месяц назад
Инструкция по получению ключей находится во вкладке "Данные"
1
месяц назад
учитывается ли Mean duration в оценке решения или носит информативный характер?
0
месяц назад
учитывается только при совпадении Recall у команд
0
месяц назад
Как узнать почему падает решение в "Human-centered AI Assistant"?
1
месяц назад
Такой же вопрос...
0
месяц назад
Как будто иногда падает не из-за самого решения, потому что при перезапуске того же проходит
2
месяц назад
Baseline - это команда?
Если не команда, а Baseline, то почему у него несколько запусков?
0
месяц назад
Это техническая команда чтобы запустить базовое решения
0
месяц назад
При тестировании какая модель Гигачат используется? Базовая / Pro / Max ? (пока не вдавался в различия, но лучше знать)
1
месяц назад
В решение передается объект для обращения в апи ГигаЧата, какую модель вы укажете в своём решении, точно такая же модель будет использоваться при проверке сабмита. Вы правы, вам доступны все три модели)
0
месяц назад
В решение передается объект для обращения в апи ГигаЧата
Да, я и имел в виду, какой объект передается во время сабмита. Я же не могу его менять? (а модель там прописана) Или могу?
1
месяц назад
В решение передается объект ГигаЧата, через который вы сами определяете модель, температуру и прочие параметры
1
месяц назад
Добрый вечер! Сейчас все корректно работает? Даже что давало 0.398 теперь дает 0.0008
0
месяц назад
О, тоже сейчас 0.0008 получил. UPD: была ошибка в решении
0
месяц назад
"Mean duration" в таблице - это время в секундах? И чего именно? (почему среднее) Как их сопоставлять с 45 минутами?
2
месяц назад
Это среднее время ответа на один вопрос интервью, с 45 минутами сопоставлять не нужно
0
месяц назад
Можно ссылку на Docker образ?
А то локально все работает, а на проверке падает то на "08. Статус распаковки данных", то на "10. Статус работы симулятора".
Это бы в разы снизило количество вопросов "почему падает решение?".
2
месяц назад
Почему в лидерборде 9 медалей если всего 3 места?
2
месяц назад
Это не призовые места, это что-то типа медалей как на каггле.
1
месяц назад
Если решение работает более 45 минут, оно будет остановлено? Если да (по крайней мере у меня так было), то по какой то причине у меня 2 день подряд завис на одном этапе "10. Статус работы симулятора", происходит бесконечная загрузка. Локально все работает. Можете ли вы скинуть ссылку на Docker образ или хотя бы добавить логи?
В чем может быть причина зависания симулятора (ошибки не выдает, просто крутит)
Базовое решение завершается ошибкой на этапе 10
UPD: добавили пометку, что решение превышает лимит. Вчера все нормально работало в контейнере, сегодня за 2.5 часа дошел до этапа 9 (хотя размер файла около 4кб) и 6 часов крутит этап 9
4
месяц назад
Есть ли способ понять причину почему упал пайплайн после старта симулятора?
0
месяц назад
попробуй локально запустить (пример в baseline.zip)
0
месяц назад
Локально все корректно отрабатывает. Без ошибок
0
месяц назад
Может импортируешь библиотеку, которой нет в requirements. Или другое исключение возникло.
0
месяц назад
Зависла загрузка решения на этапе симулятора и уже почти сутки так висит и не дает ничего другого загрузить, что делать?
2
месяц назад
Та же проблема, две задачи - "Human-centered AI Assistant" и "GigaMemory: global memory for LLM". Висят более суток решения.
1
месяц назад
Уважаемые участники. При обращении по проблеме с запуском сабмита, указывайте, пожалуйста, имя команды и примерное время сабмита. На текущий момент проблем с зависшими сабмитами не выявлено.
0
месяц назад
Каким образом при подсчете метрики проверяется наличие факта ("функция-индикатор, отражающий наличие в ответе ассистента h-того факта для ответа на k-тый вопрос интервью i-того пользователя")? Или эта информация специально не раскрывается?
3
месяц назад
Техническую часть раскрыть не можем
0
месяц назад
"Предполагается, что возможны симуляции, в которых ИИ-ассистент не успеет за ограниченное время пройти все вопросы интервью, в этом случае Recall(ik) непройденных вопросов будет приравнен к 0 (нулю)."
Тогда по какой причине решение именно останавливается без метрики ("превышен лимит времени запуска"), если превышен лимит? Это правило перестало действовать или теперь иная логика его работы?
3
месяц назад
Хорошо бы писать о такой ситуации. А то непонятно, либо решение плохое, либо часть вопросов не успели пройти.
3
месяц назад
Сейчас для однозначности при превышении таймаута не будет посчитана метрика
2
месяц назад
Один и тот же архив падает на разных шагах "08. Статус распаковки данных" и "10. Статус работы симулятора". Пайплайн падает на < 45 минуте. Локально с новым окружением все работает. Можно ли посмотреть ошибку симулятора?
0
месяц назад
Логи симулятора не предоставляются
1
месяц назад
Обязательно ли использовать версию gigachat==0.1.39.post2 или можно использовать другую версию?
1
месяц назад
Это исходные настройки докер образа, если вы подберете версию библиотеки посвежее и оно будет совместимо с остальными зависимостями, то пожалуйста
0
месяц назад
Что изменилось в условиях участия?
0
месяц назад
инструкция по получению дополнительных токенов - необходимо направлять Client ID созданного проекта и ФИО
1
месяц назад
Здравствуйте есть ли возможность получить логи ошибки, выдает ошибку на 08. Статус распаковки данных
Code run? 10. Статус работы симулятора
Code run так же и на 10 падает и не понятно от чего
0
месяц назад
Логи симулятора не предоставляются
0
месяц назад
Уважаемые участники, при падении сабмита на шаге распаковки данных, попробуйте перезапустить пайплайн.
0
месяц назад
Скажите пожалуйста а есть ли ограничение по загрузки zip файлов, а то файлы перестали загружаться?
0
месяц назад
Извините вроде нормализовалось, раз десять попробовал, а сейчас вроде сработало
0
месяц назад
Здравствуйте, можно предоставить больше информации о вычислении самой метрики, описание в тексте соревнования не совсем очевидно.
1) "– количества фактов, требуемых для полного ответа на k-тый вопрос интервью i-того пользователя" подразумевается что при подсчете метрик подается разное количество фактов требуемых для ответа или вообще любых фактов?
2) "– функция-индикатор, отражающий наличие в ответе ассистента h-того факта для ответа на k-тый вопрос интервью i-того пользователя" Имеется ввиду что в ответе на вопрос должна присутствовать информация о фактах на основании которых был сделан ответ? Например на вопрос "Хотели бы вы себе новую игровую приставку?" ответом может быть "Да хотел" или "Да хотел, потому что моя приставка не справляется с новыми играми"(предположим был факт "Игры последних лет тормозят на моей приставке"). Или же вопросы составлены так, что ответить без использования фактов нельзя? например "Куда бы вы посоветовали полететь в отпуск?" Ответ "Я бы посоветовал полететь в Турцию" Основано на факте " Был на отпуске в Турции, все очень понравилось"
0
месяц назад
Каждому пользователю задаются индивидуальные вопросы на основе фактов из сложивщегося будущего, не доступного участникам в обучающем датасете. Соответственно количество фактов варьируется от вопроса к вопросу. Например, может быть вопрос "Как ты проведешь выходные?", ответ на который подразумевает что правильный ответ будет "Я пойду в кино и на мастеркласс по приготовлению кухни", то есть в этом случае в ответе количество ground_truth фактов 2. И для каждого вопроса количество фактов разное, в среднем от 2 до 6.
Вопросы сформулированы так, что ответы требуют конкретики о действиях пользователя. То есть для вопроса про выходные ответ "Я буду наслаждаться искусством" получит скор 0, так как в ответе отсутствует конретика и конкретные действия.
1
месяц назад
Здравствуйте почему то зависла на 02. Статус очистки дискового пространства
Code run уже час так висит
0
месяц назад
Попробуйте перезапустить своё решение, в случае неудачи напишите письмо в поддержку, указав название команды и примерное время загрузки решения
0
месяц назад
Команда Кротовуха, время запуска 10.41 по мск, решение до сих пор на 10том шаге уже 3тий час
0
25 дней назад
Чтобы передать письмо в поддержку надо нажать на кнопку "Поддержка" в сайдбаре слева внизу экрана.
0
месяц назад
Также нет возможности отправить новые сабмиты, хотя есть ещё 3 свободных
0
месяц назад
Здравствуйте, не могу выбрать другое решение, при клике на кнопку удаления текущего решение происходит перегрузка страницы но решение не удаляется, кнопка удаления так же активна и повторное нажатие повторяет поведение
0
25 дней назад
В Chrome нормально работает, в других браузерах по факту глючит :((
0
23 дня назад
Как узнать причину падения решения 28.09.2025 00:09
логов нет
0
22 дня назад
Напишите письмо в поддержку, указав название команды и примерное время загрузки решения
0
21 день назад
Зависло 18. Статус очистки дискового пространства
Code run 30.09.2025 11:43
submission-67-6-70.zip
0
20 дней назад
Пожалуйста, напишите письмо в поддержку, указав название команды и переписав свой комментарий
0
20 дней назад
а можно использовать либу rakbm25==0.2.2
? Почему-то при добавлении сразу падает на 10 шаге, как будто на этапе установки requirements
1
20 дней назад
Если у вас так же записана библиотека в зависимостях, то скорее всего у вас описка, правильно будет указать `rank-bm25==0.2.2`
, попробуйте локально установить дополнительные библиотеки через pip install -r requirements
и загрузить своё решение снова
-1
20 дней назад
Не, тут просто буква потерялась, в requirements все ок, локально все ставится и работает
0
19 дней назад
У меня тоже не завелась библиотека через requirements. Интересно, у кого-то нормально получилось библиотеку добавить?
1
19 дней назад
Провел эксперимент - файл `requirements.txt`со следующим содержимым:
python-dotenv==1.1.1
polars==1.31.0
sentence-transformers==4.1.0
gigachat==0.1.39.post2
numpy==2.3.1
scikit-learn==1.7.0
rank-bm25==0.2.2
Решение загружается, метрика считается.
Проверяйте правильность написания файла с зависимостями, корректность названия библиотек, корректность импортов. Пробуйте перезагружать решение
-2
20 дней назад
Добрый день, подскажите, пожалуйста, причину падения решения (команда OPIA)
b6d59fa28f660479b41e5adf58c870f8155cf661.zip
01.10.2025 01:01
В поддержку написали в начале рабочего дня - ответа нет
0
19 дней назад
Еще раз вопрос относительно метрики. Очень странно ведёт себя. В моем понимании наличие факта в строке не должно изменяться при добавлении другой строки. То есть, по логике, recall при добавлении (append) другой строки не должен падать. Но это не так! Например, можно проверить, просто продублировав ответ, score сильно падает. Я вижу 2 варианта: 1) Неправильная реализация подсчета метрики; 2) Хитрая проверка наличия факта (зависит от длины строки, например). Если верен пункт 2, прошу явно подтвердить (если можно, с обоснованием).
0
19 дней назад
Хитрая проверка присутствует, ответ должен быть осмысленным, соответствовать вопросу и не содержать, например, всех вариантов событий чтобы взломать метрику.
2
18 дней назад
То есть, получается метрика соревнования не Recall? И представленная на вкладке "Обзор" формула не соответствует действительности?
1
19 дней назад
Подскажите почему упал сабмит, засылал бейзлайн
команда beier7299 сабмит по времени 01.10.2025 19:06
0
19 дней назад
Перепишите, пожалуйста, в поддержку это сообщние
0
18 дней назад
Подскажите причину падения сабмита (команда OPIA):
03.10.2025 00:34
e4299c582700e45e8439f2744f6a03317f447007.zip
Поддержка отправляет к вам:
При возникновении новых вопросов обращайтесь, пожалуйста, к держателю задачи через комментарии: https://dsworks.ru/champ/aij25-recsys/comments.
1
14 дней назад
По причинам падения может ответить только поддержка, по вопросам идейного характера вы можете найти ответы тут
0
17 дней назад
Попробовал добавть просто в requirements.txt
rank-bm25==0.2.2 прямо в baseline решение.
Решение падает сразу на 10 шаге.
Состав:
python-dotenv==1.1.1
polars==1.31.0
sentence-transformers==4.1.0
gigachat==0.1.39.post2
numpy==2.3.1
scikit-learn==1.7.0
rank-bm25==0.2.2
Просьба прояснить все же ситуацию. Я так понимаю уже не один такой.
4
14 дней назад
Попробуйте перезапустить. Точно такие же зависимости запускаются и пайплайн доходит до конца
-5
16 дней назад
Можно ли использовать ML модели по типу catboost, lightGBM, какие-то другие модели с huggingface?. Можно ли подключать другие зависимости по типу langchain, langgraph
?
2
14 дней назад
Можно
0
16 дней назад
Также подскажите интервью проводится в какой момент времени с какой даты по какую, условно если интервью было позднее чем задан факт, то от этого факта фактически нет смысла, и в какой момент происходить само интервью последняя дата 2025-06-30, нужно предсказывать от этой даты на ближайшие 1-4 месяца пользователя или от какой даты ?
1
14 дней назад
по времени интервью проводится после последнего факта в датасете и вопросы касаются будущего пользователя.
0
15 дней назад
Завис сабмишн submission11_31 на 10 шаге.
0
14 дней назад
Пожалуйста, напиши письмо в поддержку с указанием названия команды и примерным временем запуска пайплайна
0
15 дней назад
В какой момент времени происходит интервью ?
1
14 дней назад
После последнего доступного факта в датасете, вопросы касаются будущего пользователя
0
15 дней назад
У тебя где-то через час крашнет его скорее всего ошибка в requirements.txt какая-т
0
14 дней назад
Я когда добавляю зависимости по типу langchain сразу падает на 10 тесте
2
14 дней назад
Локально у вас отрабатывает сабмит? Наличие новой зависимости не приводит к падению решения, скорее всего имеет место быть ошиб
-2
14 дней назад
Еще подскажите пожалуйста, допустим данные за 2024 год и его актуальность 3 месяца, значит ли это что на интервью это уже неактуально будет и не стоит это упоминать ?
0
14 дней назад
Не значит, даже старые факты влияют на мотивацию клиента
0
14 дней назад
И еще подскажите как проходит само интервью:
Для каждого пользователя заново запускается solution.py с 50 вопросами ?
Или для всех сразу запускается solution.py ?
Или же запускается весь submission для каждого user_id ?
Или же один раз запускается submission ?
1
14 дней назад
Один раз импортируется класс и объект ассистента, дальше этот объект отвечает на все вопросы всех пользователей
0
14 дней назад
Подскажите в чем причина падения сабмита от 07.10.2025 17:24. Я добавил библиотеку hnswlib==0.7.0 в зависимости и пайплайн начал падать. Локально все работает. В тех поде сказали написать сюда
0
13 дней назад
hnswlib как и faiss довольно вредные библиотеки (сложно их установить). Возможно не получается установить hnswlib только через pip install, не хватает в образе линуксовых утилит для билда.
В целом hnswlib позволит вам ускорить поиск, но не сделать его точнее. Вместо 100 мс вы будете подбирать релевантных кандидатов за 50 мс, например. Если при перезапуске пайплайна не устанавливается библиотека, может и не нужно её использовать, это не приведет к улучшению метрики соревнования.
0
13 дней назад
Добрый вечер, duration отвечает за актуально факта вперед на 3 месяца или назад или как ?
Если написано что у какого-то факта duration 3 , что это значит ?
0
10 дней назад
duration обозначает время актуальности - воздействия на клиента от момента совершения факта
0
13 дней назад
Добрый день. Сабмиты бесконечно зависают на 10 шаге и не падают по тайм-ауту. Команда prochii_team.
Через поддержку, кроме ручного стопа сабмита, как я понимаю, больше ничего сделать не могут, и на вопрос почему сабмит не падает по тайм-ауту просто молчат.
5
13 дней назад
Добрый день, подскажите, пожалуйста, как получить персональный ключ?
при регистрации в https://giga.chat/ токены не появляются в лк
0
10 дней назад
Во вкладке "данные" соревнования скачайте инструкцию "Получение ключей GigaChat" и отправьте письмо для получения дополнительных токенов
0
11 дней назад
крутиться на запуске симулятора уже пол часа можно как-то сбросить 10.10.2025 13:35
Iliveback2.zip команда Владимир Калюта
1
11 дней назад
опять та же проблема 10.10.2025 15:12
klromvell.zip
0
10 дней назад
По вопросам, касающимся непосредственно проверки решения симулятором, пишите письмо в поддержку с указанием названия команды и примерного времени запуска
0
10 дней назад
За эту неделю так и не выдали обещанные токены. :( Что делать, куда жаловаться?
0
10 дней назад
Согласно инструкции пишите письмо на указанную почту, указав ClientId своего проекта
0
8 дней назад
Да писал уже несколько раз :(
0
7 дней назад
python-dotenv==1.1.1
polars==1.31.0
sentence-transformers==4.1.0
gigachat==0.1.39.post2
numpy==2.3.1
scikit-learn==1.7.0
rank-bm25==0.2.2
как только добавил bm25 начал падать на 10 тесте, локально все работает, подскажите пж в чем может быть причина?
1
7 дней назад
Попробуйте перезапустить пайплайн, ошибка не воспроизводится - при добавлении библиотеки пайплайн отрабатывает.
Частая ошибка - неправильный импорт библиотеки в коде, проверьте на всякий случай
-2
6 дней назад
Пройденый этап, кроме ответа: все работает, это вы что то не так делаете, ничего внятного не получите.
Я пробовал просто добавить в baseline эту либу, сразу падает на 10 шаге.
Но вместо того чтобы разобраться, тут будут писать, что сами виноваты.
4
7 дней назад
Здравствуйте как такое может быть одно и тоже решение дает разную метрику ?
0
7 дней назад
Использование LLM через API не позволяет получить детерминированную генерацию, поэтому метрика меняется от запуска к запуску.
0
6 дней назад
Добрый день!
Команда Denisiuskley
Сабмит от 14.10 12:18 до сих пор идет расчет
0
6 дней назад
Пожалуйста, перешлите это сообщение в поддержку
0
6 дней назад
Почему gigachat стал отвечать так на любой вопрос? На все старые решения и baseline получаю одинаковые ответы.
"К сожалению, иногда генеративные языковые модели могут создавать некорректные ответы, основанные на открытых источниках. Во избежание неправильного толкования, ответы на вопросы, связанные с чувствительными темами, временно ограничены. Благодарим за понимание."
0
6 дней назад
Проверьте что передаёте в промпт - модели гигачата не менялись, ваша ошибка не воспроизводит
0
6 дней назад
Можно ли оптимизировать (кхм) промпт, чтобы модель-судья зачла твой ответ за правильный.
Например, в третьей задаче явно прописано: "Не стоит пытаться в своих ответах “обмануть” судью. Попытки prompt injection, хитрых формулировок и т.д. отслеживаются, и при попадании подобного сабмита в топ лидерборда он будет исключён."
В этой же задаче такого условия нет. Правильно понимаю, что разрешено всё, что не запрещено?
0
6 дней назад
Не верно, в этой задаче решения с читингом тоже будут исключены
0
4 дня назад
Не менялись ли 14 октября версии Gigachat или LLM-as-judge? У меня некоторые решения сильно упали, на 0.03 с этой даты. (проверял несколько раз, и раньше разброс по метрике был меньше)
2
4 дня назад
Да, тоже вроде бы упали результаты на 0.05 начиная с 14 октября.
2
4 дня назад
у меня то же самое решение просело на 0.07
2
3 дня назад
Поддерживаю, уменьшилось на 0.05
1
17 часов назад
У меня вообще перестали работать решения которые в пятницу еще нормально проходили. Все стало ломаться на 10 шаге
0
6 часов назад
Модели не менялись
0
4 дня назад
Всем пользователям задаются одинаковые вопросы? или каждому свой список вопросов?
0
6 часов назад
Каждому пользователю задаются индивидуальные вопросы
0
день назад
Mean duration - 18.5
Это как - без LLM ответ) ?
3
8 часов назад
Где такой можно наблюдать?
0
7 часов назад
Сейчас немного больше - верхние строки лидерборда посмотрите.
0
6 часов назад
А, увидел. прикол. =) Я набирал ~0.37 без LLM. При этом duration=17 был.
0
21 час назад
Добрый день, всё таки, кто-то разобрался как ставить библиотеки в этом контесте?
Через requirements.txt не заводится (несмотря на рекоммендации организаторов перезапустить пайп и т.д.). Пробовал ставить из кода - тоже не работает, хотя в другом контесте всё норм
1