Исследователи факультета вычислительной математики и кибернетики (ВМК) МГУ разработали подход, позволяющий точнее оценивать качество систем автоматической сортировки электронных писем. Работа посвящена методам более корректной оценки эффективности таких алгоритмов.
В работе исследовались структурные признаки переписки, которые в наибольшей степени влияют на точность рекомендаций по сортировке входящих сообщений.
Сегодня объём корпоративной электронной почты постоянно растёт, и ручная сортировка сообщений становится всё более трудоёмкой. Поэтому используются алгоритмы, автоматически предлагающие папку для входящего письма. Такие системы учитывают содержание сообщения, историю переписки и поведение пользователя — например, куда он ранее перемещал похожие письма.
В работе рассматривается задача выбора наиболее подходящей папки: система формирует список возможных вариантов и располагает их в порядке предполагаемой релевантности. Качество таких рекомендаций оценивается с помощью метрик, которые учитывают не только правильность выбора папки, но и её место в итоговом списке.
Одной из ключевых проблем оказалось то, что письма тесно связаны между собой: они группируются по цепочкам переписки, проектам или отправителям. Поэтому данные нельзя рассматривать как полностью независимые, а стандартные методы оценки качества моделей могут давать завышенные результаты.
Чтобы получить более корректную оценку, исследователи предложили использовать «кластерный бутстрэп» — метод, при котором анализ выполняется не на уровне отдельных писем, а на уровне групп связанных сообщений. Такой подход позволяет учитывать зависимость данных и получать более надёжные оценки качества моделей.
«При анализе почтовых данных важно учитывать, что письма связаны между собой и не являются независимыми. Использование кластерных методов позволяет более точно оценивать качество моделей», — отметила доцент кафедры математической статистики факультета ВМК МГУ Татьяна Захарова.
«Мы стремились проверить, насколько эффективно можно использовать структурные свойства переписки без анализа текста и сложных алгоритмов машинного обучения. Результаты показали, что даже минимальные признаки принадлежности письма к цепочке могут давать сильный классификационный сигнал», — отметил Кирилл Кодряну.
Полученные результаты могут использоваться при разработке корпоративных почтовых систем и сервисов автоматической обработки писем.
Работа была представлена на научной конференции «Ломоносовские чтения» на факультете вычислительной математики и кибернетики МГУ.
| # | Наименование новости | Тональность | Информативность | Дата публикации |
|---|---|---|---|---|
| 1 | На ВМК МГУ исследовали методы классификации зашифрованного мобильного трафика | 0 | 7 | 04-06-2026 |
| 2 | В МГУ предложили метод распознавания 3D–объектов с меньшими затратами памяти | 5 | 7 | 24-06-2026 |
| 3 | В МГУ прошла одна из старейших конференций России по компьютерной лингвистике | 0 | 5 | 26-06-2026 |
| 4 | В МГУ предложили метод ускорения статического анализа программ | 5 | 7 | 08-06-2026 |
| 5 | X. Главное происходит здесь. | 0 | 8 | 27-06-2026 |
| 6 | Этика и академическая честность в эпоху нейросетей: где грань между умным помощником и плагиатом? | 0 | 8 | 01-01-1970 |
| 7 | В МГУ создают цифровую коллекцию утраченных книг библиотеки МОИП | 0 | 7 | 15-06-2026 |
| 8 | SuperJob и Госкорпорация «Роскосмос» впервые представили совместный рейтинг вузов России ... | 2 | 6 | 27-06-2026 |
| 9 | Нейросетевой алгоритм сибирских ученых поможет психиатрам определять депрессию | 5 | 7 | 26-06-2026 |
| 10 | «Форк ИТ» обучил в облаке Cloud.ru ИИ-систему для контроля качества горнодобычи | 0 | 5 | 26-06-2026 |