«ВКонтакте» внедряет новый инструмент, который поможет администраторам бороться с травлей в комментариях сообществ. Фильтр для отсеивания таких комментариев основан на работе нейросети. Его можно будет включить и отключить в настройках сообщества в любое время.
Пока новая функция доступна владельцам примерно 50% пабликов.
В настоящее время алгоритмы соцсети способны определять прямые угрозы в высказываниях, в том числе — пожелания смерти, обещания причинить вред здоровью и угрозы расправой. Новый фильтр сможет распознавать другие признаки нетерпимости — травлю по национальному признаку или религиозной принадлежности.
При этом администраторы смогут видеть все отфильтрованные публикации, чтобы при необходимости восстановить их.
Для обучения нейросети использовали тексты на русском языке, в том числе субтитры из фильмов, сериалов и видео. Механизм внимания нейросети позволяет ей принимать решения на основе важности слов и их комбинаций. Сейчас разработчики занимаются логикой принятия решений, которая должна учитывать контекст. Нейросеть правильно определяет угрозы в 80% случаев.
Проведенное тестирование показало, что владельцы пабликов восстанавливали всего 1% отфильтрованных комментариев. Тесты запустили в ноябре 2020 года. За эти месяцы новую функцию опробовали около 10% всех сообществ «ВКонтакте» или на 13 млн публичных страниц, групп и мероприятий. Впоследствии фильтр отключили 1,8% сообществ.
Ранее Instagram объявил об ужесточении политики в отношении пользователей, которые в переписке допускают высказывания, разжигающие вражду. Такие аккаунты будут удаляться бессрочно. Ранее на платформе также внедрили инструмент на ИИ, который предупреждает пользователя о том, что он собирается опубликовать оскорбительное сообщение.