Фильтрация электронной почты

Фильтрация электронной почты — это процесс обработки электронных писем для их организации на основе заданных критериев. Чаще всего речь идёт об автоматической обработке входящих сообщений, однако этот термин также охватывает ручные действия пользователя совместно с антивспамовыми методами, а также обработку исходящих сообщений электронной почты.

Входящими данными для программного обеспечения фильтрации писем служит электронное письмо. Программа может оставить письмо без изменений и доставить его в почтовый ящик пользователя, перенаправить его в другое место или даже удалить. Некоторые фильтры способны изменять письмо во время обработки.

История фильтрации

Первые этапы: ручная фильтрация

В начале развития электронной почты фильтрация сообщений была в основном ручным процессом. Пользователи создавали папки и самостоятельно перемещали письма, ориентируясь на отправителя, тему или содержание письма. Первые почтовые клиенты, такие как Eudora и Lotus Notes, предоставляли только базовые возможности для организации переписки и не поддерживали автоматическое распределение сообщений[1][2].

Автоматизация и алгоритмы

С быстрым ростом объёма электронной почты и развитием интернета возникла потребность в более эффективных инструментах для организации и фильтрации писем. В 1990-х годах появились первые системы фильтрации, основанные на простых правилах, таких как блокировка писем от определённых отправителей или выявление ключевых слов. Эти правила позволяли производить базовую автоматическую сортировку писем и отсеивание спама, но ограничивались своей статической природой[3].

Применение методов машинного обучения

В 1998 году произошёл прорыв в фильтрации спама благодаря введению байесовской модели, предложенной Сахами и его командой[4]. Эта модель использовала вероятностный анализ содержимого писем и показала высокую эффективность при автоматической сортировке корреспонденции. Успех данной методики стимулировал дальнейшие исследования и развитие более совершенных алгоритмов и технологий для совершенствования классификации электронной почты[3].

В последующие годы появились более продвинутые алгоритмы, такие как метод опорных векторов (SVM)[5] и нейронные сети, что позволило повысить точность классификации писем. Эти технологии легли в основу современных почтовых клиентов и сервисов, которые теперь используют продвинутые методы машинного обучения для автоматической сортировки писем, а также для обнаружения спама и фишинговых сообщений[3][6].

Цели фильтрации электронной почты

Обычное применение фильтров — организация входящей корреспонденции и устранение спама и компьютерных вирусов. Иногда фильтрация используется для контроля исходящих сообщений в компаниях с целью проверки соблюдения сотрудниками корпоративных политик. Также пользователи могут настраивать фильтры для выделения важных сообщений и их сортировки по папкам на основе темы или иных критериев.

Ниже приведены основные преимущества и недостатки фильтрации электронной почты, которые могут положительно или отрицательно влиять на процесс её использования:

Экономия времени и улучшение организации
Фильтрация писем способствует эффективной организации входящей почты и экономит время пользователя. Фильтры и метки обеспечивают мгновенный доступ к важным сообщениям, избавляя от необходимости их ручного поиска[7][8].
Снижение риска потери важных сообщений
Фильтрация помогает предотвращать пропуск действительно важных писем, которые благодаря правилам попадают в основные, а не в малозначимые разделы[7][8].
Возможность ошибочной классификации
Существует риск, что существенное сообщение может ошибочно оказаться среди спама или в другой папке, из-за чего оно будет пропущено[7][8].
Сложности в управлении правилами и моделями
Настройка и поддержка фильтров может быть затруднительной, особенно если фильтров много и они сложны по логике. Кроме того, методы машинного обучения требуют больших массивов обучающих данных и регулярного обновления[7][8].

Методы и почтовые клиенты

Фильтры электронной почты могут быть установлены пользователем в виде отдельных программ или входить в состав почтового клиента. В почтовых клиентах пользователи могут создавать собственные фильтры, которые автоматически сортируют письма по заданным критериям. Большинство клиентов имеют встроенные средства для автоматической фильтрации спама. Провайдеры интернет-услуг также часто используют серверные фильтры в системах передачи сообщений для дополнительной защиты своих пользователей. Из-за роста числа мошеннических онлайн-сетей многие провайдеры анализируют URL-ссылки в письмах, чтобы блокировать опасные адреса до того, как по ним перейдёт пользователь. Организации используют фильтры для защиты сотрудников и корпоративных информационных систем.

Среди наиболее известных почтовых клиентов и сервисов, предлагающих автоматическую сортировку писем, можно выделить:

  • Microsoft Outlook — позволяет создавать правила для автоматического перемещения писем в определённые папки на основе отправителя, темы или ключевых слов.[9].
  • Gmail — предлагает фильтры и метки для упорядочивания писем, включая автоматическую сортировку по категориям: "Основные", "Социальные сети", "Промоакции"[10][11].
  • Yahoo Mail — поддерживает создание фильтров для автоматического перемещения писем в нужные папки по заданным правилам[12][13].
  • Apple Mail — поддерживает создание правил для автоматической обработки и сортировки входящей почты в папки или её маркировки с помощью меток[14].
  • Email.cz — позволяет создавать фильтры для сортировки сообщений по папкам по заранее заданным условиям[15].

Входящая и исходящая фильтрация

Почтовые фильтры могут обрабатывать как входящий, так и исходящий трафик электронной почты. Фильтрация входящих писем включает проверку сообщений, поступающих из интернета адресатам внутри защищаемой организации, а также их архивирование для анализа и ведения журналов. Фильтрация исходящей почты, наоборот, подразумевает проверку сообщений, отправляемых локальными пользователями, прежде чем они попадут в интернет и потенциально могут нанести вред другим[16].

Одним из распространённых методов фильтрации исходящих сообщений, используемых интернет-провайдерами, является прозрачный SMTP-прокси-сервер, когда исходящий трафик перехватывается и фильтруется через прокси внутри локальной сети. Кроме того, исходящая фильтрация активно применяется на почтовых серверах, где многие компании используют технологии предотвращения утечек данных, чтобы не допускать отправки конфиденциальной информации по электронной почте.

Гибкость настройки фильтров

Фильтры для email могут существенно различаться по возможностям настройки. В простейшем варианте они работают по регулярным выражениям. В других случаях используются ключевые слова в теле или адрес отправителя сообщения. Более сложные, в том числе антиспамовые, системы используют алгоритмы статистической классификации документов, например наивный байесовский классификатор.

Примечания

Литература

  • Dada, E. G. Machine learning for email spam filtering: review, approaches and open research problems. Heliyon, 2019.
  • Sahami, M., Dumais, S., Heckerman, D., Horvitz, E. A Bayesian Approach to Filtering Junk E-Mail, 1998.
  • Aleisa, Mohammed A.; Alsuwit, Meaad Hamad; Haq, Mohd Anul. Advancing Email Spam Classification using Machine Learning and Deep Learning Techniques, 2024.
  • Kyaw, Phyo Htet; Gutierrez, Jairo; Ghobakhlou, Akbar. A Systematic Review of Deep Learning Techniques for Phishing Email Detection, 2024.