Александр Герасёв / Александр Петров, 4й курс, mod-sem/linux

На этом форуме публикуются и уточняются постановки задач студентам, а также отслеживается ход их выполнения

Модератор: Сотрудники лаборатории

Закрыто
Бычков Иван
Аспирант
Сообщения: 179
Зарегистрирован: 23 сен 2008 01:19 pm

Александр Герасёв / Александр Петров, 4й курс, mod-sem/linux

Сообщение Бычков Иван »

Тема работы

Разработка и реализация модифицированной подсистемы байес-анализа в системе SpamAssassin.

SpamAssassin - наиболее распространённая open-source система фильтрации спама. Байес-анализ — метод статистического анализа содержимого почтовых сообщений (контент-анализа).

Актуальность

Проблема спама последние 10 лет весьма актуальна, решения ее нет и не предвидится. Для борьбы со спамом во всем мире применяются различные автоматические и полуавтоматические системы фильтрации спама. Одной из наиболее распространённых и эффективных open-source систем является SpamAssassin.

В своей работе SpamAssassin использует несколько подходов: во-первых, поиск в письмах различных признаков характерных для спама (как то неверное соблюдение протоколов (RFC2822 и др.), попытки подделать заголовки почтовых сообщений, использование большого количества слов в верхнем регистре и восклицательных знаков и т.п.); во-вторых SpamAssassin может применять анализ с использованием различных сетевых сервисов (rbl, razor) и, наконец, как один из наиболее важных, используется контент анализ с использованием статистических инструментов - байес-анализ.

Суть байес-анализа состоит в том, что на этапе обучения строится база лексем с оценками каждой лексемы и в дальшейшем каждое письмо разбивается на лексемы, веса которых берутся из базы, и на их основе вычисляется некоторый вес письма позволяющий это письмо классифицировать. В дальнейшем возможно дообучение системы новыми письмами. В случае, если такая база строится для всех пользователей почтовой системы, возникает проблема с тем, что почтовые профили разных пользователей сильно различаются (например программист и менеджер по продажам). Однако, если строить такие базы персонально для каждого пользователя, то это будет неэффективно, так как, с одной стороны, потребуется отдельное обучение системы для каждого пользователя, а, с другой стороны, несмотря на различные почтовые профили, профили спама у различных пользователей все-таки сильно пересекаются.

Существующая реализация байес-анализа в SpamAssassin позволяет использовать либо общую базу либо персональную базу для пользователя. Необходимо модифицировать её таким образом, чтобы она совмещала использование общей и личных баз при работе bayes-фильтрации. В простейшем случае это два прогона подсистемы байес-анализа с различными базами, однако возможно сделать модификации имеющегося алгоритма таким образом, чтобы он использовал одновременно и информацию из базы данного пользователя (письмо, адресованное которому анализируется) и информацию из баз других пользователей.

План работы

* Изучение предметной области, систем фильтрации спама, методов статистического контент-анализа почтовых сообщений.
* Инсталляция и настройка SpamAssassin в качестве службы интегрированной в почтовый сервис (фильтрация на этапе доставки).
* Изучение исходных кодов SpamAssassin, формулировка предложений по возможным способам модификации.
* Реализация одного из методов (возможно реализация более чем одного метода, например простой и ресурсоемкий, а затем сложный и более оптимальный).
* Апробация на тестовых данных.
* Внедрение в почтовой системе ЛВК.

Ожидаемые результаты
* Обзор систем фильтрации спама
* Модификация системы SpamAssassin
* Внедрение


Варианты развития работы
* Модификации алгоритма байес-анализа, применяемого в SpamAssassin.
* Добавление в SpamAssassin каких-то ещё методов статистического контент-анализа.
Закрыто