Тема работы
Разработка и реализация модифицированной подсистемы байес-анализа в системе SpamAssassin.
SpamAssassin - наиболее распространённая open-source система фильтрации спама. Байес-анализ — метод статистического анализа содержимого почтовых сообщений (контент-анализа).
Актуальность
Проблема спама последние 10 лет весьма актуальна, решения ее нет и не предвидится. Для борьбы со спамом во всем мире применяются различные автоматические и полуавтоматические системы фильтрации спама. Одной из наиболее распространённых и эффективных open-source систем является SpamAssassin.
В своей работе SpamAssassin использует несколько подходов: во-первых, поиск в письмах различных признаков характерных для спама (как то неверное соблюдение протоколов (RFC2822 и др.), попытки подделать заголовки почтовых сообщений, использование большого количества слов в верхнем регистре и восклицательных знаков и т.п.); во-вторых SpamAssassin может применять анализ с использованием различных сетевых сервисов (rbl, razor) и, наконец, как один из наиболее важных, используется контент анализ с использованием статистических инструментов - байес-анализ.
Суть байес-анализа состоит в том, что на этапе обучения строится база лексем с оценками каждой лексемы и в дальшейшем каждое письмо разбивается на лексемы, веса которых берутся из базы, и на их основе вычисляется некоторый вес письма позволяющий это письмо классифицировать. В дальнейшем возможно дообучение системы новыми письмами. В случае, если такая база строится для всех пользователей почтовой системы, возникает проблема с тем, что почтовые профили разных пользователей сильно различаются (например программист и менеджер по продажам). Однако, если строить такие базы персонально для каждого пользователя, то это будет неэффективно, так как, с одной стороны, потребуется отдельное обучение системы для каждого пользователя, а, с другой стороны, несмотря на различные почтовые профили, профили спама у различных пользователей все-таки сильно пересекаются.
Существующая реализация байес-анализа в SpamAssassin позволяет использовать либо общую базу либо персональную базу для пользователя. Необходимо модифицировать её таким образом, чтобы она совмещала использование общей и личных баз при работе bayes-фильтрации. В простейшем случае это два прогона подсистемы байес-анализа с различными базами, однако возможно сделать модификации имеющегося алгоритма таким образом, чтобы он использовал одновременно и информацию из базы данного пользователя (письмо, адресованное которому анализируется) и информацию из баз других пользователей.
План работы
* Изучение предметной области, систем фильтрации спама, методов статистического контент-анализа почтовых сообщений.
* Инсталляция и настройка SpamAssassin в качестве службы интегрированной в почтовый сервис (фильтрация на этапе доставки).
* Изучение исходных кодов SpamAssassin, формулировка предложений по возможным способам модификации.
* Реализация одного из методов (возможно реализация более чем одного метода, например простой и ресурсоемкий, а затем сложный и более оптимальный).
* Апробация на тестовых данных.
* Внедрение в почтовой системе ЛВК.
Ожидаемые результаты
* Обзор систем фильтрации спама
* Модификация системы SpamAssassin
* Внедрение
Варианты развития работы
* Модификации алгоритма байес-анализа, применяемого в SpamAssassin.
* Добавление в SpamAssassin каких-то ещё методов статистического контент-анализа.
Александр Герасёв / Александр Петров, 4й курс, mod-sem/linux
Модератор: Сотрудники лаборатории
-
- Аспирант
- Сообщения: 179
- Зарегистрирован: 23 сен 2008 01:19 pm