Stolica.ru
    Реклама Rambler's Top100 Service     Все Кулички
 
Заневский Летописец
 
    Виртуальный орган невиртуальной жизни
     Шестой год издания 19.10.2004         N 1193   

Спамооборона - постановка задачи


    Одной из особенностей русского национального характера является та, что обсуждение вопроса "Что делать?" всегда и практически сразу сводится к дискуссии "Кто виноват?"

    В результате выплескивается вода вместе с ребенком, а вслед за ними обоими улетает и само корыто... но за паниковско-балагановскими воплями "А ты кто такой?" это уже никем не замечается.

    Нужны антиспамовые фильтры или не нужны, должны они быть настраиваемыми и в какой степени, должны они быть автоматически не пропускающими спам или только предупреждающими о нем - все эти мелочи мгновенно забываются навсегда.

    Главное - вопрос переведен в нужную плоскость...
    И аргументы при этом могут вообще отсутствовать. Или быть совершенно смехотворными.
    Например, такой аргумент.

    "Любой желающий, обладающий минимумом знаний о работе систем электронной почты может организовать свою собственную рассылку.
    Соответственно, нет никакого рынка спамерских услуг.
    А вот при появлении фильтров ситуация меняется кардинально, сразу появляется необходимость в профессиональном подходе к рассылке, появляется рынок."
    Собственно, с первым предложением этой цитаты я согласен. Но вывод из приведенного "аргумента" ошеломляющий:
"Соответственно, нет никакого рынка спамерских услуг."

    Автор утверждения даже не задумывается, что будут делать желающие сообщить о себе или своем товаре всему миру, узнавшие о дешевом способе это сделать, но не обладающие даже минимумом необходимых знаний? А таких - мириады.
    А если бы задумался, то понял бы, что эти мириады тут же организуют такой рынок.
    Сначала попроще - попросят знакомого компьютерщика разослать несколько сотен писем рекламы и расплатятся бутылкой пива. Это не рынок?
    Потом наймут соответствующего человека, обладающего необходимым "минимумом знаний" в рекламный отдел своей фирмы. Это тоже не рынок?
    Потом... Потом мы все видим, что получилось.

    Фильтры? Какие фильтры? О фильтрах еще никто не сказал и слова!

    Кстати, а кто был самым первым спамером?
    Между прочим, всем вам он хорошо известен:

    "Я прошу вас покорнейше, как поедете в Петербург, скажите всем там вельможам разным: сенаторам и адмиралам, что вот, ваше сиятельство, живет в таком-то городе Петр Иванович Бобчинский."
    Разве это не спам?
    Спам в чистом виде, настоящий коммерческий спам.
    Это неважно, что Петр Иванович рекламирует не свой товар, а себя лично. За свою спам-рекламу он уже заплатил взяткой.

    Какие антиспамовые фильтры? Где они?
    Фильтром в данном случае стал сам Хлестаков, поскольку оказался жуликом.
    И в этом нам не повезло, ибо если бы спамеры расплодились со времен Гоголя, то к нашему времени был бы хоть какой-нибудь опыт борьбы с ними.
    А так нам, вконец замученным поставщиками "Виагры" и "Американо-английского", приходится заниматься этим с нуля. И срочно.

    Но отвлечемся же, "шьерт побери", наконец от животрепещущего вопроса "Кто виноват?" и обратимся к другому - более насущному - что делать?
    Но постепенно...

    Я не склонен записывать так называемых "анти-антиспамеров" в анти-антиспамеры.
    Это название неверно в принципе.
    Они же (если они сами не рассылают спам, а я думаю, что те, кто его рассылает, не выступает печати ни открыто, ни анонимно) ратуют не за спам, а против антиспамовых фильтров.

    При этом никто из них не жалуется на замечательное отсеивание этими фильтрами спама. Они недовольны одной-единственной характеристикой фильтров - числом полезных писем, ошибочно принятых фильтрами за спам.
    Потому что число этих потерянных полезных писем невообразимо велико - четыре-пять штук на тысячу.

    Строго говоря, они выступают даже не против фильтров или их отдельных частей, а против автоматических фильтров, поскольку предпочитают фильтровать спам собственными глазами, собственными руками и собственной головой.
    Эти люди считают, что они могут осуществлять фильтрующие функции лучше и надежнее, чем существующие автоматические фильтры.
    Но я в этом далеко не уверен.

    Потому что если человеку приходится просматривать сотню-другую мусорных писем в день, среди которых может быть (а может и не быть) одно нужное сообщение, то отвлечься и машинально пропустить нужное письмо - легко!
    Но уверяю вас, что ни один человек-фильтр никогда не признается, что он делает ошибок столько же или даже больше, чем фильтр автоматический.
    Во-первых, потому, что он нужные (но пропущенные им) письма сразу выбрасывает с мусором, а во-вторых, потому, что своих собственных характеристик, как фильтра, не знает.
    Не мерял он эти характеристики никогда, да и вариабельны они очень: зависят и от личных качеств характера, и от степени усталости, и от настроения, и от погоды, и от расположения звезд, и еще бог знает от чего...
    Поэтому и принимает человек-царь-природы за аксиому, что он сам есть лучший в мире антиспамерский фильтр, и с высоты этой позиции нападает на несчастные автоматы: и такие они, и сякие и отсекают по пять наинужнейших мне писем из тысячи, и тем вводят меня - царя природа - в неисчислимые убытки.
    А между прочим, именно благодаря антиспамовым фильтрам спамеры теперь вынуждены писать свои письма таким образом, что в них и вчитываться не надо: кинул взгляд - и понятно.

    В то же время надо, наконец, признать со всей определенностью, что, несмотря на некоторые успехи в борьбе с мусором, все антиспамовые фильтры со своей задачей справляются очень плохо.
    Почему? - потому что методики, заложенные в них, предназначены для решения другой задачи.

    Статистическая обработка получаемой информации направлена на выделение полезного сигнала.
    99,8 процентов правильного определения сигнала (характеристика, которую так любят упоминать изготовители спам-фильтров) означает, что из тысячи полезных сигналов вы безоговорочно получите 998.
    Два будет утеряно, и это плохо.
    Поэтому все разработки направлены на увеличение этого числа (99,8). Другими словами на уменьшение вероятности ошибки первого рода.

    Ошибка второго рода интересует статистиков гораздо меньше.
    При ошибке второго рода равной полпроцента вы получите пять ложных сигналов, которые система приняла за истинные. Но зато девяносто пять процентов ненужных сигналов вы не получите.
    Поэтому уменьшением ошибки второго рода никто никогда не занимался. И похоже, что не занимается.

    А как вы думаете, чем отличается полезный сигнал от бесполезного шума?
    Если не вдаваться в подробности - повторяемостью.
    Но в нашем компьютерно-почтовом случае повторяемостью обладает как раз спам. А полезные письма могут быть самыми разнообразными.

    Другими словами, традиционная статистическая обработка сигналов направлена на безошибочное получение чистого спама.
    И она дает очень хорошие результаты: при цифрах 99,8 и 0,5 вы получите в свой ящик 998 спама из тысячи и 5 писем, которые ложно определены, как спам.
    Два спам-письма вы теряете.

    То есть характеристика данного фильтра - 2 потерянных письма на тысячу при 95-ти процентах неполучамого мусора (в данном примере - не спама).

    При спамообороне дело обстоит прямо противоположным образом !

    Ошибка первого рода пропускает к вам ненужный сигнал (спам), а ошибка второго рода не пропускает к вам нужные письма.

    В результате мы имеем 99,8 процентов неполученного спама, но 5 потеряных полезных писем.
    Потерь больше в в два с половиной раза! При довольно скромных успехах (4,8 процента) по дополнительной фильтрации.
    Почему до сих пор этого никто не видит?
    Несмотря на эмоциональные призывы "анти-антиспамеров":

"Господа! Ваши фильтры работают плохо!"

    А они и не могут работать хорошо, потому что на скорую руку приспособлены для решения не той задачи.

    Поскольку задача спамообороны была поставлена неверно - максимально подавить спам.
    А должна формулироваться следующим образом -
 обеспечить получение нужных писем без потерь при максимальной фильтрации спама.

    Следовательно, нужно заниматься совсем другим - нужно бороться за минимизацию ошибки второго рода.
    Я не думаю, что возможно (даже теоретически) свести ее до нуля.
    Но если снизить ее с нынешних полпроцента до десять в минус шестой степени (одно потерянное письмо на миллион полученных), то вряд ли против такого спам-фильтра будет возражать самый радикальный "анти-антиспамер".
    Потому что есть разница между потерей одного письма каждую неделю и одного письма каждые пять-шесть лет.

    Чем за это придется заплатить?
    Я опасаюсь, что природу не обманешь, и за это придется платить резким снижением количества отфильтрованного спама. Каким именно, я не берусь даже оценить. Возможно, до пятидесяти процентов или даже меньше.
    Естественно, что смысл в такой спам-фильтрации почти пропадает.

    Очень хотелось бы, чтобы эта цифра не стала меньше 80-90 процентов.
    Как это сделать и можно ли это сделать - я не знаю.
    Насколько мне известно, эту задачу не только никто не решал, но даже никто и не ставил.

    Но характеристики спам-фильтров должны звучать для потребителей примерно так:

    "Наш спам-фильтр серии "Хлестаков" гарантируют вам следующие параметры:
    "Хлестаков-1" - потерю не более одного письма на миллион неспамерских писем при общем отсечении 50 процентов спама.
    "Хлестаков-2" - потерю не более одного письма на сто тысяч неспамерских писем при общем отсечении 60 процентов спама.
    "Хлестаков-3" - потерю не более одного письма на десять тысяч неспамерских писем при общем отсечении 70 процентов спама.
    "Хлестаков-4" - потерю не более одного письма на тысячу неспамерских писем при общем отсечении 80 процентов спама.
    "Хлестаков-5" - потерю не более двух писем на тысячу неспамерских писем при общем отсечении 90 процентов спама.
    "Хлестаков-6" - потерю не более четырех писем на тысячу неспамерских писем при общем отсечении 99,8 процентов спама.
    Пусть каждый потребитель выбирает, что ему важнее - получать меньше спама или не пропустить нужное сообщение.

    А потом (может быть) наши математики-теоретики все-таки озаботятся этой проблемой и разработают математическую теорию для реальной задачи нашего времени.
    И, возможно, найдут способы максимизировать защитные свойства фильтров до приемлемой величины при заранее заданной (и достаточно низкой) вероятности пропуска нужных сигналов.

    И когда-нибудь фильтры типа "Хлестаков" смогут гарантировать подавление 99 процентов спама при потере не более одного нужного письма на миллиард пришедших.


    Постскриптум.

    Примерно месяц назад РОР-сервер, которым я в основном пользуюсь, поставил антиспамовый фильтр. Естественно, построенный по традиционному принципу, который я столь решительно критикую.
    Результат? - У меня просветлело в глазах.
    Стабильные и однообразные 80-100 ежедневных предложений виагры, конференций, рекламных рассылок, лекарств без рецептов и увеличения разнообразных частей тела сменились 3-5-ю письмами, статистику предложений которых трудно даже оценить в силу их малочисленности.
    Ежедневная утомительная борьба с мусором, изобиловавшая ранее напряженным анализом обстановки и хитроумными ходами по ее улучшению, сменилась некоторой растерянностью от ее полной ненужности.
    Поначалу стало даже скучновато...

    Теряются ли какие-нибудь полезные письма? Наверняка.
    Теория это предусматривает.
    Но, к счастью, я не жду ни от кого из незнакомых людей никаких финансовых предложений, могущих кардинально изменить мою жизнь.
    А если таковые будут исходить от моих знакомых, то я надеюсь, что они, зная мой характер, удивятся моему молчанию, и повторят их.
    И будет нам счастье!
    Без всякого спама....



    О спаме и борьбе с ним:
   Борьба со спамом
   Бутерброд с сексизмом
   Борьба с спамом - руками спамеро
   Osirusoft: свинство или диверсия?


Обложка      Предыдущий номер       Следующий номер
   А Смирнов    ©1999-2004
Designed by Julia Skulskaya© 2000