Што треба да знаете за Bayesian Spam филтрирање

by Хајнц Чабишир

Дознајте како статистиката помага да се чисти вашето сандаче

Bayesian spam филтрите ја пресметуваат веројатноста дека пораката е спам врз основа на неговата содржина. За разлика од едноставни филтри засновани на содржина, Bayesian филтрирањето на спам учи од спам и од добра пошта, што резултира со многу робустен, адаптибилен и ефикасен пристап против спам, кој, најмногу од сè, враќа едвај сите лажни позитиви.

Како да препознаете несакана пошта?

Размислете како откривате спам . Брз поглед е доволно често. Знаеш како изгледа спам, и знаеш како изгледа добра пошта.

Веројатноста за спам што изгледа како добра пошта е околу ... нула.

Резултатите од филтрирањето врз основа на содржина не се прилагодуваат

Зарем не би било добро ако автоматски спам-филтри работеле така?

Бодирањето на филтри за спам базирани на содржина се обидува токму тоа. Тие бараат зборови и други карактеристики карактеристични за спам. Секој карактеристичен елемент е доделен резултат, а погрешната оценка за целата порака се пресметува од индивидуалните резултати. Некои филтри за бодување, исто така, бараат карактеристики на легитимна пошта, намалувајќи го конечниот резултат на пораката.

Пристапот со филтри за постигнување функционира, но исто така има и неколку недостатоци:

Листата на карактеристики е изградена од спам (и добрата пошта) достапна на инженерите на филтерот. За да се добие добро разбирање на типичниот спам, секој може да добие, пошта мора да се собере на стотици е-мејл адреси. Ова ја ослабува ефикасноста на филтрите, особено поради тоа што карактеристиките на добра пошта ќе бидат различни за секој човек , но ова не се зема предвид.
Карактеристиките што треба да ги барате се повеќе или помалку поставени во камен . Ако спамерите направат обид да се прилагодат (и да направат нивниот спем да изгледа како добра пошта до филтрите), карактеристиките на филтрирањето треба да се менуваат рачно - уште поголем напор.
Резултатот доделен на секој збор веројатно се базира на добра проценка, но сепак е произволна. И како листа на карактеристики, тоа не се прилагодува ниту на менување на светот на спам воопшто, ниту на потребите на индивидуалните корисници.

Bayesian Spam филтри Tweak Самите, добивање подобар и подобар

Bayesian спам филтри се еден вид на постигнување на содржина-базирани филтри, исто така. Нивниот пристап ги отстранува проблемите со едноставно постигнување на спам филтри, и тоа го прави толку радикално. Бидејќи слабоста на филтрите за бодување е во рачно изградената листа на карактеристики и нивните резултати, оваа листа е елиминирана.

Наместо тоа, Bayesian spam филтрите сами ја градат листата. Идеално, ќе почнете со (голем) куп на пораки што сте ги класифицирале како спам, и уште еден куп на добра пошта. Филтрите ги гледаат двете и ја анализираат легитимната пошта, како и спем-то за да ја пресметаат веројатноста за различни карактеристики кои се појавуваат во спам, и во добра пошта.

Како Bayesian Spam филтер испитува е-пошта

Карактеристиките на Bayesian спам филтер може да се погледне може да биде:

зборовите во телото на пораката, се разбира, и
нејзините заглавија (испраќачи и патеки за пораки , на пример!), но, исто така
други аспекти како HTML / CSS код (како бои и друго форматирање), или дури и
парови на зборови, фрази и
meta информации (каде што, на пример, се појавува одредена фраза).

Ако еден збор, "картезиски", на пример, никогаш не се појавува во спам, но често во легитимната е-пошта што ја добивате, веројатноста дека "картезите" укажува на спам е близу нула. "Тонер", од друга страна, се појавува исклучиво, и често, во спам. "Тонер" има многу голема веројатност да биде пронајден во спам, не многу под 1 (100%).

Кога ќе пристигне нова порака, таа се анализира од Bayesian spam филтерот, а веројатноста за комплетната порака како спам се пресметува со користење на индивидуалните карактеристики.

Да претпоставиме дека пораката содржи и "картезиски" и "тонер". Само од овие зборови, сè уште не е јасно дали имаме спам или легитимна пошта. Другите карактеристики ќе (се надевам и најверојатно) ќе покажат веројатност што дозволува филтерот да ја класифицира пораката како спам или добра пошта.

Bayesian Spam филтерите можат да учат автоматски

Сега кога имаме класификација, пораката може да се користи за понатамошно тренирање на филтерот. Во овој случај, или веројатноста за "картезиска" укажува на добра пошта е намалена (ако пораката која содржи "картезиски" и "тонер" се смета дека е спам), или веројатноста за "тонер" што укажува на спам мора да се преиспита.

Користејќи ја оваа автоадаптивна техника, Bayesian филтрите можат да учат и од сопствените и од одлуките на корисникот (ако таа рачно испраќа погрешно мислење од страна на филтрите). Приспособливоста на Bayesian филтрирањето исто така осигурува дека тие се најефективни за поединечниот корисник на е-пошта. Додека спам повеќето луѓе може да имаат слични карактеристики, легитимната пошта е карактеристично различна за секого.

Како можат спамери да ги минат бајески филтерите?

Карактеристиките на легитимната пошта се исто толку важни за Bayesian филтрирањето на спам како што е спам. Ако филтрите се специјално обучени за секој корисник, спамери ќе имаат уште потешко време да работат околу сите филтри за спам (или дури и повеќето луѓе), а филтрите може да се прилагодат на речиси сè што се обидува спамери.

Спамери ќе го направат само минатото добро обучени Bayesian филтри ако ги направат своите спам пораки изгледаат совршено како обичните е-пошта што секој може да ги добие.

Спамери обично не испраќаат такви обични пораки. Да претпоставиме дека ова е затоа што овие пораки не функционираат како несакана е-пошта. Значи, шансите се дека тие нема да го прават тоа, кога обичните, досадни пораки се единствениот начин да го направат минатото филтри за спам.

Меѓутоа, ако спамери се префрлат на претежно обични пораки, сепак, повторно ќе видиме многу спам во нашите Inboxes, и е-поштата може да стане фрустрирачка како што беше во пред-Bayesian дена (или уште полошо). Исто така, ќе го уништи пазарот за повеќето видови на спам, и на тој начин нема да трае долго.

Силни индикатори може да бидат Ахил филтер на Bayesian Spam Пета

Еден исклучок може да се смета за спамери да работат преку Bayesian филтри дури и со нивната вообичаена содржина. Во природата на Bayesian статистиката е дека еден збор или карактеристика што многу често се појавува во добра пошта може да биде толку значајна што ќе ја претвори секоја порака од изглед како спам за да биде оценет како шунка од страна на филтерот.

Ако спамерите најдат начин да ги одредат вашите сигурни зборови за добра пошта - со користење на повратни сметки од HTML за да видите кои пораки што ги отворивте, на пример, тие можат да вклучат еден од нив во несакана пошта и да стигнат до вас дури и преку добро- обучен Bayesian филтер.

Џон Греам-Камминг се обиде со тоа, дозволувајќи им на двајца Bayesian филтри да работат едни против други, "лошиот" кој се прилагодува на кои пораки се пронајдени за да се добие преку "добриот" филтер. Тој вели дека работи, иако процесот е одземаат многу време и е сложен. Ние не мислиме дека ќе видиме многу од ова се случува, барем не во голем обем, и не се приспособени на поединечните карактеристики на поединците. Спамери може (обидете се) да сфатат некои клучни зборови за организациите (нешто како "Almaden" за некои луѓе на IBM, можеби?) Наместо тоа.

Обично, спам секогаш ќе биде (значително) различен од редовната пошта или, сепак, нема да биде спам.

Крајна линија: силината на Bayesian филтрирањето може да биде нејзината слабост

Bayesian филтри за спам се филтри базирани на содржина кои:

се специјално обучени за препознавање на спам од поединечен е-пошта и добра пошта , што ги прави многу ефикасни и тешко да се прилагодат на спамери.
може постојано и без многу напор или рачна анализа да се прилагодат на најновите трикови на спамери.
земете сметка за пошта поединечен корисник и имате многу ниска стапка на лажни позитиви .
За жал, ако ова предизвика слепа доверба во Bayesian анти-спам филтри, тоа ја прави повремена грешка уште посериозна . Спротивното дејство на лажните негативи (спам што изгледа како редовна пошта) има потенцијал да ги вознемирува и фрустрира корисниците.