Co je Bayesian filtrování spamu?

GettyImages 122143117 5c64996246e0fb0001f256b1

Bayesovské filtry nevyžádané pošty vypočítávají pravděpodobnost, že zpráva bude spamem, na základě jejího obsahu. Na rozdíl od jednoduchých filtrů založených na slovech se Bayesovské filtry nevyžádané pošty učí z příchozího spamu a dobrého e-mailu, což má za následek velmi robustní, adaptivní a účinný přístup proti spamu, který zřídka vrací falešně pozitivní výsledky. E -mailové zprávy, které nejsou považovány za nevyžádanou poštu, jsou někdy označovány jako „šunka“.

Bayesovské filtry se stále zlepšují

Jednoduché filtry nevyžádané pošty založené na slovech nezohledňují to, co lze považovat za neobvyklá slova (jedna stopa, že daná zpráva může být nevyžádaná) pro každého uživatele e-mailu. Kromě toho nemají kapacitu na změnu pravidel, která používají k identifikaci nevyžádané pošty v průběhu času. Bayesovské filtry nevyžádané pošty se liší tím, že dělají obojí. Bayesovské filtry nevyžádané pošty časem vytvoří seznam nežádoucích slov. Analyzují jak nevyžádané zprávy, tak dobré zprávy, aby vypočítali pravděpodobnost výskytu různých charakteristik ve spamu a dobré poště. Poté jsou do seznamu přidána nová nechtěná slova. Pokud se slovo nikdy neobjeví ve spamu, ale často v legitimním e -mailu, který obdržíte, pravděpodobnost, že toto slovo označuje spam, se blíží nule. Řekněme například, že obdržíte mnoho legitimních zpráv, které obsahují dané slovo Karteziánský. Tato skutečnost snižuje pravděpodobnost, že přijaté e -mailové zprávy obsahují toto slovo Karteziánský jsou spam. Na druhou stranu řekněte, že jen zřídka nebo někdy dostanete legitimní zprávy, které obsahují dané slovo toner. Pokud obdržíte zprávu, která slovo obsahuje toner, je pravděpodobnější, že bude spam.

Jak Bayesovský filtr zkoumá e -mailovou zprávu

Charakteristiky zpráv, na které se dívá Bayesovský filtr nevyžádané pošty, zahrnují:

Slova v těle zprávy
Slova v záhlaví zprávy (například odesílatel a cesta zprávy)
Další prvky, jako je kód HTML/CSS (například barvy a jiné formátování)
Slovní páry a fráze
Meta informace (například kde se konkrétní fráze objevuje)

Když přijde nová zpráva, Bayesovský spamový filtr ji analyzuje a podle těchto atributů vypočítá pravděpodobnost, že se jedná o spam. Pokračováním výše uvedených příkladů předpokládejme, že zpráva obsahuje obě slova, Karteziánský a toner. Pouze z těchto slov není jasné, zda je zpráva spam nebo legitimní e -mail. Pokud ale zpráva obsahuje také záhlaví „SKVĚLÉ NABÍDKY TONERU !!!!!“ pak se zvyšuje pravděpodobnost, že se jedná o spam.

Bayesovské filtry se učí automaticky

Po zařazení do kategorie „nevyžádaná pošta“ nebo „legitimní e -mail“ může filtr použít toto odhodlání k dalšímu proškolení. V našem případě musí filtr buď snížit pravděpodobnost Karteziánský označující dobrou poštu nebo zvyšující pravděpodobnost toner označující spam. Vzhledem k dodatečným údajům záhlaví nevyžádané pošty u této zprávy (a možná i dalších faktorů), provedlo by to druhé a vyhodnotilo další příchozí zprávu na základě nové pravděpodobnosti. Pomocí této autoadaptivní techniky se Bayesovské filtry mohou učit jak z vlastních, tak z uživatelských rozhodnutí (pokud ručně opravují chybně vyhodnocené zprávy). Adaptabilita tohoto systému zajišťuje, že jsou tyto filtry nejefektivnější pro jednotlivé uživatele e -mailu, protože i když spam většiny lidí může mít podobné vlastnosti, legitimní pošta je pro každou osobu charakteristicky odlišná.

Mohou spammeři překonat Bayesovské filtry?

Vlastnosti legitimního e -mailu jsou pro proces filtrování nevyžádané pošty v Bayesian stejně důležité jako charakteristiky spamu. Protože jsou filtry vyškoleny speciálně pro každého uživatele, spammeři se s nimi obtížněji obcházejí a filtry se dokážou přizpůsobit téměř všemu, o co se spammeři pokoušejí. Zprávy spammerů projdou dobře vyškolenými bajesovskými filtry pouze v případě, že podvodníci vypadají jako nevyžádaná pošta jako obyčejný e-mail. Spammeři ale obvykle neposílají takové běžné zprávy, protože nefungují dobře, aby sloužily svým účelům (tj. Přesvědčily vás, abyste si něco koupili nebo klikli na odkaz). Stejně dobré jako Bayesovský filtr může být jedno slovo nebo charakteristika, která se často objevuje v dobré poště, tak významné, že zabrání tomu, aby zpráva, která ji obsahuje, byla vyhodnocena jako nevyžádaná pošta. Pokud by tedy spammeři našli způsob, jak určit vaše bezpečná slova na dobrou poštu, mohli by jedno z nich zahrnout do nevyžádané pošty a dostat se k vám i přes dobře vyškolený bayesovský filtr. Podle vědců, kteří tuto metodu vyzkoušeli, je však časově náročná a složitá natolik, že není pravděpodobné, že by byla používána příliš často.