Em busca da ferramenta anti-spam ideal

Márcio d'Ávila, 25 de novembro de 2003. Revisão 3, 17 de junho de 2004.
Categoria: Segurança: E-mail

Qualquer um que tenha conta (endereço) de e-mail hoje sabe o que é o spam e sofre com ele: a mala-direta eletrônica por e-mail, que vem crescendo de forma descontrolada e hoje entope de lixo boa parte das caixas de entrada de correio eletrônico em todo mundo.

É difícil colocar lei e ordem na Internet em âmbito global, de forma a evitar ou cortar esse mal pela raiz, isto é, proibir, coibir ou impedir o envio e proliferação de spam. O jeito por enquanto é eliminar o lixo eletrônico no destino, de preferência utilizando ferramentas anti-spam que auxiliem nesta tarefa.

Muitos provedores de Internet fazem sua parte para proteção das contas de seus usuários, adotando ferramentas automáticas que bloqueiam a recepção e descartam mensagens de correio eletrônico vindo de fontes notórias de spam: endereços IP ou e-mail de remetentes catalogados em listas-negras públicas ou mantidas pelo próprio provedor.

Porém, para evitar a ocorrência de mensagens legítimas indevidamente descartadas — os chamados casos falso-positivos —, as regras destas ferramentas anti-spam usadas de forma automática pelos provedores são em geral bem conservadoras e, portanto, de ação limitada, podendo deixar passar incólumes mensagens que na verdade são spam — os chamados falso-negativos. Alguns provedores ainda oferecem opções avançadas de personalização de suas ferramentas automáticas anti-spam, podendo permitir que o usuário opte por uma regra de bloqueio mais severa.

Resta ao usuário, ao acessar suas mensagens de e-mail, a tarefa de realizar um "pente-fino", eliminando as mensagens de lixo que sobraram em sua caixa de entrada. Para aqueles que, com ou sem ajuda de seu provedor, ainda se deparam diariamente com dezenas e dezenas de spams, a esperança final são as diversas ferramentas anti-spam pessoais existentes, que auxiliam na eliminação de spam antes ou durante a operação de recepção de mensagens de correio eletrônico em seu computador, atuando como intermediário entre a caixa postal no provedor Internet e o destino final no programa cliente de e-mail.

Existem hoje duas principais técnicas de filtragem de spam: listas de bloqueio/permissão e classificação de conteúdo.

Listas de bloqueio/permissão

Ferramentas baseadas em lista de bloqueio, mais conhecida como lista-negra (blacklist), e lista de permissão (lista-branca, whitelist) analisam o cabeçalho das mensagens recebidas e identificam IP's, domínios ou endereços de e-mail remetentes que devem ser bloqueados ou permitidos, respectivamente. Esta técnica pode ser estendida para considerar outros padrões de texto — não apenas endereços — em campos do cabeçalho ou mesmo no corpo da mensagem.

As listas-negras são cadastradas de duas formas: automática, através de bancos de dados on-line mantidos por entidades sérias na Internet baseado em denúncias comprovadas; manual, através de um meio para o usuário indicar que uma mensagem é spam e, assim, seu remetente deve ser adicionado à lista-negra pessoal.

Para forçar a aceitação incondicional de determinados remetentes conhecidos, mesmo quando a origem estiver cadastrada em lista-negra, as ferramentas oferecem ao usuário o recurso de cadastrar também uma lista-branca com estes endereços permitidos. A lista-branca tem, em geral, precedência sobre a lista-negra.

A filtragem de spam baseada em listas é bastante precisa e seletiva, desde que as listas de bloqueio e permissão sejam sempre atualizadas. Sua ação tem pequena possibilidade de gerar falso-positivo. Mas ela perde eficácia na medida em que os "spammers" — os remetentes de spam e os programas/sistemas de mala-direta eletrônica utilizados por eles — se protegem dessa filtragem sendo "nômades", mudando freqüentemente de endereço eletrônico e de provedor e também utilizando endereços remetentes falsos e aleatórios (variáveis, que mudam a cada postagem).

Classificação de conteúdo

A classificação de conteúdo usa uma abordagem diferente. Ao invés de analisar apenas o cabeçalho procurando identificar remetentes suspeitos, ela analisa todo o conteúdo da mensagem (isto é, o seu texto completo) em busca de padrões suspeitos e, com base na identificação de determinados padrões, utiliza estatística e probabilidade para fazer uma classificação do que é ou não spam. Essa técnica é baseada no Teorema de Naïve Bayes e por isso conhecida como Filtro Bayesiano.

O filtro bayesiano é mais flexível do que a filtragem por listas de bloqueio, pois não depende nem da identificação de remetentes nem da manutenção de listas destes. Mesmo que o spammer seja nômade e consiga disfarçar sua origem, o texto da mensagem pode denunciá-lo. Mas essa filtragem tem outros problemas: depende de aprendizagem e não é exata, é estatística, e por isso terá sempre um risco, mesmo que gradativamente menor, de classificação incorreta, isto é, da ocorrência de eventuais falso-positivos e falso-negativos.

É importante também compreender o que é a "aprendizagem" necessária para o filtro bayesiano. Inicialmente, é difícil definir parâmetros e padrões de texto fixos para se determinar o que é ou não spam. As ferramentas baseadas em filtro provêm ao usuário uma forma de classificar manualmente cada mensagem como spam ou não. À medida que as classificações são feitas, a ferramenta mapeia o conteúdo — palavras, padrões de texto — das mensagens já classificadas, formando uma base estatística para classificar automaticamente mensagens futuras. Quanto mais tempo e mensagens classificadas, mais o filtro terá amostragem maior, mais diversificada e detalhada para tornar sua classificação automática cada vez mais precisa.

Os spammers atentos à existência dos filtros bayesianos tentam driblar a classificação de conteúdo, introduzindo no meio das palavras do texto caracteres especiais ou letras a mais, visando dificultar a determinação de padrões automáticos, sem prejudicar muito a legibilidade humana do texto. Assim, ao invés de escrever simplesmente a palavra "sexo", podem escrever "se-xo", "se'xo" ou "sexxo", por exemplo. Outro despiste é o uso de imagens (banners) ao invés de texto, nas mensagens. É por essas e outras que eu sempre fui a favor do e-mail apenas com texto-puro, sem formatações, imagens e outros elementos supérfluos anexos, que além de aumentarem muito o tamanho das mensagens, servem mais aos propósitos da proliferação de spam, vírus, cavalos de tróia e outras pragas.

Outras técnicas de filtragem também são bem-vindas, como reconhecimento de cabeçalhos de mensagem inválidos ou suspeitos, data de postagem muito antiga, classificação por idioma, classificação temática e o que mais puder ser inventado para ajudar. As ferramentas anti-spam têm se proliferado e evoluído bastante (infelizmente, o spam também). Eu recomendo duas ferramentas gratuitas anti-spam:

Merece ainda menção honrosa mais um programa gratuito, em especial se você utiliza outro sistema operacional que não o Windows:

Estes são apenas alguns exemplos de programas anti-spam. Existem várias ferramentas, em constante evolução. Uma lista bem mais ampla pode ser obtida na seção "Software Anti-Spam para Usuários e Clientes de E-mail", dos links sobre Segurança de E-Mail em meu site.

Ainda espero, contudo, a ferramenta anti-spam ideal, que combine não só as técnicas de classificação de conteúdo e listas negra/branca, mas também cada vez mais recursos que se mostrem úteis e eficazes na filtragem e combate ao spam. Além disso, as ferramentas anti-spam pessoais ainda podem evoluir muito em facilidade de uso e configuração, principalmente para o usuário iniciante e mais "leigo", e em integração com os programas clientes de e-mail (como Outlook, Eudora etc.). Imagine que prático, por exemplo, um programa anti-spam que utilize automaticamente as entradas de seu catálogo de endereços do programa de e-mail como lista-branca.

Ainda não vi programas anti-spam (principalmente entre os gratuitos) com todos estes recursos, mas sinceramente espero ver em breve. Por enquanto, ficam aí minhas indicações aos usuários e minhas sugestões aos desenvolvedores. As caixas de entrada de milhões de pobres e indignados usuários do correio eletrônico (incluindo eu, claro) agradecem.


Firefox - A web de volta
Creative Commons License

© 2003-2007, Márcio d'Ávila, mhavila.com.br, direitos reservados. O texto e código-fonte apresentados podem ser referenciados e utilizados, desde que expressamente citada esta fonte e o crédito do(s) autor(es). A informação aqui apresentada, apesar de todo o esforço para garantir sua precisão e correção, é oferecida "como está", sem quaisquer garantias explícitas ou implícitas decorrentes de sua utilização ou suas conseqüências diretas e indiretas.