8 février 2007

Un filtre bayésien reste une des meilleures méthodes de se débarrasser des messages illégitimes communément appellé spam. Son grand avantage est de devenir de plus en plus précis avec le temps. Un filtre bayésien peut facilement atteindre une détection de plus de 90% des messages spam. En plus, il s'adapte lors de la phase d'apprentissage à chaque cas particulier.

Comment fonctionne un filtre bayésien anti-spam ?
Dans un premier temps, il faut indiquer au filtre bayésien quels messages sont du spam (Firefox les appelle les messages "indésirables") et quels messages n’en sont pas (messages non-spam ou "acceptables").

Lors de cet apprentissage, le filtre établit les termes qui sont uniquement rencontrés dans les messages spam, uniquement dans les messages non-spam, majoritairement dans les messages spam, autant dans les deux, etc.

Ensuite, le filtre peut utiliser ces données pour calculer la probabilité totale qu'un nouveau message soit légitime ou pas, compte tenu de l'ensemble des mots de ce message.

C'est beaucoup plus efficace que les listes de mots classiques qu'on utilisait avant, car le filtre s'adapte automatiquement à toute tentative d'éviter ce type de listes. En plus, un certain nombre de mots non-spam fera qu'un message sera considéré comme légitime, malgré quelques termes spam.

C'est également plus efficace que des listes noires d'adresses e-mail, car les adresses e-mail ne sont souvent utilisés qu'une seule fois par les spammeurs, alors que les messages spam suivent régulièrement des modèles identiques ou presque.

On peut souvent configurer la sensitivité d'un filtre anti-spam afin de détecter le maximum de messages spam tout en évitant qu'un message acceptable soit classé comme spam.

Il faut compter environ un millier de messages spam et quelques centaines de messages non-spam afin que le filtre bayésien puisse être activé.

Après activation du filtre presque tous les messages indésirables sont automatiquement marqués comme spam et généralement transférés dans un répertoire à part. Il suffira désormais de marquer le petit pourcentage des messages indésirables non reconnus.

Chaque fois qu'on a cumulé un certain nombre de messages spam (ou à des intervalles réguliers), on peut les soumettre au filtre pour apprentissage avant de les effacer. Il faut également penser de temps en temps à faire apprendre les messages non-spam, car cela rend le filtre beaucoup plus efficace.

Quelques conseils:

  • Evitez de classer comme spam une publicité ou newsletter légitime qui ne vous intéresse pas ou encore les messages d'une personne qui vous tape sur les nerfs. Vous risquerez de rendre votre filtre anti-spam beaucoup moins efficace. En plus, ce genre de problème se règle très facilement avec des listes noires ou des filtres automatiques (par exemple : si l'expéditeur est xy, transférer le message dans le dossier corbeille).
  • N'hésitez pas à mettre tous vos contacts en liste blanche pour éviter qu'un message légitime soit transféré dans le dossier spam. Ceci concerne tout particulièrement les messages envoyés en masse (notifications, newsletters etc.).
  • Il peut parfois être conseillé d'effacer les données du filtre et de recommencer l'apprentissage (p. ex. pour actualiser la liste des mots spam ou en cas d'erreurs massives d'apprentissage).

Logiciels
Si vous êtes à la recherche d'un logiciel E-Mail gratuit avec filtre bayésien, je vous recommande Foxmail ou Mozilla Thunderbird.

Prochainement ?
Personnellement, j'utilise Foxmail depuis un bout de temps et si cela intéresse quelqu'un, je pourrais prochainement expliquer plus en détail comment mettre en route et utiliser le filtre anti-spam de Foxmail.

P.S.: Si vous souhaitez utiliser Foxmail pour relever vos messages Gmail, merci de lire ce billet.

0 Comments:

Post a Comment