Guide de survie des aventures sur Internet

Les moteurs de recherche alternatifs

Fiche n°3 du Guide de survie des aventures sur Internet

, par CECIL, LDH, ritimo

Les moteurs de recherche (Google, Yahoo, Bing…) servent de porte d’entrée à la découverte de la multitude d’informations et contenus sur Internet. Ce sont des acteurs clés du Web et certains en profitent pour enregistrer les données sur les recherches effectuées par les personnes et les tracer. Au-delà de l’établissement de profils individuels, ils disposent ainsi d’informations sur les idées, comportements et pratiques des populations. Cela est susceptible de représenter un danger sérieux pour la vie privée de tous et l’équilibre de la société. La fiche « Moteurs de recherche alternatifs » présente des solutions qui, malgré leurs importantes limites, ont une politique plus respectueuse des libertés.

Outil central de nos pratiques sur Internet, un moteur de recherche permet de lancer une recherche sur un sujet, une personne, une organisation... à l’aide de différents critères et mots clefs afin d’identifier des contenus disponibles et pertinents. Cette façon de rechercher aisément des documents permet de vérifier rapidement l’existence, la notoriété et les sources d’une information. Malheureusement, mettre à disposition un moteur de recherche est complexe et le marché est contrôlé par des acteurs peu recommandables pour de nombreuses raisons : le trop célèbre Google, mais aussi Bing, Yahoo, le moteur russe Yandex ou le chinois Baidu. Même si la plupart de ces outils ont une « politique de confidentialité », les intérêts commerciaux de leurs éditeurs restent prioritaires face aux droits des individus. Ainsi, chaque recherche lancée s’accompagne d’une collecte discrète de données concernant les préférences de la personne ainsi que des données relatives à l’ordinateur utilisé. Par ce biais, les moteurs de recherche accumulent une quantité inimaginable de données sur les individus et la société dans son ensemble.

Ces informations sont monnayables voire utilisables pour du contrôle social. Le quasi-monopole du moteur de recherche de Google en Europe (90 % de parts de marché) lui donne donc un pouvoir redoutable. À côté de ces moteurs de recherche, de plus petits acteurs commerciaux (tels que DuckDuckGo, Qwant ou Startpage) fournissent un service qui s’appuie sur les bases de données des moteurs précités (on parle de « métamoteur »), mais limitent les données qu’ils leurs transmettent et peuvent constituer un choix intéressant pour la protection de ses données tels que Qwant, Startpage, Searx ou DuckDuckGo. S’il n’existe, à notre sens, aucune solution parfaitement fonctionnelle et éthique, il s’agit ici de présenter ces solutions, nécessairement dépendantes des géants du numérique ainsi que d’autres solutions moins dépendantes d’intérêts commerciaux, mais avec des contraintes pratiques, pour malgré tout, proposer des pistes aux personnes soucieuses de leur vie privée.

3.1 Les métamoteurs limitant le traçage publicitaire : DuckDuckGo, Qwant et Startpage

Face au géant Google, des acteurs essayent de se présenter en solution alternative pour les personnes soucieuses de limiter la place de Google et la collecte de leurs données personnelles. Malheureusement, réaliser un moteur de recherche n’est pas une mince affaire. En effet, pour pouvoir présenter des résultats de recherche à une requête, il faut déjà avoir réalisé une indexation des sites Internet existants ce qui impose une lourde infrastructure numérique et d’importantes capacités de stockage. Il est aussi très difficile de réussir à développer un algorithme qui va déterminer les résultats les plus pertinents pour satisfaire la demande – d’autant plus qu’une majorité de personnes sont habituées à la logique des résultats fournis par Google et à formuler des requêtes pertinentes pour ce moteur en particulier.

Il est donc très difficile de se lancer dans ce marché et cela requiert un très fort investissement financier. Un pari moins ambitieux, fait par différents acteurs, est de seulement essayer de remplacer «  l’interface de recherche  » – la page par laquelle les internautes vont réaliser cette recherche, voire d’essayer de moduler l’algorithme de tri des résultats, mais de ne pas réaliser les opérations d’indexation (ou en tout cas de s’appuyer principalement sur une base existante). En effet, pour des raisons commerciales et liées à des enjeux de concurrence, les moteurs de recherche réalisant l’indexation mettent à disposition des interfaces (ou « API ») permettant de faire des requêtes sur leur base de données indexées et fournir des résultats de recherche sans pour autant passer par leur site Internet.

C’est notamment le cas pour les moteurs Bing (de Microsoft) et Yahoo ! unis par une alliance, qui ont tout intérêt à ce que des personnes utilisent leurs indexations pour tenter de se renforcer face à Google (ultra dominant sur ce marché). Ils proposent ainsi à d’autres acteurs d’utiliser leurs résultats de recherche et souvent leur solution publicitaire (BingAds) sans passer par leurs sites. Des sites peuvent donc servir de vitrine de recherche qui donne l’apparence d’un petit acteur quand en réalité la majorité du service est produit par le géant Microsoft. C’est par exemple le cas de Lilo qui vend l’image de marque sociale/solidaire/écologique des associations (qui vont apporter leurs «  soutiens  ») auprès des régies publicitaires de Microsoft en nourrissant leur moteur de recherche «  outsider  » face à celui de Google, pour gagner de l’argent dont la moitié est reversée aux associations sans qui personne n’irait «  directement  » sur Bing. Idem pour Ecosia qui incite des personnes à utiliser Bing (sous la vitrine «  Ecosia  ») en échange d’une partie des revenus publicitaires servant à planter des arbres et à payer Ecosia.

On parle souvent de «  métamoteurs  » pour désigner ces services. Le terme s’est construit plutôt dans la perspective où une seule «  vitrine de recherche  » regroupe différentes «  indexations de recherche  » – les résultats de différents moteurs de recherche. On pourrait ainsi distinguer les services utilisant les résultats d’une seule source «  proxy/vitrine  » de recherche tels que Startpage, Ecosia ou Lilo et ceux utilisants différentes sources d’indexation qui seraient les réels « métamoteurs » : Qwant, DuckDuckGo et Searx par exemple. Malgré tout, le problème d’une dépendance forte à des géants commerciaux et à leurs bon vouloir / conditions commerciales reste le même dans les deux situations.

Cette forte limite étant posée, ces métamoteurs peuvent néanmoins offrir quelques avantages dans cette situation problématique. Qwant, DuckDuckGo et Startpage ont ainsi en commun :

  • de limiter fortement le traçage publicitaire : pas de cookies tiers ou traçants, pas d’outils de traçage direct, ils essayent de limiter l’envoi d’adresse IP aux moteurs d’indexation ou publicitaires utilisés, pas de personnalisation poussée des résultats (des personnalisation linguistique ou de contrôle parental peuvent être activées via des cookies non traçants) ;
  • de limiter des logs de données de connexion ;
  • de s’engager publiquement en faveur de la défense de la vie privée et soutenir des initiatives ou organisations en ce sens ;
  • de gagner des revenus avec des publicités sans profilage de l’internaute (mais potentiellement des publicités contextuelles liées à la recherche ou de l’affiliation).

Les trois sont donc pour l’essentiel similaires dans leur intérêt et limites principales, ils présentent toutefois des différences qui méritent d’être indiquées.

3.2 DuckDuckGo : un métamoteur assez complet

Lancé en 2008, DuckDuckGo est un métamoteur de recherche étasunien : il utilise son algorithme pour classer les résultats issus de nombreuses sources d’informations. Ainsi, si une grosse partie des résultats provient de Bing, une petite provient de sa propre indexation (DuckDuckBot) et d’autres moteurs spécialisés tels que Yelp ou des sources ouvertes comme Wikipedia. Sans utiliser la base de données de Google, ses résultats restent souvent pertinents. L’entreprise semble stable et sa longévité dans le secteur l’a amenée à développer des fonctionnalités intéressantes comme les «   !bangs  ».

En plus de donner des résultats «  directs  », tels que des extraits de fiches Wikipedia ou des cartes OpenStreetMap, il peut faire des recherches spécifiques (date, lieu…) et même rechercher sur un autre moteur via DuckDuckGo. Par exemple, en indiquant « !t la requête », on est automatiquement redirigé vers le thesaurus. Ainsi, il est possible d’avoir les résultats de Google via Startpage (« !sp la requête » ou dans le pire des cas... !g « la requête »).

DuckDuckGo est aussi accessible par une adresse Onion sur le réseau Tor (voir fiche 10).

La solution reste loin d’être parfaite. Le siège social de DuckDuckGo est situé aux États-Unis (en Pennsylvanie). L’entreprise est donc soumise à la loi étasunienne (Cloud et Patriot Act) et potentiellement à des injonctions judiciaires ou administratives d’enregistrement et de transmission de données. Le moteur se défend toutefois de cette possibilité et indique qu’il ne s’y soumettrait pas.

DuckDuckGo affiche des publicités non traçantes – principalement via la solution publicitaire de Microsoft, a des partenariats commerciaux pour afficher d’autres publicités (avec Amazon et Ebay par exemple), elle paye aussi elle-même des campagnes publicitaires assez conséquentes et reste fortement dépendante de Microsoft Bing – si bien que fin mai 2022 le chercheur Zach Edwards a découvert que les applications mobiles iOs et android de DuckDuckGo laissaient fuiter des informations aux trackers de Microsoft...

3.3 Qwant : un projet français

La société Qwant, située en France, a une politique de protection des données. Pour certaines requêtes, les résultats de pages Web sont complétés automatiquement par des résultats issus d’articles de la presse en ligne, de Wikipédia et d’images permettant potentiellement d’accéder plus rapidement à l’information ou au contenu désiré.

Par rapport aux autres acteurs présentés, Qwant a le mérite d’essayer de développer son propre moteur et donc sa propre indexation du Web afin de limiter sa dépendance. Néanmoins – malgré un fort soutien – notamment de fonds publics – beaucoup de ses promesses se sont avérées trompeuses et sa dépendance à Bing pour fournir ses résultats semble encore très conséquente.

Si la localisation française est un atout d’un point de vue fiscal et en termes de respect du droit européen sur la protection des données, cela soumet aussi la société à la législation française sur le renseignement. Même sans surveillance, Qwant fonctionne malgré tout via un modèle publicitaire soutenu par du capital-investissement et son équilibre financier reste très incertain (il a risqué la faillite en 2022). L’entreprise et son ancien dirigeant ont aussi été épinglés il y a quelques années par la presse pour des pratiques sociales très problématiques (voir les articles concernant Qwant sur le site NextInpact). Rachetée en 2023 par Synfonium – le groupe d’OVH – ce service est appelé à changer.

3.4 Startpage : Google en limitant le traçage

Basée aux Pays-Bas, Startpage est, depuis 2006, une vitrine de recherche des résultats de Google en limitant le traçage. Startpage prône comme politique le respect intégral de la vie privée de l’internaute et de ses informations personnelles. Contrairement à DuckDuckGo, installé aux États-Unis et soumis à la législation américaine, Startpage est aux Pays-Bas. Il est donc soumis à la législation européenne et travaille avec la CNIL néerlandaise. Il ne dispose pas de son propre algorithme d’indexation et de recherche et fournit les seuls résultats de Google. Dans leurs mots « vous obtenez les résultats Internet du moteur de recherche le plus renommé avec la protection de la confidentialité du moteur de recherche le plus privé au monde ». Startpage offre aussi la possibilité d’une lecture de page par le « proxy » – l’intermédiaire de leurs services – le site visé ne recevant donc que l’adresse IP de Startpage et pas celle de l’ordinateur (pour plus d’informations voir la fiche 10). Pour y accéder il faut cliquer sur le petit masque à gauche des liens des résultats de Startpage.

Startpage a été rachetée en 2019 par «  Privacy One Group  », détenu par System1, une entreprise spécialisée dans la publicité notamment ciblée, ce qui constitue une crainte légitime pour les évolutions futures, même s’il serait étrange pour Startpage de trahir ses engagements sur l’absence de traçage. Startpage est dépendant de Google pour ses résultats de recherche et se finance par le biais du programme publicitaire de Google : Adsense, ce qui implique certaines formes de traçage indirect. Sans pouvoir associer l’adresse IP à la recherche, Google aura quand même connaissance de caractéristiques techniques de la recherche (mots-clés, heure, indication linguistique, affichage de la publicité, etc.) et pourra reprendre le traçage si l’internaute clique sur un lien publicitaire.

Avec toutes ces limites, DuckDuckGo, Qwant et Startpage constituent toutefois des alternatives imparfaites, mais à privilégier au monopole de Google et à sa propension à vendre notre vie privée.

Pour changer de moteur de recherche par défaut sur Firefox et essayer ces moteurs :

  • cliquer sur les trois barres des options en haut à droite de Firefox ;
  • choisir « Paramètres ». Il est aussi possible de taper « about:preferences » dans la barre d’adresse ;
  • aller dans l’onglet « Recherche » – il est alors possible de changer le moteur de recherche par défaut.
    Tout en bas de la page il est aussi possible de «  Découvrir d’autres moteurs de recherche  » qui renvoie vers la page : addons.mozilla.org/fr/firefox/extensions/category/search-tools/ et de sélectionner un moteur de recherche pour l’ajouter.

D’autres initiatives intéressantes existent, SearXNG, Meta-Press.es ou encore Yacy.net.

3.5 Yacy : un projet à soutenir

Yacy est particulièrement intéressant d’un point de vue du respect de l’utilisateur. Il est sous licence libre, ne stocke pas de données personnelles, a un fonctionnement décentralisé, ne comporte pas de publicité, etc. Il est toutefois différent des autres moteurs en ce qu’il requiert l’installation d’un logiciel sur sa machine personnelle. Fonctionnant sur un modèle « de pair-à-pair » pour l’indexation des pages, il n’y a pas de serveur central.

C’est un avantage, mais cela implique une coopération active de personnes prêtes à jouer le rôle de pair/serveur décentralisé. Sans être totalement prêt à remplacer un moteur de recherche classique pour des usages habituels, il s’agit vraiment d’un projet à découvrir et à soutenir.

3.6 Meta-press.es : un métamoteur local pour explorer la presse

Meta-Press.es est un module complémentaire pour Firefox, qui permet de faire des recherches sur les nombreux sites de presse référencés sans l’intermédiaire d’un autre moteur de recherche. La requête est générée par le navigateur de l’utilisat·ice qui la réalise en interrogeant directement les sites de presse concernés : sans intermédiaire, ni centre de données, ni traçage publicitaire. L’outil est configurable (langue, type de résultat...) et en utilisation avancée il est possible de le configurer pour ne viser que les sites nous intéressant. De plus, Meta-Press.es permet de programmer des recherches, de sélectionner des résultats et d’exporter une revue de presse.

Il est restreint aux sources qui sont présentes dans le module, mais il est possible de contribuer pour en ajouter d’autres.

3.7 SearXNG : un logiciel pour héberger son métamoteur

SearXNG (s’appuyant sur SearX en continuant les développements) est un logiciel libre permettant de déployer un métamoteur de recherche. Installé, il permet d’offrir une page pour réaliser des recherches sur différents moteurs de recherche choisis en mélangeant les données et sans les conserver. Ce qui limite le traçage. La solution a toutefois ses limites car elle ne s’appuie pas sur des partenariats avec les gros moteurs de recherche et reproduit en quelque sortes des requêtes comme si elles venaient d’individus. Ainsi les éditeurs de moteur de recherche peuvent bloquer les requêtes s’ils les trouvent trop conséquentes. SearXNG peut constituer une bonne solution pour les personnes de confiance (auto)hébergeant des services pour un petit nombre de personnes et il est également possible d’utiliser cette alternative via une multitude de déploiements de ce service disponibles sur Searx.space ou pour une présélection sur Alt.framasoft.org.

3.8 Les moteurs de recherche interne à des sites

De nombreux sites disposent de leur propre moteur de recherche interne. Certains de ces moteurs spécifiques peuvent être utilisés directement en les installant dans la barre de recherche de Firefox. Ainsi, si on cherche fréquemment un article de Wikipédia, une définition précise sur le Portail lexical du CNRS ou une aide à la traduction sur Linguee.fr, nul est besoin de l’intermédiation d’un moteur généraliste, que ce soit Google ou DuckDuckGo. On peut ajouter ces moteurs à sa barre de recherche.
Sur Firefox  : dans l’onglet recherche des paramètres activer « Ajouter la barre de recherche à la barre d’outils » qui permet ensuite en un clic de rajouter un moteur de recherche dans la liste.

Une fois sur la page d’accueil du moteur/site, cliquer sur l’icône en forme de loupe avec un + de la barre de recherche de Firefox et cliquer sur l’icône du moteur avec un petit + vert « Ajouter le moteur » et il sera mémorisé et directement actionnable via la petite barre de recherche.

Ensuite, on peut cliquer sur la loupe quand on s’apprête à faire une recherche puis cliquer sur l’icône du moteur voulu pour cette seule recherche. Il est aussi possible de regarder si le moteur est référencé dans la base de Mozilla et l’ajouter par ce biais.