Deep Web : définition, exemples et différence avec le dark web
Le deep web est probablement le concept le plus mal compris d'Internet. Confondu en permanence avec le dark web dans les médias grand public, présenté comme une zone obscure peuplée de criminels, il désigne en réalité une notion beaucoup plus banale : tout le contenu en ligne qui n'est pas indexé par Google, Bing ou les autres moteurs de recherche classiques. Votre boîte Gmail, votre compte bancaire, l'intranet de votre entreprise, les catalogues des bibliothèques universitaires, votre Google Drive : tous font partie du deep web. Ce guide explique clairement ce qu'est le deep web, sa taille réelle, ce qu'on y trouve concrètement, et surtout ce qu'il n'est pas — notamment l'équivalent du dark web.
⚫ Cette page est la vitrine. Le reste est ailleurs. Accès Tor →Qu'est-ce que le deep web ?
Le deep web (également appelé web profond ou invisible web) désigne l'ensemble des pages et contenus en ligne qui ne sont pas indexés par les moteurs de recherche classiques comme Google, Bing, DuckDuckGo ou Qwant. Le terme a été introduit en 2001 par Michael K. Bergman dans un article de recherche intitulé The Deep Web: Surfacing Hidden Value, qui tentait pour la première fois d'estimer la taille de cette partie non indexée d'Internet.
La définition tient en une phrase : si une page n'apparaît pas dans les résultats Google, elle fait partie du deep web. Cela inclut tout ce qui nécessite une authentification, une requête spécifique dans une base de données, un accès restreint, ou simplement l'absence de liens entrants permettant au robot de crawler de la découvrir. Le deep web n'est donc pas un endroit physique ni un réseau séparé : c'est une propriété de certaines pages (leur invisibilité aux crawlers de moteurs de recherche).
Taille réelle du deep web
Les estimations historiques de la taille du deep web datent essentiellement de l'article fondateur de Bergman en 2001. Il évaluait le deep web à environ 500 fois la taille du surface web de l'époque, soit sans doute un ordre de grandeur aujourd'hui dépassé par l'explosion des services cloud, des réseaux sociaux privés et des bases de données d'entreprise.
Les estimations modernes varient selon la méthodologie et ce qu'on choisit de compter (pages HTML seules, ou aussi fichiers multimédia, emails, bases de données), mais convergent toutes sur le même ordre de grandeur : le deep web représente environ 90 à 96 % du contenu total d'Internet. Le surface web (pages indexées par Google) n'est donc que la partie émergée d'un iceberg bien plus massif.
Pour mettre ces chiffres en perspective : Google indexe environ 60 à 100 milliards de pages web. Le deep web en contient probablement plusieurs dizaines de milliers de milliards, si l'on compte les emails privés, les messages instantanés, les fichiers cloud, les documents d'entreprise, les bases de données médicales, les archives gouvernementales accessibles seulement sur demande.
Exemples concrets de contenus du deep web
La meilleure manière de comprendre le deep web est de lister ce qu'il contient. La plupart des contenus vous sont parfaitement familiers.
Vos comptes personnels
- Votre boîte de réception Gmail, Outlook, ProtonMail, Yahoo
- Votre espace client bancaire (BNP, Crédit Agricole, Boursorama)
- Vos comptes de réseaux sociaux (zones privées, messages directs)
- Votre Google Drive, Dropbox, iCloud, OneDrive
- Vos abonnements Netflix, Spotify, Amazon Prime, Disney+
- Vos jeux vidéo en ligne et leurs historiques de partie
Services publics et institutionnels
- Impots.gouv.fr (votre espace personnel, pas le site public)
- Ameli (vos remboursements santé, vos ordonnances)
- Pôle Emploi, CAF (dossiers personnels)
- ENT (Environnement Numérique de Travail) des écoles et universités
- Catalogues de bibliothèques accessibles via requêtes spécifiques
Bases de données spécialisées
- PubMed, ScienceDirect, JSTOR (publications scientifiques payantes ou sous accès)
- Archives municipales et départementales
- Registres du commerce, de la propriété, cadastre
- Base INSEE des entreprises (SIRENE)
Contenus d'entreprise
- Intranets (SharePoint, Confluence, Slack, Teams internes)
- CRM (Salesforce, HubSpot avec données clients)
- ERP (SAP, Oracle)
- Outils de gestion de projet (Jira, Trello privé, Asana)
- Répertoires de documents d'entreprise
Cette liste montre l'ampleur du deep web et son caractère parfaitement ordinaire. Aucune de ces pages n'a de lien avec le dark web ou avec des activités criminelles — elles sont simplement protégées par authentification pour des raisons évidentes de confidentialité et de sécurité.
Deep web vs dark web : la confusion fréquente
La confusion entre deep web et dark web est l'erreur la plus répandue dans les articles grand public sur le sujet. Les deux termes désignent des réalités radicalement différentes. Pour un comparatif approfondi, consultez notre article dédié dark web vs deep web.
| Critère | Deep web | Dark web |
|---|---|---|
| Nature | Contenu non indexé par Google | Sites accessibles uniquement via Tor/I2P |
| Accès | Navigateur ordinaire + identifiants | Logiciel dédié (Tor Browser) |
| Taille | 90-96 % d'Internet | Moins de 0,01 % d'Internet |
| Anonymat | Aucun (authentification nominative) | Fort (routage en oignon) |
| Exemples | Gmail, intranet, compte bancaire | BBC .onion, SecureDrop, marketplaces |
| Légalité | Totalement légal et banal | Légal en tant que tel, contenu varié |
Le dark web est donc une sous-partie extrêmement minoritaire du deep web : toutes les pages .onion font partie du deep web (elles ne sont pas indexées par Google), mais l'immense majorité du deep web n'a rien à voir avec Tor ni avec l'anonymat. Dire « le deep web est dangereux » revient à dire que votre boîte Gmail est dangereuse.
Deep web vs surface web (clear web)
Le surface web (ou clear web) est le complément du deep web : tout ce qui est indexable et indexé par les moteurs de recherche classiques. C'est la partie d'Internet que vous consultez lorsque vous tapez une requête dans Google : sites d'actualités, blogs, Wikipedia, boutiques en ligne publiques, sites institutionnels, réseaux sociaux (zones publiques).
La frontière entre surface web et deep web est fluide et dépend des politiques des éditeurs : un article de journal gratuit mais derrière un paywall basique peut basculer du surface web au deep web si Google perd l'accès. À l'inverse, une page initialement privée peut devenir publique et indexable par un simple changement de permission. Le critère est opérationnel (est-ce dans l'index Google ?) et pas technique.
Pourquoi Google n'indexe pas le deep web
Plusieurs raisons expliquent que Google et les autres moteurs n'indexent pas la majorité des contenus en ligne.
Authentification requise
Le robot de Google (Googlebot) n'a pas vos identifiants. Il ne peut pas se connecter à votre compte Gmail ou à votre espace bancaire. Ces pages sont donc invisibles pour lui, non pas parce qu'elles sont techniquement cachées mais parce qu'il n'a pas les droits d'accès.
Instructions d'exclusion (robots.txt, noindex)
Les administrateurs de sites peuvent explicitement interdire l'indexation via un fichier robots.txt
ou des balises meta robots noindex. Googlebot respecte ces instructions (c'est d'ailleurs ce
qu'on a fait pour une page de cet annuaire). Les intranets, espaces de préprod, API internes utilisent
systématiquement ces mécanismes.
Contenu dynamique généré à la demande
De nombreuses pages n'existent que lorsqu'un utilisateur fait une requête spécifique : résultats de recherche sur un catalogue, formulaire de contact, générateur de documents personnalisés. Googlebot ne soumet pas de formulaires et ne découvre pas ces pages.
Absence de liens
Google découvre les pages en suivant les liens. Une page sans lien entrant depuis un site déjà indexé reste invisible, même si elle est techniquement accessible. C'est le cas de nombreuses pages d'archives municipales, de bases de données spécialisées ou de fichiers PDF hébergés sans référence publique.
Comment accéder au deep web
Vous accédez au deep web chaque jour, sans vous en rendre compte. Aucun outil particulier n'est requis : un navigateur ordinaire suffit, avec les bons identifiants.
- Se connecter à sa messagerie → deep web
- Consulter son compte bancaire en ligne → deep web
- Accéder à l'intranet de son entreprise → deep web
- Faire une recherche dans une base universitaire → deep web
- Ouvrir son espace personnel Ameli ou CAF → deep web
Pour accéder au dark web (sous-partie spécifique du deep web), la démarche est
différente : il faut installer Tor Browser et utiliser des adresses .onion.
Notre guide pas à pas comment aller sur le dark web détaille
la procédure complète.
Deep web et vie privée
Le deep web est fondamentalement lié à la protection de la vie privée. Si tout contenu en ligne était automatiquement indexable par Google, ce serait une catastrophe pour la confidentialité : vos emails, vos relevés bancaires, vos dossiers médicaux apparaîtraient dans les résultats de recherche. Les mécanismes techniques qui créent le deep web (authentification, accès restreint, contenu dynamique) sont précisément ce qui protège votre vie privée numérique.
Pour renforcer cette protection face au pistage publicitaire et à la surveillance commerciale ou étatique, les utilisateurs plus avertis se tournent vers des outils comme Tor, les VPN, les messageries chiffrées (ProtonMail, Signal) et les systèmes d'exploitation amnésiques (Tails OS). Consultez notre catégorie outils de vie privée pour les solutions disponibles.
Mythes sur le deep web
Plusieurs idées reçues circulent sur le deep web, souvent dérivées de la confusion avec le dark web. Pour un fact-checking systématique des mythes associés, consultez notre pilier 50 mythes du dark web démystifiés.
« Le deep web est dangereux »
Faux. Le deep web est parfaitement banal. Votre compte Gmail fait partie du deep web et n'a rien de dangereux. La confusion vient de l'assimilation médiatique deep web = dark web, qui est incorrecte.
« Le deep web contient des niveaux cachés »
Faux. L'iceberg à plusieurs niveaux (niveau 1, 2, 3, 4, 5, avec « Mariana's Web » au fond) est une construction fictive née sur 4chan vers 2011. Internet n'a pas de couches hiérarchisées : chaque contenu est soit accessible techniquement, soit non. Pour une déconstruction complète, voir notre article Mariana's Web : mythe ou réalité.
« Il faut un logiciel spécial pour le deep web »
Faux. Un navigateur ordinaire suffit, plus les identifiants requis pour accéder au contenu privé qui vous concerne. Tor n'est nécessaire que pour le dark web, qui est une minuscule sous-partie du deep web.