Aller au contenu

Expérience et Prédiction/V. Probabilité et Induction

La bibliothèque libre.
Traduction par des contributeurs de Wikisource .
The University of Chicago Press (p. 295-404).




CHAPTER V

PROBABILITY AND INDUCTION


PROBABILITY AND INDUCTION

CHAPTER V

§ 32 Les deux formes du concept de probabilité

Le concept de probabilité a été représenté dans les enquêtes précédentes par le concept de poids. Cependant, nous n’avons pas fait grand usage de cette équivalence ; nous avons traité le concept de poids de manière indépendante, sans tenir compte des délimitations qu’implique son équivalence présumée avec le concept de probabilité. Nous avons montré qu’il existe un tel concept de poids, que la connaissance en a besoin dans le sens d’une valeur prédictive, et qu’il est appliqué dans le langage courant aussi bien que dans les propositions scientifiques — mais nous ne sommes pas entrés dans une analyse du concept, nous appuyant sur une compréhension profane de ce que nous voulions dire par le terme. Nous avons utilisé le fait que le maniement d’un concept peut précéder l’analyse de sa structure. Nous avons construit le triplet de prédicats — signification, valeur de vérité et poids — et constaté que c’est à ce dernier concept que les autres se réduisent. La vérité s’est révélée n’être qu’un poids élevé et ne doit pas être considérée comme autre chose qu’une idéalisation approximativement valable pour certaines fins pratiques ; la signification a été réduite à la vérité et au poids par la théorie de la vérifiabilité ; nous avons ainsi trouvé que la place logique du concept de poids est au fondement même de la connaissance. Il nous reste maintenant à entrer dans l’analyse de ce concept et à prouver son équivalence avec le concept de probabilité ; nous pouvons aussi espérer clarifier ses fonctions par leur dérivation d’un concept aussi définitivement déterminé que le concept de probabilité.

En nous attelant à cette tâche, nous nous heurtons au fait qu’il existe deux applications différentes du concept de probabilité, dont une seule semble être identique au concept de poids tel que nous l’avons introduit. Au début de notre enquête sur la nature de la probabilité, nous nous trouvons confrontés à la nécessité d’étudier cette distinction ; nous devons nous demander si nous sommes justifiés de parler d’un seul concept de probabilité comprenant les deux applications.

Il y a, tout d’abord, le concept bien déterminé de probabilité que l’on retrouve en mathématiques, en physique mathématique et dans tous les types de statistiques. Ce concept mathématique de probabilité est devenu l’objet d’une discipline mathématique, le calcul des probabilités ; ses qualités ont été exactement formulées en langage mathématique, et son application a trouvé une analyse détaillée dans les méthodes bien connues de la statistique mathématique. Bien que cette discipline soit relativement jeune, elle a été développée jusqu’à un haut degré de perfection. Cette évolution commence avec les recherches de Pascal et Fermat sur la théorie des jeux de hasard, passe par les travaux fondamentaux de Laplace et Gauss, et se poursuit de nos jours dans le travail approfondi d’un grand nombre de mathématiciens. Toute tentative de théorie de ce concept mathématique de probabilité doit partir de sa forme mathématique. Les mathématiciens se sont donc efforcés de clarifier les fondements de ce concept ; parmi les chercheurs modernes sur ce sujet, on peut citer les noms de v. Mises, Tornier, Dörge, Copeland et Kolmogoroff.

Il existe cependant un second concept de probabilité qui ne se présente pas sous une forme mathématique. Il s’agit du concept qui apparaît dans la conversation sous la forme de « probablement », « vraisemblablement », « présumablement » ; son application n’est cependant pas limitée au langage familier mais s’étend également au langage scientifique, où les suppositions et les conjectures ne peuvent pas être évité. Nous nous prononçons sur les déclarations scientifiques et les théories scientifiques non pas avec la prétention de certitude, mais dans le sens de suppositions probables, ou hautement probables. Le terme « probable » utilisé ici n’est pas soumis aux méthodes statistiques. Ce concept logique de probabilité, bien qu’indispensable à la construction de la connaissance, n’a pas trouvé la détermination exacte qui a été construite pour le concept mathématique. Il est vrai que les logiciens de tous les temps se sont penchés sur ce concept, d’Aristote à nos jours ; le traitement scientifique de ce concept est donc beaucoup plus ancien que celui du concept mathématique qui a commencé avec les recherches de Pascal et Fermat. Mais la théorie du concept logique de probabilité n’a pas pu atteindre le même degré de perfection que la théorie du concept mathématique de probabilité.

Le grand mérite des créateurs de la logistique a été d’envisager, dès le début, une logique des probabilités qui devait être aussi exacte que la logique de la vérité. Leibnitz avait déjà demandé « une nouvelle espèce de logique, qui traiterait des degrés de probabilité » ; mais cette demande d’une logique des probabilités, comme son projet d’un calcul de la logique de la vérité, ne s’est concrétisée qu’au dix-neuvième siècle. Après quelques tentatives de De Morgan, c’est Boole qui développa le premier calcul complet d’une logique des probabilités, qui, malgré quelques erreurs corrigées plus tard par Peirce, doit être considéré comme la plus grande avancée dans l’histoire du concept logique de probabilité depuis Aristote. Ce fut un signe prophétique que l’exposition de cette logique des probabilités ait été donnée dans l’ouvrage même qui est à la base du développement moderne de la logique de la vérité et de la fausseté : dans les Lois de la Pensée de Boole. Dans les développements ultérieurs, les problèmes de la logique de la vérité ont pris une ampleur beaucoup plus grande ; la logique des probabilités n’a été poursuivie que par des auteurs isolés, parmi lesquels on peut citer Venn et Peirce, et parmi les écrivains contemporains, Keynes, Lukasiewicz et Zawirski.

Si l’on considère ces deux lignes de développement, on peut supposer qu’elles sont sous-tendues par deux concepts qui peuvent présenter certaines similitudes et connexions, mais qui sont, dans leur nature logique, totalement disparates. Cette conception de la disparité des deux concepts de probabilité a en effet été maintenue par un grand nombre d’auteurs, sous la forme soit d’une hypothèse consciente, soit d’une hypothèse tacite. D’autre part, on a soutenu l’idée que la différence apparente des deux concepts n’est que superficielle, qu’un examen plus approfondi les révèle identiques, et que ce n’est que sur la base d’une conception de l’identité que l’on peut obtenir une compréhension plus profonde des deux concepts de probabilité. La lutte entre ces deux conceptions occupe dans une large mesure la discussion philosophique du problème des probabilités. L’enjeu de cette lutte est, en effet, de la plus haute importance : puisque la théorie du concept mathématique de probabilité a été développée jusqu’à une solution satisfaisante, la conception de l’identité conduit à une solution du problème philosophique de la probabilité dans son ensemble, alors que la conception de la disparité laisse le problème du concept logique de probabilité dans un état plutôt vague et insatisfaisant. Cette dernière conséquence provient du fait qu’une théorie satisfaisante de ce concept, différent du concept mathématique, n’a pas encore été présentée.

La conception de la disparité trouve son origine dans le fait que le concept mathématique de probabilité est interprété en termes de fréquence, alors que le concept logique de probabilité semble être d’un type tout à fait différent.

En effet, le grand succès de la théorie mathématique des probabilités est dû au fait qu’elle a été développée comme une théorie des fréquences relatives. Il est vrai que la définition originale de degré de probabilité interprétée pour une application aux jeux de hasard n’était pas de type fréquentiel ; Laplace a donné la fameuse formulation du rapport des cas favorables aux cas possibles, valable sous le présupposé controversé de cas « également possibles ». Cette définition, apparemment naturelle pour les cas du type du dé, a cependant été abandonnée dans toutes les applications de la théorie à des cas de valeur pratique : les statisticiens de toutes sortes n’ont pas demandé les cas « également possibles » de Laplace mais ont interprété la valeur numérique de la probabilité par le rapport de deux fréquences — la fréquence des événements de la classe plus étroite considérée et la fréquence des événements de la classe plus large à laquelle la probabilité se réfère. Les tables de mortalité des compagnies d’assurance-vie ne sont pas basées sur des hypothèses de cas « également possibles » ; les probabilités qui y figurent sont calculées sous forme de fractions dont le numérateur est donné par la classe des cas de décès, et dont le dénominateur est déterminé par la classe de la population à laquelle se rapportent les statistiques. La fréquence relative ainsi obtenue s’est révélée être une interprétation du degré de probabilité beaucoup plus utile que celle de Laplace. Les extensions considérables de la théorie mathématique, indiquées par des concepts tels que la moyenne, la dispersion, l’erreur moyenne, la fonction de probabilité et la loi de Gauss, sont dues à l’abandon définitif de la définition de Laplace et au passage à la théorie de la fréquence.

Le concept logique de probabilité, au contraire, semble indépendant de l’interprétation des fréquences qui, pour de nombreux cas de probabilité logique, ne semble pas du tout applicable. Nous demandons la probabilité d’événements déterminés, par exemple qu’il fasse beau demain, ou que Jules César ait été en Grande-Bretagne ; il n’y a pas de concept statistique exprimé dans la question. C’est le problème de la probabilité du cas unique qui constitue l’origine de la théorie des disparités ; des auteurs comme Keynes[1] fondent donc leur concept de probabilité logique essentiellement sur ce problème.

Ces auteurs vont même jusqu’à refuser une valeur numérique à la probabilité logique. Keynes a développé l’idée que la probabilité logique ne vise qu’à établir un ordre, une série déterminée par les concepts de « plus probable » et « moins probable », dans laquelle les concepts métriques tels que « deux fois plus probable » n’interviennent pas. Ces idées ont été reprises par Popper.[2] Pour ces auteurs, la probabilité logique est un concept purement topologique. D’autres auteurs ne veulent pas admettre une telle restriction. Leur concept de probabilité logique est métrique, mais pas de type fréquentiel. La probabilité logique, disent-ils, s’intéresse au « degré rationnel d’espérance », un concept qui s’applique déjà à un seul événement. C’est ici que les cas « également possibles » de Laplace trouvent leur champ d’application en fournissant le point d’appui pour la détermination du degré d’espérance qu’un être raisonnable devrait apprendre à mettre à la place de sentiments aussi déraisonnables que l’espoir et la crainte.

Il nous appartiendra d’abord d’entrer dans la discussion de ces questions. Nous devons trancher en faveur de la conception de la disparité ou de la conception de l’identité des deux formes du concept de probabilité.

§ 33. Conception de la disparité ou conception de l’identité ?

La conception de la disparité est parfois justifiée en disant que le concept mathématique de probabilité énonce une propriété des événements, alors que le concept logique de probabilité énonce une propriété des propositions.

Si c’était là tout le contenu de la conception de la disparité, nous ne l’attaquerions pas ; car il est effectivement possible de faire une telle distinction. Si nous interprétons la probabilité comme une fréquence d’événements, un énoncé de probabilité portera sur des événements ; si nous considérons, au contraire, la probabilité comme une généralisation de la vérité, nous devons concevoir la probabilité comme portant sur des propositions. Ceci est rendu nécessaire par la nature du concept de vérité ; seules les propositions, et non les choses, peuvent être appelées vraies, et notre prédicat de poids que nous voulons identifier avec la probabilité a été introduit également comme un prédicat de propositions. Mais, si nous appliquons ces réflexions au concept de probabilité, nous constatons qu’elles n’ont qu’une signification formelle et ne touchent pas le problème central de la conception de la disparité. En effet, si l’on interprète le concept logique de probabilité également par une fréquence, les deux concepts deviennent isomorphes ; le concept mathématique est alors interprété par une fréquence d’événements, et le concept logique par une fréquence de propositions sur les événements.[3] Ce que la conception de l’identité veut maintenir, c’est seulement l’applicabilité de l’interprétation de la fréquence au concept logique de probabilité ; on voit ainsi que la thèse de la conception de l’identité est, à proprement parler, un isomorphisme des deux concepts, ou une identité structurelle. Même du point de vue de la conception de l’identité, on peut donc considérer le concept logique de probabilité comme un concept d’un niveau linguistique supérieur : une telle distinction n’entraîne aucune difficulté pour la théorie des probabilités, puisqu’on est de toute façon obligé d’introduire une échelle infinie de probabilités de niveaux logiques différents (cf. § 41).

Il y a un deuxième sens dans lequel il faut parler ici d’identité. Si l’on accepte l’interprétation fréquentielle pour le concept logique, ce concept peut être appliqué également aux énoncés de statistiques mathématiques : c’est-à-dire que même les énoncés purement statistiques admettent à la fois la conception mathématique et la conception logique de la probabilité. Un énoncé sur la probabilité de décès par tuberculose peut donc être interprété comme concernant des statistiques de cas de tuberculose, ou comme concernant des statistiques de propositions sur des cas de tuberculose. D’autre part, les exemples donnés pour une signification logique du concept de probabilité admettent également les deux interprétations.

C’est pourquoi nous utiliserons dans la suite des recherches le terme de « conception de l’identité » sans toujours mentionner qu’il s’agit, à proprement parler, d’une différence de niveaux logiques. Nous utilisons ici le mot « identité » dans le sens d’une identité de structure, et notre thèse revient à maintenir l’applicabilité de l’interprétation fréquentielle à tous les concepts de probabilité.

C’est à cette thèse que s’attaque la conception de la disparité. Nous aurons à discuter cette question maintenant ; si nous ne pouvons admettre la conception de la disparité, c’est parce que cette conception entraîne des conséquences incompatibles avec les principes de l’empirisme.

Il y a d’abord le principe de vérifiabilité qui ne peut être mené à bien dans le cadre de la conception de la disparité. Si l’on admet une probabilité d’un événement unique, au sens d’une valeur prédictive, c’est-à-dire signifiant quelque chose concernant des événements futurs, il n’y a pas de possibilité de vérifier le degré de probabilité par l’observation de l’événement futur en question. Par exemple, nous lançons un dé et nous nous attendons, avec une probabilité de 5/6, à obtenir un nombre supérieur à 1 : comment le vérifier si nous observons un seul lancer ? Si l’événement attendu ne se produit pas, il ne s’agit pas d’une réfutation de la présomption car la probabilité 5/6 n’exclut pas le cas où le chiffre 1 se produirait. Si l’événement attendu se produit, ce n’est pas une preuve de la justesse de la présomption car la même chose pourrait se produire si la probabilité était de 1/6 seulement. Nous pourrions au moins dire que la survenance de l’événement est plus compatible avec la présomption que sa non-occurrence. Mais comment distinguer alors entre différents degrés de probabilité tous deux supérieurs à la moitié ? Si nous avions dit que la probabilité de l’événement n’est pas de 5/6 mais de 3/4, en quoi la vérification de cette présomption diffère-t-elle de celle de l’autre ?

La difficulté n’est pas levée si l’on tente de restreindre les énoncés de probabilité à de simples énoncés topologiques, en éliminant le degré de probabilité. Une affirmation du type « Cet événement est plus probable que l’autre » ne peut pas non plus être vérifiée si elle concerne un seul cas. Prenons deux événements qui s’excluent mutuellement et qui sont attendus avec des probabilités respectives de 1/6 et 1/4 ; le second peut se produire. Est-ce une preuve que cet événement était plus probable que l’autre ? Cela ne peut être soutenu car il n’existe pas de principe selon lequel l’événement le plus probable doit se produire. L’interprétation topologique de la probabilité logique est donc exposée aux mêmes objections que l’interprétation métrique.

Cette analyse met en évidence qu’une vérification ne peut être donnée si l’énoncé de la probabilité ne concerne qu’un seul cas. L’interprétation mono-cas de l’énoncé de probabilité n’est pas compatible avec la théorie de la vérifiabilité du sens car ni le degré ni l’ordre affirmés par l’énoncé de probabilité ne peuvent être contrôlés si l’on ne considère qu’un seul événement. L’un des principes élémentaires de l’empirisme est donc violé par cette interprétation.

La conception de la disparité pose une deuxième difficulté, si l’on veut déterminer quantitativement le degré de probabilité. Nous avons dit que, si l’on nie l’interprétation de la fréquence, le concept « également probable » exige une justification par le concept de « cas également possibles », comme dans la formulation de Laplace. Cela conduit toutefois à l’apriorisme. Comment connaître l’« égalité des possibilités » ? Les disciples de Laplace sont obligés d’admettre ici une sorte de jugement « synthétique a priori » ; le principe de « raison insuffisante » ou de « pas de raison contraire » ne fait que le maintenir sous une forme déguisée. Cela devient évident si nous passons à un énoncé de fréquence, qui dans de nombreux cas, comme pour les dés, est attaché à l’énoncé de « possibilité égale ». Comment savons-nous que la « possibilité égale » implique une fréquence égale ? Nous sommes obligés de supposer une correspondance entre la raison et la réalité, telle que Kant l’avait postulée.

Nous n’entrerons pas ici dans une discussion sur ce deuxième point, bien qu’il ait joué un rôle important dans les discussions philosophiques plus anciennes sur le problème des probabilités. Nous pouvons seulement mentionner que le problème des cas également probables, tels qu’ils se produisent dans les jeux de hasard, trouve une solution assez simple dans la théorie mathématique ; aucun présupposé tel que le principe de « pas de raison contraire » n’est nécessaire, et toute la question peut être réduite à des présupposés tels qu’ils se produisent dans la théorie fréquentiste de la probabilité.[4] Il est évident que la question n’aurait pas pris autant d’importance si la théorie fréquentiste de la probabilité avait été acceptée de manière approfondie. Le principal point de divergence dans la discussion entre la conception de la disparité et celle de l’identité est à rechercher dans le problème de l’interprétation du cas unique. Si l’on peut montrer que l’interprétation du cas unique est évitable et que les exemples qui semblent l’exiger peuvent être soumis à l’interprétation fréquentiste, la supériorité de la conception de l’identité est donc démontrée. Mener à bien cette conception revient donc à montrer que l’interprétation fréquentielle des probabilités peut toujours être appliquée. Nous allons maintenant nous demander si cela est possible.

Pour l’interprétation fréquentielle, une vérification du degré de probabilité est possible dès que l’événement peut être répété ; la fréquence observée dans une série d’événements est considérée comme un contrôle du degré de probabilité. Cette interprétation présuppose donc que l’événement n’est pas décrit comme un événement individuel mais comme un membre d’une classe ; la « répétition » de l’événement signifie son inclusion dans une classe d’événements similaires. Dans le cas du dé, cette classe est facile à construire ; elle est constituée des différents lancers du dé. Mais comment construire cette classe dans d’autres exemples, comme le cas d’un événement historique dont on parle avec une certaine probabilité, ou le cas de la validité d’une théorie scientifique que l’on suppose non pas avec certitude mais seulement avec plus ou moins de probabilité ?

Les adeptes de la conception de l’identité estiment qu’une telle classe peut toujours être construite et doit l’être si l’on veut que l’énoncé de probabilité ait un sens. L’origine de l’interprétation au cas par cas se trouve dans le fait que, dans de nombreux cas, la construction de la classe n’est pas aussi clairement déterminée que dans le cas du dé, ou dans le fait que le langage ordinaire supprime la référence à une classe et parle incorrectement d’un événement unique là où une classe d’événements devrait être considérée. Si nous gardons ce postulat clairement à l’esprit, nous constatons que la voie vers la construction de la classe correspondante est indiquée dans l’origine et l’utilisation des énoncés de probabilité. Pourquoi attribuons-nous, par exemple, une forte probabilité à l’affirmation selon laquelle Napoléon a eu une attaque de maladie lors de la bataille de Leipzig, et une probabilité plus faible à l’affirmation selon laquelle Caspar Hauser était le fils d’un prince ? C’est parce que des chroniques de types différents rapportent ces affirmations : l’une est fiable parce que ses affirmations, lors de fréquentes tentatives de contrôle, ont été confirmées ; l’autre n’est pas fiable parce que les tentatives de contrôle ont fréquemment conduit à la réfutation de l’affirmation. La transition vers le type de chronique indique la classe de l’interprétation de la fréquence ; la probabilité apparaissant dans les déclarations sur la maladie de Napoléon, ou la descendance de Caspar Hauser, doit être interprétée comme concernant une certaine classe de rapports historiques et trouve son interprétation statistique dans la fréquence des confirmations rencontrées à l’intérieur de cette classe. Ou encore, prenons une déclaration telle que celle prononcée par un médecin, lorsqu’il considère que la mort dans un certain cas de tuberculose est hautement probable : c’est la fréquence de la mort dans la classe des cas similaires qui est signifiée par le degré de probabilité apparaissant dans la déclaration.

Bien que l’on ne puisse nier que la classe correspondante est facilement déterminée dans de tels cas, une autre objection peut être soulevée à l’encontre de notre interprétation de l’énoncé de probabilité. Il est vrai, diront nos adversaires, que la fréquence au sein d’une telle classe est à l’origine de notre énoncé de probabilité ; mais l’énoncé concerne-t-il cette fréquence ? Le médecin fondera silencieusement sa prédiction de la mort de son patient sur des statistiques relatives à la tuberculose ; mais parle-t-il de telles statistiques lorsqu’il évoque le patient déterminé qu’il a devant lui ? Le patient peut être notre ami intime, c’est sa chance personnelle de mort ou de vie que nous voulons connaître ; si la réponse du médecin concerne une classe de cas similaires, cela peut être intéressant pour un statisticien mais pas pour nous qui voulons connaître le sort de notre ami. Peut-être fait-il partie du petit pourcentage de cas d’issue heureuse admis par les statistiques ; pourquoi devrions-nous croire à une forte probabilité de sa mort parce que les statistiques concernant d’autres personnes fournissent un pourcentage aussi élevé ?

C’est le problème de l’applicabilité de l’interprétation de la fréquence au cas unique qui est soulevé par cette objection. Ce problème joue un grand rôle dans la défense de la conception de la disparité ; on dit que la théorie de la fréquence peut au mieux fournir une justification du degré de probabilité mais qu’elle ne peut pas être acceptée comme son interprétation dès que l’on demande la probabilité d’un cas unique. L’objection semble très convaincante ; je ne pense pas, cependant, qu’elle tienne la route.

Une clarification du problème ne peut être donnée que par une analyse de la situation dans laquelle nous employons des énoncés de probabilité. Pourquoi demandons-nous la probabilité d’événements futurs, ou d’événements passés dont nous n’avons pas de connaissance certaine ? Nous pourrions nous contenter d’affirmer que nous ne connaissons pas leur valeur de vérité — cette attitude aurait l’avantage de ne pas être exposée à la critique logique. Si nous ne sommes pas d’accord avec une telle proposition, c’est parce que nous ne pouvons pas renoncer à une décision concernant l’événement au moment où nous sommes confrontés à la nécessité d’agir. L’action exige une décision sur des événements inconnus ; en essayant de rendre cette décision aussi favorable que possible, l’application d’énoncés de probabilité devient inévitable. Cette réflexion détermine la manière dont l’interprétation des énoncés de probabilité doit être recherchée : la signification des énoncés de probabilité doit être déterminée de manière à ce que notre comportement en les utilisant pour l’action puisse être justifié.

C’est dans ce sens que l’interprétation de la fréquence des énoncés de probabilité peut être effectuée, même si c’est la survenance ou non d’un seul événement qui nous préoccupe. La préférence pour l’événement le plus probable est justifiée dans l’interprétation de la fréquence par le argument en termes de comportement est le plus favorable dans l’ensemble : si nous décidons de supposer la survenance de l’événement le plus probable, nous aurons à long terme le plus grand nombre de réussites. Ainsi, bien que l’événement individuel reste inconnu, nous avons intérêt à croire à la survenance de l’événement le plus probable tel que déterminé par l’interprétation de la fréquence ; malgré d’éventuels échecs, ce principe nous conduira au meilleur ratio de succès possible.

Quelques exemples peuvent illustrer ce point. Si l’on nous demande si la face 1 d’un dé apparaîtra ou non lors d’un lancer, il est plus sage de se prononcer pour « non-1 » car, si l’on poursuit l’expérience, on obtiendra à terme le plus grand nombre de succès. Si nous voulons faire une excursion demain et que la météo prévoit du mauvais temps, il vaut mieux ne pas y aller, non pas parce que la possibilité de beau temps est exclue, mais parce qu’en appliquant le principe qui sous-tend ce choix à toutes nos excursions, nous réduirons au minimum les cas de mauvais temps. Si le médecin nous dit que notre ami va probablement mourir, nous décidons qu’il vaut mieux le croire, non pas parce qu’il est impossible que notre ami survive à sa maladie, mais parce qu’une telle décision, appliquée de façon répétée dans des cas similaires, nous évitera bien des déceptions.

On pourrait objecter à l’interprétation de la fréquence que le principe du plus grand nombre de succès ne s’applique pas dans les cas où un seul membre de la classe concernée se réalise. Les lancers de dé, les excursions ou les cas de maladie sont des événements qui se répètent souvent ; mais qu’en est-il des autres cas où il n’y a pas de répétition ? Cette objection, cependant, conçoit la classe comme étant construite de manière trop étroite. Nous pouvons incorporer des événements de types très différents dans une même classe, au sens de l’interprétation de la fréquence, même si le degré de probabilité change d’un événement à l’autre. Le calcul des probabilités a développé un type de série de probabilités avec des probabilités changeantes ;[5] pour ce type, l’interprétation de la fréquence peut également être appliquée, la fréquence étant déterminée par la moyenne des probabilités qui se produisent. Ainsi, chaque action de notre vie s’inscrit dans une série d’actions. Si nous considérons les nombreuses actions de la vie quotidienne qui présupposent le concept de probabilité — nous appuyons sur le bouton électrique de la porte parce qu’il y a une probabilité que la sonnette retentisse, nous postons une lettre parce qu’il y a une probabilité qu’elle arrive à l’adresse indiquée, nous allons à la station de tramway parce qu’il y a une certaine probabilité que le tramway vienne nous chercher, etc… — ces actions se combinent pour former une série assez longue dans laquelle l’interprétation de la fréquence est applicable. Les actions plus importantes peuvent être incluses dans une autre série, y compris les événements qui, dans un sens plus étroit, ne se répètent pas. L’ensemble de nos actions forme une série assez étendue qui, si elle n’était pas soumise au principe de l’hypothèse de l’événement le plus probable, conduirait à une diminution remarquable des succès.

Nous avons dit que nous faisions mieux de supposer l’événement le plus probable ; ceci nécessite une légère correction pour les cas où des degrés d’importance différents sont attachés aux cas qui s’offrent à notre choix. Si l’on nous propose un pari dans lequel les enjeux sont de dix contre un pour l’apparition du « numéro 1 » et d’un « numéro autre que 1 » sur la face du dé, il est bien sûr plus favorable de parier sur le « numéro 1 ». Cependant, c’est à nouveau l’interprétation de la fréquence qui justifie notre pari ; en raison des conditions du pari, nous gagnerons plus d’argent à long terme en misant ainsi. Ce cas est donc inclus dans notre principe de comportement le plus favorable dans l’ensemble. Au lieu d’une somme d’argent, ce peut être l’importance d’un événement qui assume une fonction analogue à celle des gains dans le jeu. Si nous attendons l’arrivée d’un ami avec la probabilité d’un tiers, nous ferions mieux d’aller à la gare pour le rencontrer. Dans cet exemple, l’inconvénient que notre ami arrive sans que nous soyons à la gare est tellement plus grand que l’inconvénient que nous y allions en vain que nous préférons avoir ce dernier inconvénient dans deux tiers des cas à avoir le premier inconvénient dans un tiers des cas. Ici, c’est encore l’interprétation de la fréquence qui justifie notre comportement ; si la probabilité d’arrivée de notre ami est d’un centième seulement, nous n’allons pas à la gare parce que notre inconvénient d’y aller quatre-vingt-dix-neuf fois en vain est plus grand que son inconvénient d’y arriver une fois sans notre présence.

Ces considérations apportent une solution au problème de l’applicabilité de l’interprétation de la fréquence au cas unique. Bien que le sens de l’énoncé de probabilité soit lié à une classe d’événements, l’énoncé est applicable aux actions concernant un seul événement. Le principe appliqué dans nos recherches précédentes, selon lequel il y a autant de sens dans les propositions qu’il est possible d’en utiliser pour les actions, devient une fois de plus directif et conduit à une détermination de la signification des énoncés de probabilité. Il n’est pas nécessaire d’introduire une « signification de cas unique » de l’énoncé de probabilité ; une « signification de classe » est suffisante car elle suffit à justifier l’application des énoncés de probabilité à des actions concernant des événements uniques. La conception de disparité des deux concepts de probabilité peut être éliminée ; le principe de la connexion du sens et de l’action décide en faveur de la conception d’identité.

§ 34. Le concept de poids

Avec ces considérations, la supériorité de la conception de l’identité est démontrée en principe. Mais, pour mener à bien cette conception de façon cohérente, nous sommes obligés de entrer dans une étude plus approfondie de la position logique des affirmations sur le cas unique.

Si c’est seulement la fréquence de la classe qui est impliquée dans l’énoncé de la probabilité, l’énoncé individuel sur le cas unique reste entièrement indéterminé tant qu’il n’est pas encore vérifié. Nous nous attendons, disons, à ce que des nombres autres que 1 apparaissent sur la face du dé avec une probabilité de 5/6 ; qu’est-ce que cela signifie pour le lancer individuel que nous avons devant nous ? Cela ne signifie pas : « Il est vrai qu’un nombre différent de 1 apparaîtra » ; et cela ne signifie pas : « Il est faux qu’un nombre différent de 1 apparaîtra ». Il faut encore ajouter qu’elle ne signifie pas : « Il est probable au degré 5/6 qu’un nombre autre que 1 apparaîtra » ; car le terme « probable » ne concerne que la classe, et non l’événement individuel. Nous voyons que l’énoncé individuel est énoncé comme n’étant ni vrai, ni faux, ni probable ; en quel sens est-il donc énoncé ?

C’est, dirons-nous, un posit[6] Nous posons l’événement auquel la probabilité la plus élevée appartient comme l’événement qui se produira. Nous ne disons pas pour autant que nous sommes convaincus de sa réalisation, que la proposition concernant sa réalisation est vraie ; nous décidons seulement de la traiter comme une proposition vraie. Le mot « posit » peut exprimer cette prise pour vraie, sans impliquer qu’il y ait une preuve de la vérité ; la raison pour laquelle nous décidons de prendre la proposition pour vraie est que cette décision conduit, dans des applications répétées, au plus grand ratio de succès.

Notre postulat, cependant, peut avoir de bonnes ou de mauvaises qualités. Si la probabilité qui lui est associée est grande, elle est bonne ; dans le cas contraire, elle est mauvaise. L’apparition de considérations de ce type est mieux observée lorsque l’on considère le joueur. Le joueur mise sur l’événement — c’est son posit ; il ne lui attribue pas pour autant une valeur de vérité déterminée — il dit cependant que le fait de poser l’événement représente pour lui une valeur déterminée. Cette valeur peut même être exprimée en termes d’argent — le montant de sa mise indique la valeur que le posit possède pour lui. Si nous analysons la manière dont cette valeur est appréciée, nous constatons qu’elle contient deux composantes : la première est la somme d’argent que l’homme gagnerait si son pari était couronné de succès ; la seconde est la probabilité de succès. Le produit arithmétique de ces deux composantes peut être considéré, en correspondance avec les concepts utilisés dans le calcul des probabilités, comme la mesure de la valeur que le pari a pour le joueur.[7] Nous voyons que, dans cette détermination de la valeur, la probabilité joue le rôle d’un poids ; le montant des gains possibles est pesé en termes de probabilité de succès, et seul le montant pesé détermine la valeur. On peut dire que : Un poids est ce que devient un degré de probabilité si on l’applique à un seul cas.

C’est l’origine logique du terme « poids » que nous avons utilisé tout au long des enquêtes précédentes. Nous comprenons maintenant pourquoi le poids peut être interprété comme la valeur prédictive de la phrase ; c’est la composante prédictive de la valeur totale de la phrase qui est mesurée par le poids. Cette interprétation permet de passer de la théorie de la fréquence au cas unique. L’énoncé d’un cas unique n’est pas prononcé par nous avec la prétention d’être un énoncé vrai ; il est prononcé sous la forme d’un postulat, ou comme nous pouvons aussi le dire — si nous préférons un mot établi — sous la forme d’un pari.[8] La fréquence au sein de la classe correspondante détermine, pour le cas unique, le poids du pari ou de la mise.

Le cas du jeu peut être considéré comme le paradigme de notre position face à des événements inconnus. Chaque fois qu’une prédiction est demandée, nous affrontons l’avenir comme un joueur ; nous ne pouvons rien dire de la vérité ou de la fausseté de l’événement en question — un postulat le concernant, cependant, possède pour nous un poids déterminé, qui peut être exprimé par un nombre. Un homme a une dette impayée, mais il ne sait pas si son débiteur s’acquittera un jour de sa responsabilité. S’il veut de l’argent aujourd’hui, il peut vendre sa créance pour un montant déterminé par la probabilité que le débiteur paie ; cette probabilité est donc une mesure de la valeur actuelle de la créance par rapport à sa valeur absolue et peut être appelée le poids de la créance. Nous nous plaçons de la même manière devant tout événement futur, qu’il s’agisse d’un emploi que nous espérons obtenir, du résultat d’une expérience physique, du lever du Soleil demain ou de la prochaine guerre mondiale. Toutes nos hypothèses concernant ces événements figurent dans notre liste d’attentes avec une valeur prédictive, un poids, déterminé par leur probabilité.

Toute déclaration concernant l’avenir est prononcée dans le sens d’un pari. Nous parions sur le fait que le Soleil se lèvera demain, qu’il y aura de la nourriture pour nous nourrir demain, que les lois physiques seront valables demain ; nous sommes tous des parieurs — l’homme de science, l’homme d’affaires et l’homme qui lance les dés. Comme ce dernier, nous connaissons les poids de nos mises ; et, s’il y a une différence en faveur du joueur scientifique, c’est seulement qu’il ne se contente pas de poids aussi faibles que ceux acceptés par le joueur aux dés. C’est la seule différence ; nous ne pouvons pas éviter de parier car c’est la seule façon de prendre en compte les événements futurs.

C’est le désir d’action qui rend nécessaire ce jeu. L’homme passif peut s’asseoir et attendre ce qui va se passer. L’homme actif qui veut déterminer son propre avenir, assurer sa nourriture, son logement, la vie de sa famille et le succès de son travail, est obligé d’être un joueur parce que la logique ne lui offre pas de meilleur moyen de gérer l’avenir. Il peut chercher les meilleurs paris possibles, c’est-à-dire ceux qui ont le plus de poids[9], et la science l’aidera à les trouver. Mais la logique ne peut lui fournir aucune garantie de succès.

Il reste quelques objections à notre théorie des poids qu’il convient maintenant d’analyser.

La première objection concerne la définition du poids appartenant à l’énoncé d’un seul événement. Si la probabilité appartient à une classe, sa valeur numérique est déterminée parce que pour une classe d’événements on peut déterminer une fréquence d’occurrence. Cependant, un événement unique appartient à plusieurs classes ; laquelle de ces classes devons-nous choisir pour déterminer le poids ? Supposons qu’un homme de quarante ans soit atteint de tuberculose ; nous voulons connaître la probabilité de son décès. Devons-nous considérer à cette fin la fréquence des décès dans la classe des hommes de quarante ans, ou dans la classe des tuberculeux ? Et il y a, bien sûr, beaucoup d’autres classes auxquelles l’homme appartient.

La réponse est, je pense, évidente. Nous prenons la classe la plus étroite pour laquelle nous disposons de statistiques fiables. Dans notre exemple, nous devrions prendre la classe des hommes tuberculeux de quarante ans. Plus la classe est étroite, meilleure est la détermination du poids. Ceci se justifie par l’interprétation de la fréquence, car le nombre de prédictions réussies sera le plus grand si nous choisissons la classe la plus étroite possible.[10] Un médecin prudent placera même l’homme en question dans une classe plus étroite en faisant une radiographie ; il utilisera alors comme poids du cas, la probabilité que la mort soit due à une condition du type de celle observée sur le film. Ce n’est que lorsque le passage à une nouvelle classe ne modifie pas la probabilité que celle-ci peut être négligée ; ainsi la classe des personnes dont le nom commence par la même lettre que le nom du malade peut être écartée.

La théorie de la conception classique de la causalité veut qu’en incluant le cas unique dans des classes de plus en plus étroites, la probabilité converge vers 1 ou vers 0, c’est-à-dire que l’occurrence ou la non-occurrence de l’événement est de plus en plus étroitement déterminée. Cette idée a été rejetée par la mécanique quantique, qui soutient qu’il existe une limite à la probabilité atteignable qui ne peut être dépassée, et que cette limite est inférieure à la certitude. Pour la vie pratique, cette question a peu d’importance, puisque nous devons de toute façon nous arrêter à une classe relativement éloignée de la limite. Le poids que nous utiliserons ne sera donc pas seulement déterminé par l’événement mais aussi par l’état de nos connaissances. Ce résultat de notre théorie semble très naturel, puisque nos paris ne peuvent que dépendre de l’état de nos connaissances.[11]

Une autre objection trouve son origine dans le fait que, dans de nombreux cas, nous ne sommes pas en mesure de déterminer une valeur numérique du poids. Quelle est la probabilité que César ait été en Grande-Bretagne, ou qu’il y ait une guerre l’année prochaine ? Il est vrai que nous ne pouvons pas, pour des raisons pratiques, déterminer cette probabilité ; mais je ne pense pas qu’il faille en déduire qu’il n’y a pas de probabilité déterminable par principe. Il ne s’agit que de l’état des connaissances scientifiques pour savoir s’il existe des bases statistiques pour la prédiction d’événements inconnus. On peut imaginer des méthodes de comptage du taux de réussite dans les rapports des chroniques historiques d’un certain type ; et les informations statistiques sur les guerres en relation avec les conditions sociologiques font partie du domaine des possibilités scientifiques.

On a fait valoir que dans de tels cas, nous ne connaissons qu’une comparaison de probabilités, un « plus probable » et un « moins probable ». Nous pourrions dire, par exemple, que cette année une guerre est moins probable que l’année dernière. Ce n’est pas faux ; il est certainement plus facile de connaître des déterminations d’ordre topologique que d’ordre métrique. Mais les premières n’excluent pas les secondes ; il n’y a aucune raison de supposer qu’une détermination métrique est impossible. Au contraire, la méthode statistique montre des moyens de trouver de telles déterminations métriques ; ce n’est qu’une question technique de savoir si l’on peut ou non les mener à bien.

De nombreux germes d’une détermination métrique des poids sont contenus dans les habitudes des affaires et de la vie quotidienne. L’habitude de parier sur presque toutes les choses inconnues mais qui nous intéresse montre que l’homme de la vie pratique en sait plus sur les poids que beaucoup de philosophes ne veulent bien l’admettre. Il a développé une méthode d’évaluation instinctive qui peut être comparée à l’évaluation d’un bon entrepreneur concernant les fonds nécessaires à l’ouverture d’une nouvelle usine, ou à l’évaluation par un officier d’artillerie des distances spatiales. Dans les deux cas, la détermination exacte par des méthodes quantitatives n’est pas exclue ; l’appréciation instinctive peut cependant en être un bon substitut. L’homme qui parie sur l’issue d’un match de boxe, d’une course de chevaux, d’une recherche scientifique ou d’un voyage d’exploration, fait appel à de telles évaluations instinctives du poids ; la hauteur de ses enjeux indique le poids évalué. Le système de poids qui sous-tend toutes nos actions ne possède pas la forme élaborée des tables de mortalité des compagnies d’assurance ; cependant, il présente des caractéristiques métriques aussi bien que topologiques, et il y a de bonnes raisons de penser qu’il peut être développé avec une plus grande exactitude par des méthodes statistiques.

§ 35. La logique des probabilités

La conception logique considère la probabilité comme une généralisation de la vérité ; ses règles doivent donc être développées sous la forme d’un système logique. C’est cette logique des probabilités que nous allons maintenant construire.

Supposons une classe de symboles donnés  ; il peut s’agir de propositions ou de quelque chose de semblable — ce point peut être laissé en suspens pour l’instant. À chaque symbole est coordonné un nombre dont la valeur varie entre et  ; nous l’appelons la probabilité appartenant au symbole et la désignons par

Par exemple, nous pouvons avoir

En outre, nous disposons de symboles logiques tels que les signes ¯ pour « pas », pour « ou », un point () pour « et », pour « implique » et pour « est équivalent à ». En effectuant avec ces signes des opérations basées sur le postulat que doit assumer des fonctions similaires à celles de la vérité et de la fausseté en logique ordinaire, nous obtenons une sorte de logique que nous appellerons logique des probabilités. Comme il n’y a pas d’autre détermination du terme w probabilité » tel qu’il apparaît ici, la logique des probabilités est un système formel, auquel nous pourrons donner des interprétations par la suite.

La manière dont nous allons développer ce système formel n’est pas, logiquement parlant, suffisamment déterminée. Nous pourrions inventer n’importe quel système de règles et l’appeler logique des probabilités. C’est la raison pour laquelle le problème de la logique des probabilités, et le problème connexe d’une logique de la modalité, ont récemment donné lieu à de vives discussions ; on nous a présenté un grand nombre de systèmes ingénieux, en particulier dans le cas de la logique de la modalité, les avantages de chacun étant soulignés par leurs différents auteurs. Je ne pense pas, cependant, que la question soit tranchée par l’élégance logique, ou par d’autres avantages logiques des systèmes proposés. La logique que nous recherchons doit correspondre à la pratique de la science ; et comme la science a développé les qualités du concept de probabilité d’une manière très déterminée, il ne nous reste, pratiquement, aucun choix. Cela signifie que les lois de la logique des probabilités doivent être conformes aux lois du calcul mathématique des probabilités ; par cette relation, la structure de la logique des probabilités est entièrement déterminée. Une remarque similaire s’applique à la logique de la modalité ; les concepts de « possibilité », « nécessité » et autres, considérés ici sont utilisés dans la pratique comme un cadre topologique du concept de probabilité ; leur structure doit donc être formulée dans des systèmes déductibles du système général de la logique des probabilités. La construction de ce système au moyen d’une déduction des règles du calcul mathématique des probabilités est donc le problème fondamental de tout le domaine. Cette construction a été réalisée, mais nous ne pouvons pas la présenter en détail et nous devons nous contenter d’en rapporter les résultats.[12]

Les règles de la logique des probabilités ressemblent aux règles de la logique ordinaire ou alternative (on parle aussi de « logique à deux valeurs »). Cependant, il existe deux différences décisives.

La première est que la « valeur de vérité » des symboles n’est pas liée aux deux valeurs « vérité » et « fausseté », qui peuvent être désignées par et , mais varie continuellement dans tout l’intervalle de à .

La seconde est une différence concernant les règles. Dans la logique alternative, la valeur de vérité d’une combinaison , ou , etc. est déterminée si les valeurs de vérité de et sont données individuellement. Si nous savons que est vrai et que est vrai, alors nous savons que est vrai ; ou, si nous savons que est vrai et que est faux, nous savons que est vrai, alors que dans ce cas serait faux. Une telle règle ne s’applique pas à la logique des probabilités. Nous ne pouvons pas entrer ici dans une justification détaillée de cette affirmation ; nous ne pouvons que résumer les résultats obtenus.[13] Il s’avère que la « valeur de vérité » d’une combinaison de et n’est déterminée que si, en plus des « valeurs de vérité » de et séparément, la « valeur de vérité » de l’une des autres combinaisons est donnée. C’est-à-dire : si et sont données, la valeur de , ou de , et ainsi de suite, n’est pas déterminée ; il peut y avoir des cas où et sont respectivement égaux, alors que et sont différents. Toutefois, si la « valeur de vérité » de l’une des combinaisons est connue, celle des autres peut être calculée. On peut, par exemple, introduire comme troisième paramètre indépendant et déterminer ensuite les « valeurs de vérité » des autres combinaisons en fonction de , et . Nous avons, par exemple, la formule

(1)

La nécessité d’un troisième paramètre pour la détermination de la « valeur de vérité » des combinaisons distingue la logique probabiliste de la logique alternative ; elle ne peut être éliminée mais provient d’une indétermination correspondante dans le calcul mathématique. Si et désignent les faces et d’un même dé, on a

car les faces ne peuvent pas se trouver ensemble ; la probabilité de la disjonction devient alors , ce qui découle de

et de notre formule (1). Si au contraire et désignent les faces numérotées de deux dés lancés ensemble, on a en raison de l’indépendance des lancers[14]

et notre formule (1) fournit pour la probabilité de la disjonction, conformément aux règles bien connues du calcul des probabilités.

Une formule similaire est développée pour l’implication. On montre qu’elle est

(2)

Ce cas diffère de celui de la disjonction dans la mesure où deux indications, la probabilité de et celle du produit , suffisent à déterminer la probabilité de l’implication ; cette dernière probabilité s’avère indépendante de la probabilité de . On ne peut cependant pas remplacer l’indication de par celle de  ; cela laisserait la probabilité de l’implication indéterminée.

Pour l’équivalence, l’équation est

(3)

Dans ce cas, les trois probabilités , et sont à nouveau nécessaires pour déterminer la probabilité du terme du côté gauche de l’équivalence.

Ce n’est que pour la négation que l’on obtient une formule similaire à celle de la logique alternative :

(4)

La probabilité de suffit à déterminer celle de .

Ces formules indiquent une structure logique plus générale que celle de la logique bivalente ; elles la contiennent cependant comme un cas particulier. On le voit aisément : si l’on restreint la valeur numérique de et aux nombres et , les formules ()-() fournissent automatiquement les relations bien connues de la logique à deux valeurs, telles qu’elles sont exprimées dans les tables de vérité de la logistique ; il suffit d’ajouter la table de vérité à deux valeurs pour le produit logique , qui, dans la logique alternative, n’est pas donné indépendamment mais est une fonction de et .[15]

Ces brèves remarques peuvent suffire à indiquer la nature de la logique des probabilités ; cette logique s’avère être une généralisation de la logique à deux valeurs, puisqu’elle est applicable dans le cas où les arguments forment une échelle continue de valeurs de vérité. Passons maintenant à la question de l’interprétation du système formel.

Si nous entendons par , des propositions, notre logique des probabilités devient identique au système de poids que nous avons expliqué et utilisé dans nos enquêtes précédentes. Nous parlerons dans cette interprétation de la logique des poids.

Nous pouvons cependant donner une autre interprétation aux symboles . Nous pouvons entendre par le symbole non pas une proposition mais une série de propositions définies d’une manière particulière. Considérons une fonction propositionnelle telle que «  est un dé présentant “la face ” » ; les différents lancers du dé, numérotés par l’indice , fournissent alors une série de propositions qui sont tantôt vraies, tantôt fausses, mais qui sont toutes dérivées de la même fonction propositionnelle. Nous parlerons ici d’une série propositionnelle . Les parenthèses indiquent qu’il s’agit de la série entière formée par les propositions individuelles . Ou prenons la fonction propositionnelle : «  est un cas de tuberculose avec issue fatale » ; elle sera tantôt vraie, tantôt fausse, si parcourt tout le domaine des personnes tuberculeuses. Si nous remplaçons les symboles , dans nos formules, nous pouvons interpréter comme les limites des fréquences avec lesquelles une proposition est vraie dans la série propositionnelle. En ce qui concerne les opérations logiques, nous ajoutons les définitions suivantes

qui postulent que toute opération logique entre deux séries propositionnelles est équivalente à l’agrégat de ces opérations logiques entre les éléments de la série propositionnelle. Notre système de formules fournit alors les lois de probabilité selon l’interprétation fréquentielle. Nous parlerons, dans ce cas, de logique des séries propositionnelles. On voit que par ces deux interprétations la conception logique des probabilités se scinde en deux sous-espèces. La logique des probabilités est, formellement parlant, une structure d’éléments linguistiques ; mais nous obtenons deux interprétations de cette structure par des interprétations différentes de ces éléments. Si nous concevons les propositions comme des éléments de cette structure, et leurs poids comme leurs « valeurs de vérité », nous obtenons la logique des poids. Si nous concevons les séries propositionnelles comme des éléments de la structure logique et les limites de leurs fréquences comme leurs « valeurs de vérité », nous obtenons la logique des séries propositionnelles.

Nous avons expliqué plus haut que la conception de l’identité soutient l’identité structurelle du concept logique et du concept mathématique de probabilité ; nous pouvons maintenant procéder à une autre forme de cette thèse. Notre logique des poids est la logique probabiliste des propositions ; elle formule les règles de ce que les adeptes de la conception de la disparité appelleraient le concept logique de probabilité. En revanche, notre logique des séries propositionnelles formule l’équivalent logique de la conception mathématique de la probabilité, c’est-à-dire un système logique basé sur l’interprétation des fréquences. Ce que la conception de l’identité soutient, c’est l’identité de ces deux systèmes logiques, c’est-à-dire, premièrement, leur identité structurelle et, deuxièmement, la thèse selon laquelle le concept de poids n’a pas d’autre signification que celle qui peut être exprimée dans les énoncés de fréquence. Le concept de poids est en quelque sorte une propriété fictive des propositions que nous utilisons comme abréviation pour les énoncés de fréquence. Cela revient à dire que tout poids peut être conçu, en principe, comme déterminé par une fréquence ; et que, inversement, toute fréquence apparaissant dans les statistiques peut être conçue comme un poids. Si les adeptes de la conception de la disparité ne veulent pas l’admettre, c’est qu’ils ne voient dans certains cas que la forme pondérale de la probabilité et, dans d’autres, que la forme fréquentielle. Or, les deux formes existent dans tous les cas. Dans des cas tels que les événements historiques, ces philosophes ne considèrent que la fonction de poids de la probabilité et n’envisagent pas la possibilité de construire une série dans laquelle le poids est déterminé par une fréquence. Dans des cas comme le jeu de dés ou les statistiques sociales, ces philosophes ne voient que l’interprétation fréquentielle de la probabilité et n’observent pas que la probabilité ainsi obtenue peut être conçue comme un poids pour chaque événement de la série statistique. Un lancer de dé est un événement individuel au même titre que le séjour de Jules César en Grande-Bretagne ; tous deux peuvent être incorporés dans la logique des poids, mais cela n’empêche pas que le poids soit déterminé par une fréquence. Les statistiques nécessaires à cette détermination sont faciles à obtenir pour le dé mais sont très difficiles à obtenir dans le cas du séjour de César en Grande-Bretagne. Nous devons nous contenter dans ce cas d’appréciations grossières ; mais cela ne prouve pas une disparité essentielle des deux cas.

§ 36 Les deux façons de transformer la logique des probabilités en logique à deux valeurs

Il faut maintenant se poser la question de la transformation de la logique des probabilités en logique alternative. Par le mot « transformation » nous n’entendons pas une transition du type indiqué précédemment. La transition par restriction du domaine des variables est une spécialisation ; son application dépend de la nature des variables données. Nous cherchons maintenant une transition qui puisse être effectuée pour n’importe quel type de variables, et qui transforme tout système de logique des probabilités en logique à deux valeurs.

Il existe deux façons d’effectuer une telle transformation. La première est la méthode de la division. Dans sa forme la plus simple, la division est une dichotomie. Nous coupons alors l’échelle de probabilité en deux parties par une valeur de démarcation , par exemple la valeur , et nous faisons les définitions suivantes :

Si , est dit vrai
Si , est dit faux.

Cette procédure fournit une classification assez grossière des énoncés de probabilité, mais elle est toujours applicable et suffit à certaines fins pratiques.

Une méthode de division plus appropriée introduit une logique à trois valeurs. Nous procédons alors par trichotomie ; nous choisissons deux valeurs de démarcation, et et nous définissons :

Si , est dit vrai
Si , est dit faux
Si , est dit indéterminé

Si l’on choisit pour une valeur proche de 1 et pour une valeur proche de 0, la méthode de la trichotomie a l’avantage de ne considérer comme vraies que les probabilités élevées et comme fausses que les probabilités faibles. En ce qui concerne le domaine intermédiaire de l’indéterminé, la procédure correspond à la pratique réelle : il y a de nombreuses déclarations que nous ne pouvons pas utiliser parce que leur valeur de vérité est inconnue. Si nous laissons tomber ces énoncés indéterminés, nous pouvons considérer le reste comme des énoncés d’une logique à deux valeurs ; en ce sens, la méthode de la trichotomie conduit également à une logique à deux valeurs.

En ce qui concerne la validité des règles de la logique bivalente pour les propositions définies comme « vraies » ou « fausses » par dichotomie ou trichotomie, il convient d’ajouter la remarque suivante. L’opération de négation s’applique à la dichotomie parce qu’elle conduit d’un domaine à l’autre en raison de la relation exprimée en (4), § 35. Il en est de même pour la trichotomie si les limites et sont situées symétriquement ; en raison de (4), § 35, la négation d’un énoncé vrai est alors fausse, et réciproquement. Dans le cas des autres opérations, cependant, l’application des règles de la logique à deux valeurs n’est permise que dans le sens d’une approximation. Si, par exemple, selon nos définitions, est vrai et est vrai, nous ne pouvons pas toujours considérer le produit logique comme également vrai, car il existe certaines exceptions. C’est le cas lorsque et sont proches de la limite ou  ; il se peut alors que soit inférieur à la limite. Ainsi, si et sont indépendants, la valeur de est donnée par le produit arithmétique de et  ; comme ces nombres sont des fractions inférieures à , leur produit peut se situer au-dessous de la limite, alors que chacun d’eux se situe au-dessus de la limite. Un cas similaire est possible pour la disjonction. En général, si est faux, et est faux, leur disjonction est fausse aussi ; il peut arriver cependant dans notre logique dérivée que dans un tel cas la disjonction soit vraie. Cette possibilité est impliquée dans notre formule (1), § 35 ; si et sont inférieurs à la limite, peut être supérieur à la limite.

La logique à deux valeurs dérivée de la logique des probabilités par dichotomie n’est qu’une logique approximative. Il en va de même pour la logique bivalente ou trivalente dérivée par trichotomie. Cette dernière ne devient une logique stricte que si et , c’est-à-dire si tout le domaine entre et est dit indéterminé. Dans ce cas, des exceptions telles que celles mentionnées ne peuvent se produire ; ce n’est que dans le cas où et sont tous deux indéterminés qu’il y a une certaine ambiguïté.[16] Une telle logique, cependant, ne s’applique pas à la physique, car les cas ou ne se produisent pas dans la pratique ; il n’y aurait pas du tout d’énoncés vrais ou faux en physique si l’on utilisait cette logique. Une transformation par division est donc vouée à rester une approximation.

Passons maintenant à la deuxième méthode de transformation. Elle est rendue possible par l’interprétation fréquentielle des probabilités. Nous sommes partis d’un système relationnel L entre les éléments ,

Comme la « valeur de vérité » des éléments , varie continuellement de à , a le caractère d’une logique à échelle continue et signifie logique des probabilités. Nous avons dit que nous pouvons remplacer les éléments , par un autre ensemble d’éléments , appelés séries propositionnelles ; nous avons alors le système

La valeur de vérité des éléments , varie également sur une échelle continue. Or, les séries propositionnelles , sont constituées d’éléments qui sont des propositions à deux valeurs de vérité seulement, et la « valeur de vérité » de la série propositionnelle peut être interprétée comme la fréquence à laquelle les propositions sont vraies. Par cette interprétation, le système relationnel est transformé en un autre système relationnel

On peut comparer cette transition à l’introduction de nouvelles variables en mathématiques. n’est rien d’autre que la logique ordinaire à deux valeurs.

C’est-à-dire : Tout énoncé sur les séries propositionnelles, dans le cadre de la logique des probabilités, peut être transformé en un énoncé dans le cadre de la logique à deux valeurs logique sur la fréquence à laquelle les propositions d’une série propositionnelle sont vraies.

C’est sur cette transformation que repose l’importance de l’interprétation de la fréquence. L’interprétation des fréquences nous permet d’éliminer la logique des probabilités et de réduire les énoncés de probabilité à des énoncés de la logique bivalente.

Cette transformation semble être, contrairement à celle par dichotomie ou trichotomie, non pas de caractère approximatif mais de caractère strict ; cependant, elle ne l’est que si deux conditions sont remplies :

1. Si les nouveaux éléments , sont des propositions de caractère strictement bi-valué ; et

2. Si l’énoncé concernant la fréquence à laquelle les propositions sont vraies dans une série propositionnelle est de caractère strictement bi-valué.

Ces conditions sont remplies pour le calcul purement mathématique des probabilités ; c’est la raison pour laquelle ce calcul peut être construit entièrement dans le cadre de la logique bivalente. Quant à l’application de ce calcul à la réalité, c’est-à-dire aux énoncés physiques, ces deux conditions ne sont cependant pas remplies ; pour tous les énoncés de la science empirique, la transition indiquée ne reste qu’une approximation.

En ce qui concerne la deuxième condition, la difficulté provient de l’infinité de la série. Une série mathématiquement infinie est donnée par une prescription qui fournit les moyens de calculer ses qualités dans la mesure où elles sont exigées ; en particulier sa fréquence relative peut être calculée. C’est pourquoi la deuxième condition n’offre aucune difficulté pour les mathématiques. Une série physiquement infinie, par contre, ne nous est connue que dans une section initiale déterminée ; sa suite ne nous est pas connue et reste dépendante des moyens problématiques de l’induction. Une déclaration sur la fréquence d’une série physique ne peut donc pas être énoncée avec certitude : cet énoncé n’est en soi que probable. Ces réflexions conduisent, comme on le voit, à une théorie des énoncés probabilistes de niveaux supérieurs ; comme ces considérations impliquent quelques analyses supplémentaires, nous pouvons reporter la discussion de cette théorie à des sections ultérieures (§§ 41 et 43). Il peut suffire pour l’instant d’affirmer que la deuxième condition ne peut être remplie pour les énoncés des sciences empiriques.

À ce stade, la première condition doit être examinée de plus près. Cette condition n’est pas remplie dans les sciences empiriques parce qu’il n’y a pas de propositions absolument vérifiables. Tel était le résultat de nos investigations précédentes ; nous avons montré qu’il ne s’agit que d’une schématisation lorsque l’on parle d’une proposition strictement vraie ou fausse. Avant le lancer du dé, nous n’avons qu’une probabilité sur le résultat du lancer ; après le lancer, nous disons que nous connaissons exactement le résultat. Mais, à proprement parler, il ne s’agit que du passage d’une probabilité faible à une probabilité forte ; il n’est pas absolument certain qu’il y ait devant moi sur la table un dé présentant la face . Il en est de même pour toute autre proposition quelle qu’elle soit ; il n’est pas nécessaire d’entrer à nouveau dans la discussion de cette idée. Si nous considérons la deuxième condition comme remplie — et pour certains usages cela peut être pratique — cette hypothèse n’est donc valable que dans le sens d’une schématisation.

Nous pouvons indiquer maintenant ce qui est réalisé dans cette schématisation. À proprement parler, les propositions élémentaires ne possèdent pour nous qu’un poids ; si nous remplaçons ce poids par la vérité ou la fausseté, nous effectuons une transformation par dichotomie ou trichotomie. Ainsi la transformation de en , par l’interprétation fréquentielle, présuppose une autre transformation par division portant sur le nouvel ensemble d’éléments.

L’interprétation fréquentielle, en introduisant la logique bivalente, ne peut donc pas nous libérer du caractère approximatif de cette logique, même si nous ne tenons pas compte de la deuxième condition. Cela n’implique pas pour autant qu’une telle transition soit superflue ; au contraire, il s’agit d’une procédure qui permet d’accroître fortement le degré d’approximation. C’est la raison pour laquelle cette transformation joue un rôle dominant parmi les méthodes scientifiques.

Nous pourrions essayer de construire notre système de connaissance en donnant à chaque proposition un poids évalué ; nous constaterions alors, cependant, que nous obtenons ainsi un système de poids plutôt mauvais. La procédure actuelle de la science remplace une telle méthode directe par une méthode indirecte, qui doit être considérée comme l’une des inventions les plus perspicaces de la science. Nous commençons par une transformation trichotomique, nous n’acceptons que les propositions de poids fort et faible et nous abandonnons le domaine intermédiaire. Appliquant alors l’interprétation fréquentielle des probabilités, nous construisons par des processus de comptage le poids des propositions avant omission. Ce n’est pas le seul but de nos calculs ; nous pouvons même contrôler le poids des propositions acceptées au départ et éventuellement les déplacer de la place supposée dans l’échelle des poids vers une nouvelle place. Ainsi, une proposition supposée vraie à l’origine peut s’avérer indéterminée ou fausse par la suite. Il ne s’agit pas d’une contradiction dans la méthode statistique, car la modification de la valeur de vérité de certaines des propositions élémentaires n’a pas, dans l’ensemble, une grande influence sur la fréquence. Nous devons constamment insister sur le fait que ce qui a été supposé par l’évaluation comme étant le poids est confirmé ultérieurement par une réduction de la fréquence d’autres énoncés qui sont jugés par des évaluations également. Les évaluations initiales sont donc soumises à un processus de dissolution, dirigé par la fréquence interprétée Ce processus de dissolution conduit à un nouvel ensemble d’évaluations ; l’amélioration associée à cette procédure consiste dans le fait que chaque évaluation individuelle devient moins importante, que son éventuelle fausseté influence moins l’ensemble du système. Ainsi, par l’action concertée de la trichotomie et de l’interprétation des fréquences, nous construisons un système de poids beaucoup plus exact que celui que nous pourrions obtenir par une évaluation directe des poids.

Dans le cadre de cette procédure, la fonction essentielle de l’interprétation des fréquences devient manifeste. Bien que notre logique de propositions ne soit pas à deux valeurs mais à échelle continue, nous n’avons pas besoin de commencer la connaissance avec la logique des probabilités. Nous commençons par une logique approximative à deux valeurs et développons l’échelle continue au moyen de l’interprétation des fréquences. La même méthode s’applique inversement : si un énoncé de probabilité est donné, nous le vérifions au moyen de l’interprétation des fréquences, en le réduisant à des énoncés d’une logique approximative bivalente. Cette logique approximative est meilleure que la logique probabiliste originale car elle omet le domaine intermédiaire douteux des poids. C’est l’interprétation fréquentielle des probabilités qui rend cette réduction possible, car en dissolvant les poids en fréquences, elle nous permet de limiter l’évaluation directe des poids à ceux qui sont d’un degré élevé ou faible. L’interprétation des fréquences nous libère de la manipulation d’un système logique trop peu maniable pour une utilisation directe.

Il ne faut cependant pas oublier que la logique bivalente reste toujours approximative. Le système de connaissance est écrit dans le langage de la logique des probabilités ; la logique bivalente est un langage de substitution qui ne convient que dans le cadre d’une approximation. Toute épistémologie qui néglige ce fait risque de se perdre sur les hauteurs dénudées d’une idéalisation.

§37. La conception aprioriste et formaliste de la logique

Nous devons maintenant aborder la question de l’origine des lois de la logique des probabilités. Cette question est indissociable de la question de l’origine de la logique en général ; nous devons donc entrer dans une recherche sur la nature de la logique.

Dans l’histoire de la philosophie, il y a deux interprétations de la logique qui ont joué un rôle dominant, et qui ont perduré jusqu’à former le sujet principal des discussions sur la logique à notre époque.

Pour la première interprétation, que l’on peut qualifier d’aprioriste, la logique est une science qui a sa propre autorité, qu’elle soit fondée sur la nature a priori de la raison, sur la nature psychologique de la pensée, sur l’intuition intellectuelle ou sur l’évidence — les philosophes nous ont fourni de nombreuses expressions de ce type, dont le but est d’exprimer que nous devons simplement nous soumettre à la logique comme à une sorte de commandement supérieur.

Telle était la conception de Platon, à laquelle s’ajoutait une vision des idées ; telle était la doctrine de la plupart des scolastiques pour qui la logique révélait les lois et la nature de Dieu ; telle était la conception des rationalistes modernes, Descartes, Leibnitz et Kant, hommes qui doivent être considérés comme les fondateurs de l’apriorisme moderne en matière de logique et de mathématiques. Les fondateurs de la logique moderne des probabilités n’étaient d’ailleurs pas très éloignés d’une telle conception. Ils ont découvert que les lois de cette logique sont aussi évidentes que les lois de la logique plus ancienne ; ils ont donc conçu la logique des probabilités comme la logique de la « croyance rationnelle » en des événements dont la valeur de vérité n’est pas connue, et donc comme une continuation de la logique a priori. Boole concevait sa logique des probabilités comme une expression des « lois de la pensée », choisissant ce terme comme titre de son principal ouvrage ; Venn appelait la logique des probabilités « une branche de la science générale de la preuve » et Keynes, qui représente aujourd’hui cette conception de la logique des probabilités, renouvelle la théorie de la « croyance rationnelle ». La domination de l’apriorisme s’étend donc jusque dans les rangs des logisticiens.

La deuxième interprétation ne reconnaît pas la logique comme une science matérielle et peut être appelée l’interprétation formaliste de la logique. Les adeptes de cette interprétation ne croient pas au caractère a priori de la logique. Ils refusent même de parler de « lois » de la logique, ce terme suggérant qu’il existe quelque chose de l’ordre d’une autorité en logique à laquelle nous devons obéir. Pour eux, la logique est un système de règles qui ne détermine en rien le contenu de la science, et qui ne fait que fournir une transformation d’une proposition en une autre sans rien ajouter à son intension. Cette conception de la logique a sous-tendu la lutte des nominalistes au Moyen Age ; elle a été reconnue par les empiristes, tels que Hume, qui ont vu la nécessité d’une explication de l’affirmation de la nécessité par la logique ; et elle devait constituer la base du développement moderne de la logique associé aux noms de Hilbert, Russell, Wittgenstein et Carnap.[17] Wittgenstein a donné la définition importante du concept de tautologie : Une tautologie est une formule dont la vérité est indépendante des valeurs de vérité des propositions élémentaires qu’elle contient. La logique était ainsi définie comme le domaine des formules tautologiques ; le point de vue sur le vide matériel de la logique trouvait sa formulation stricte dans la définition de Wittgenstein.

Carnap a ajouté un point de vue qui était essentiel pour l’explication de l’affirmation de la nécessité par la logique. La logique, dit-il, dans le prolongement des idées de Wittgenstein, s’occupe de avec le langage uniquement, et non avec les objets du langage. Le langage est constitué de symboles dont l’utilisation est déterminée par certaines règles. La nécessité logique n’est donc rien d’autre qu’une relation entre symboles due aux règles du langage. Il n’y a pas de nécessité logique « inhérente aux choses », comme le soulignent les prophètes de toutes sortes d’« ontologie ». Le caractère de nécessité est entièrement du côté des symboles ; de telles nécessités, cependant, ne disent rien sur le monde parce que les règles du langage sont construites de telle manière qu’elles ne restreignent pas le domaine de l’expérience.

C’est pourquoi Carnap appelle la logique la syntaxe du langage. Il n’y a pas de lois logiques du monde, mais seulement des règles syntaxiques du langage. Ce que nous avons appelé un fait logique (§ 1), doit être appelé dans cette meilleure terminologie un fait syntaxique. Au lieu de parler du fait logique qu’une phrase ne peut être déduite d’une phrase , il vaut mieux parler d’un fait syntaxique : la structure des formules et est telle que la relation syntaxique de « déductibilité » n’existe pas entre elles.

La conception formaliste de la logique nous libère de tous les problèmes d’apriorisme, de toutes les questions de correspondance entre l’esprit et la réalité. Elle est pour cette raison la théorie logique naturelle de tout empirisme. Elle n’exige de nous aucune croyance en des lois non empiriques. Ce que nous savons de la nature est tiré de l’expérience ; la logique n’ajoute rien aux résultats de l’expérience car la logique est vide, elle n’est rien d’autre qu’un système de règles syntaxiques du langage.

Demandons-nous maintenant si nous pouvons insérer la logique des probabilités dans la conception formaliste de la logique. Il est évident qu’il s’agit là, pour toutes les variétés d’empirisme, d’une question fondamentale. Nous avons constaté que le concept de probabilité est indispensable à la connaissance, que la logique des probabilités détermine les méthodes d’investigation scientifique. Si nous ne pouvions pas donner une interprétation formaliste de la logique des probabilités, tous les efforts des anti-métaphysiciens auraient été vains ; bien qu’ils aient surmonté les difficultés de la logique à deux valeurs, ils échoueraient maintenant devant le concept qui forme l’essence même de la prédiction scientifique — devant le concept de probabilité. Un empirisme logistique serait intenable si nous ne parvenions pas à trouver une solution formaliste au problème des probabilités.

Cette solution existe. Pour la présenter, nous procéderons en deux étapes.

La première étape est marquée par l’interprétation des fréquences. Nous avons montré que la logique des probabilités peut être transformée en logique à deux valeurs par l’interprétation des fréquences. L’énoncé de cette transformation nécessite une remarque supplémentaire. Bien qu’il soit facile de voir qu’une telle transformation est obtenue par l’interprétation des fréquences, nous ne savons pas immédiatement si cette réduction nécessite ou non des axiomes d’un autre type pour lesquels nous n’avons peut-être aucune justification. On ne peut répondre à cette question que par un procédé axiomatique réduisant le calcul mathématique des probabilités à un système de présupposés simples suffisant pour la déduction de tout le système mathématique ; il faut alors s’interroger sur la nature de ces axiomes.

Cette procédure a été menée à bien ; elle aboutit à un résultat de la plus haute pertinence pour notre problème. Il s’avère que tous les théorèmes de probabilité se réduisent à un seul présupposé : il s’agit de l’interprétation fréquentielle. Si la probabilité est interprétée comme la limite de la fréquence relative dans une série infinie (ou finie), toutes les lois de probabilité se réduisent à des lois arithmétiques et, de ce fait, deviennent tautologiques. La démonstration de ce théorème implique quelques complications, car la théorie des probabilités mathématiques fait référence à un grand nombre de types de séries de probabilités, les séries normales, telles qu’elles se produisent dans les jeux de hasard, étant n’étant qu’un type particulier au sein de cet ensemble. Même une brève indication de cette démonstration allongerait indûment notre exposé, nous devons donc nous contenter d’un énoncé du résultat.[18]

Les conséquences de ce résultat pour l’insertion de la logique des probabilités dans l’interprétation formaliste de la logique sont évidentes : le problème de la justification des lois de la logique des probabilités disparaît. Ces lois sont justifiées, en tant que lois arithmétiques, dans le cadre de l’interprétation formaliste des mathématiques. Pour voir l’effet de ce résultat, rappelons les difficultés des anciens auteurs de la logique des probabilités. Ils ont vu que les lois de la probabilité, bien qu’admises par tous, ne peuvent pas être déduites logiquement du concept de probabilité si ce concept doit signifier quelque chose comme l’espérance raisonnable, ou la chance d’occurrence d’un seul événement ; les lois, alors, devaient être synthétiques et a priori. La conception des « lois de la croyance rationnelle » qui exprime cette idée est née du fait que la déductibilité de ces lois à partir de l’interprétation des fréquences n’était pas perçue. Nous n’avons pas besoin d’une « science de la preuve » pour prouver les lois de la probabilité si nous entendons par probabilité la limite d’une fréquence. D’autre part, c’est une des raisons pour lesquelles il faut insister sur la conception identitaire des deux concepts de probabilité : s’ils étaient disparates, s’il existait un concept non statistique de probabilité, la justification de ses lois par l’interprétation fréquentielle ne pourrait pas être donnée, et l’interprétation formaliste de la logique des probabilités ne pourrait pas être menée à bien.[19] Nous devrions être ramenés à la position aprioriste et être obligés de croire en des lois que nous ne pouvons pas justifier. Seule l’interprétation des fréquences nous libère des hypothèses métaphysiques et relie le problème des probabilités à la dissolution continue de l’a priori qui marque le développement de l’empirisme logistique moderne. La réduction des lois de probabilité à des tautologies par l’interprétation fréquentielle n’est cependant qu’un premier pas dans cette direction. Il reste un deuxième pas à faire.

§ 38. Le problème de l’induction

Jusqu’à présent, nous n’avons parlé que des qualités utiles de l’interprétation fréquentiste. Elle a aussi des qualités dangereuses.

L’interprétation des fréquences a deux fonctions dans la théorie des probabilités. Premièrement, une fréquence est utilisée comme justification de l’énoncé de probabilité ; elle fournit la raison pour laquelle nous croyons en cet énoncé. Deuxièmement, une fréquence est utilisée pour la vérification de l’énoncé de probabilité, c’est-à-dire qu’elle fournit le sens de l’énoncé. Ces deux fonctions ne sont pas identiques. La fréquence observée dont nous partons n’est que la base de l’inférence de probabilité ; nous avons l’intention d’énoncer une autre fréquence qui concerne les observations futures. L’inférence probabiliste part d’une fréquence connue pour aller vers une fréquence inconnue ; c’est de cette fonction qu’elle tire son importance. L’énoncé de la probabilité soutient une prédiction, et c’est pour cela que nous la voulons.

C’est le problème de l’induction qui apparaît avec cette formulation. La théorie de la probabilité implique le problème de l’induction, et une solution au problème de la probabilité ne peut être donnée sans une réponse à la question de l’induction. Le lien entre les deux problèmes est bien connu ; des philosophes comme Peirce ont exprimé l’idée qu’une solution du problème de l’induction se trouve dans la théorie des probabilités. Mais la relation inverse est également valable. Disons, prudemment, que la solution des deux problèmes se trouve dans la même théorie.

En unissant le problème de la probabilité à celui de l’induction, nous nous prononçons sans équivoque en faveur de la détermination du degré de probabilité que les mathématiciens appellent détermination a posteriori. Nous refusons de reconnaître toute détermination dite a priori telle que certains mathématiciens l’introduisent dans la théorie des jeux de hasard ; nous renvoyons sur ce point à nos remarques du § 33, où nous avons mentionné que la détermination dite a priori peut être ramenée à une détermination a posteriori. C’est donc cette dernière procédure qu’il nous faut maintenant analyser.

Par « détermination a posteriori », nous entendons une procédure dans laquelle la fréquence relative observée statistiquement est supposée se maintenir approximativement pour toute prolongation future de la série. Exprimons cette idée dans une formulation exacte. Nous supposons une série d’événements et (non-) ; soit le nombre d’événements, le nombre d’événements du type parmi eux. Nous avons alors la fréquence relative

L’hypothèse de la détermination a posteriori peut maintenant être exprimée :

Pour toute prolongation de la série jusqu’à événements , la fréquence relative restera dans un petit intervalle autour de  ; c’est-à-dire que nous supposons la relation suivante

est un petit nombre.

Cette hypothèse formule le principe d’induction. Nous pouvons ajouter que notre formulation énonce le principe sous une forme forme plus générale que celle utilisée dans la philosophie traditionnelle. La formulation habituelle est la suivante : l’induction est l’hypothèse qu’un événement qui s’est produit fois se produira à toutes les fois suivantes. Il est évident que cette formulation est un cas particulier de notre formulation, correspondant au cas . Nous ne pouvons pas limiter notre étude à ce cas particulier car le cas général se retrouve dans un grand nombre de problèmes.

La raison en est que la théorie des probabilités a besoin de la définition de la probabilité comme limite de la fréquence. Notre formulation est une condition nécessaire à l’existence d’une limite de la fréquence au voisinage de  ; ce qu’il faut encore ajouter, c’est qu’il existe un du type postulé pour chaque « aussi petit soit-il ». Si nous incluons cette idée dans notre hypothèse, notre postulat d’induction devient l’hypothèse qu’il existe une limite à la fréquence relative qui ne diffère pas beaucoup de la valeur observée.

Si nous entrons maintenant dans une analyse plus fine de cette hypothèse, une chose n’est plus à démontrer : la formule donnée n’est pas une tautologie. Il n’y a en effet aucune nécessité logique à ce que reste dans l’intervalle ; on peut facilement imaginer que cela n’ait pas lieu.

Le caractère non tautologique de l’induction est connu depuis longtemps ; Bacon avait déjà souligné que c’est justement à ce caractère que l’induction doit son importance. Si l’inférence inductive peut nous apprendre quelque chose de nouveau, par opposition à l’inférence déductive, c’est parce qu’elle n’est pas une tautologie. Cette qualité utile est cependant devenue le centre des difficultés épistémologiques de l’induction. C’est David Hume qui, le premier, a attaqué le principe de ce côté ; il a souligné que la contrainte apparente de l’inférence inductive, bien que soumise par tout le monde, ne pouvait être justifiée. Nous croyons à l’induction ; nous ne pouvons même pas nous en défaire lorsque nous connaissons l’impossibilité d’une démonstration logique de la validité de l’inférence inductive ; mais en tant que logiciens, nous devons admettre que cette croyance est une tromperie — tel est le résultat de la critique de Hume. Nous pouvons résumer ses objections en deux affirmations :

1. Nous n’avons aucune démonstration logique de la validité de l’inférence inductive.

2. Il n’y a pas de démonstration a posteriori de la déduction inductive ; toute démonstration de ce type présupposerait le principe même qu’elle est censée démontrer.

Ces deux piliers de la critique de Hume sur le principe d’induction sont restés inébranlables pendant deux siècles, et je pense qu’ils le resteront tant qu’il y aura une philosophie scientifique.

Malgré l’impression profonde que la découverte de Hume a faite sur ses contemporains, sa pertinence n’a pas été suffisamment remarquée dans le développement intellectuel ultérieur. Je ne parle pas ici des métaphysiciens spéculatifs que le dix-neuvième siècle nous a présentés si abondamment, surtout en Allemagne ; nous n’avons pas à nous étonner qu’ils n’aient prêté aucune attention à des objections qui démontraient si sobrement les limites de la raison humaine. Mais les empiristes, et même les logiciens mathématiciens, n’ont pas fait mieux à cet égard. Il est étonnant de voir comment des logiciens lucides, comme John Stuart Mill, Whewell, Boole, ou Venn, en écrivant sur le problème de l’induction, ont ignoré la portée des objections de Hume ; ils n’ont pas réalisé que toute logique de la science reste un échec tant que nous n’avons pas de théorie de l’induction qui ne soit pas exposée à la critique de Hume. C’est sans doute leur apriorisme logique qui les a empêchés d’admettre le caractère insatisfaisant de leurs propres théories de l’induction. Mais il reste incompréhensible que leurs principes empiristes ne les aient pas conduits à accorder un poids plus important à la critique de Hume.

C’est avec le succès de l’interprétation formaliste de la logique au cours des dernières décennies que le poids des objections de Hume s’est à nouveau fait sentir. Les exigences en matière de rigueur logique se sont accrues, et le vide dans la chaîne des déductions scientifiques, indiqué par Hume, ne pouvait plus être négligé. La tentative des positivistes modernes d’établir la connaissance comme un système de certitude absolue a trouvé un obstacle insurmontable dans le problème de l’induction. Dans cette situation, un expédient a été proposé, qui ne peut être considéré autrement que comme un acte de désespoir.

Le remède a été cherché dans le principe de la rétrogradation. On se souvient du rôle que ce principe a joué dans la théorie de la vérité du sens des phrases indirectes (§ 7) ; les positivistes qui avaient déjà essayé de mener à bien le principe dans ce domaine ont maintenant tenté de l’appliquer à la solution du problème de l’induction. Ils ont posé la question suivante : à quelles conditions applique-t-on le principe inductif pour déduire un nouvel énoncé ? Ils ont donné la réponse exacte : On l’applique lorsqu’on fait un certain nombre d’observations qui portent sur des événements d’un type homogène et qui fournissent une fréquence pour un type déterminé d’événements parmi eux. Qu’en déduit-on ? Vous supposez, disent-ils, pouvoir en déduire une prolongation future similaire de la série ; mais, selon le principe de la rétrogression, cette « prédiction de l’avenir » ne peut avoir un sens qui soit plus qu’une répétition des prémisses de l’inférence — elle ne signifie rien d’autre que l’affirmation : « Il y a eu une série d’observations de tel ou tel type ». Le sens d’un énoncé sur le futur est un énoncé sur le passé — c’est ce qui fournit l’application du principe de rétrogression à l’inférence inductive.

Je ne pense pas qu’un tel raisonnement puisse convaincre un intellect sain. Loin de la considérer comme une analyse de la science, je considérerais plutôt une telle interprétation de l’induction comme un acte de suicide intellectuel. Le décalage entre la pensée réelle et le résultat épistémologique ainsi obtenu est trop évident. La seule chose que l’on puisse déduire de cette démonstration est que le principe de rétrogradation ne tient pas si l’on veut que notre construction épistémologique corresponde à la procédure réelle de la science. Nous savons bien que la science veut prévoir l’avenir ; et si l’on nous dit que « prévoir l’avenir » signifie « rapporter le passé », nous ne pouvons que répondre que l’épistémologie doit être autre chose qu’un jeu de mots.

C’est le postulat d’utilisabilité qui exclut l’interprétation de l’inférence inductive en termes de principe de régression. Pour que les énoncés scientifiques soient utilisables pour l’action, il faut qu’ils dépassent les énoncés sur lesquels ils s’appuient, qu’ils concernent des événements futurs et non ceux du seul passé. La préparation de l’action suppose, outre une décision volitive sur le but de l’action, une connaissance de l’avenir. Si l’on donnait une forme correcte au raisonnement décrit, cela reviendrait à soutenir qu’il n’y a pas de connaissance démontrable de l’avenir. C’était certainement l’idée de Hume. Au lieu d’une pseudo-solution du problème de l’induction, nous devrions alors simplement nous limiter à la répétition du résultat de Hume et admettre que le postulat de l’utilisabilité ne peut être satisfait. La théorie de la vérité du sens conduit à un scepticisme humien, c’est ce qui découle du déroulement de l’argumentation.

L’intention du positivisme moderne était de ramener la connaissance à la certitude absolue ; ce qui a été proposé avec l’interprétation formaliste de la logique n’était rien d’autre qu’une reprise du programme de Descartes. Le grand fondateur du rationalisme voulait rejeter toute connaissance qui ne pouvait être considérée comme absolument fiable ; c’est le même principe qui a conduit les logiciens modernes à la négation des principes a priori. Il est vrai que ce principe a conduit Descartes lui-même à l’apriorisme ; mais cette différence peut être considérée comme une différence de stade dans le développement historique — son apriorisme rationaliste devait remplir la même fonction de balayer toutes les revendications scientifiques insoutenables que celle visée par la lutte ultérieure contre les principes a priori. Le refus d’admettre toute forme de logique matérielle — c’est-à-dire toute logique fournissant des informations sur une certaine « matière » — provient de la source cartésienne : c’est le désir inéluctable d’une connaissance absolument certaine qui sous-tend à la fois le rationalisme de Descartes et le logicisme des positivistes.

La réponse donnée à Descartes par Hume vaut également pour le positivisme moderne. Il n’y a pas de certitude dans la connaissance du monde parce que la connaissance du monde implique des prédictions sur l’avenir. L’idéal d’une connaissance absolument certaine conduit au scepticisme — il est préférable de l’admettre que de se laisser aller à des rêveries sur la connaissance a priori. Seul un manque de radicalité intellectuelle a pu empêcher les rationalistes de le voir ; les positivistes modernes devraient avoir le courage de tirer cette conclusion sceptique, de tracer l’idéal de la certitude absolue jusqu’à ses implications inéluctables.

Or, au lieu d’un désaveu aussi strict de la finalité prédictive de la science, le positivisme moderne a tendance à éluder cette alternative et à sous-estimer la pertinence des objections sceptiques de Hume. Il est vrai que Hume lui-même n’est pas exempt de tout reproche à cet égard. Il n’est pas prêt à réaliser les conséquences tragiques de sa critique ; sa théorie de la croyance inductive comme habitude — que l’on ne peut certainement pas qualifier de solution du problème — est avancée avec l’intention de masquer le fossé qu’il a mis en évidence entre l’expérience et la prédiction. Il n’est pas alarmé par sa découverte ; il ne se rend pas compte que, s’il n’y a pas d’issue au dilemme qu’il a signalé, la science pourrait tout aussi bien ne pas être poursuivie — il n’y a aucune utilité à un système de prédictions s’il n’est rien d’autre qu’une ridicule auto-illusion. Certains positivistes modernes n’en sont pas conscients non plus. Ils parlent de la formation de théories scientifiques, mais ils ne voient pas que, s’il n’y a pas de justification pour l’inférence inductive, la procédure de travail de la science tombe au niveau d’un jeu et ne peut plus être justifiée par l’applicabilité de ses résultats à des fins d’action. L’intention de l’a priori synthétique de Kant était de protéger cette procédure de travail contre les doutes de Hume ; nous savons aujourd’hui que la tentative de sauvetage de Kant a échoué. Nous devons ce résultat critique à l’établissement de la conception formaliste de la logique. Si, toutefois, nous ne parvenons pas à trouver une réponse aux objections de Hume dans le cadre du formalisme logistique, nous devrons admettre franchement que la version anti-métaphysique de la philosophie a conduit au renoncement à toute justification des méthodes prédictives de la science — à un échec définitif de la philosophie scientifique.

On ne peut pas se passer de l’inférence inductive parce qu’elle est nécessaire à l’action. Considérer l’hypothèse inductive comme indigne de l’assentiment d’un philosophe, garder une réserve distinguée et accueillir avec un sourire condescendant les tentatives d’autres personnes pour combler le fossé entre l’expérience et la prédiction, c’est se tromper à bon compte ; au moment même où les apôtres d’une telle philosophie supérieure quittent le champ de la discussion théorique pour passer aux actions les plus simples de la vie quotidienne, ils suivent le principe inductif aussi sûrement que le fait tout esprit terrien. Dans toute action, il y a plusieurs moyens de réaliser notre but ; nous devons faire un choix, et nous décidons conformément au principe d’induction. Bien qu’il n’y ait pas de moyen qui produise avec certitude l’effet désiré, nous ne laissons pas le choix au hasard mais préférons le moyen indiqué par le principe d’induction. Si nous sommes assis au volant d’une voiture et que nous voulons tourner la voiture vers la droite, pourquoi tournons-nous le volant vers la droite ? Il n’y a aucune certitude que la voiture suivra le volant ; il y a en effet des voitures qui ne se comportent pas toujours ainsi. Ces cas sont heureusement des exceptions. Mais si nous ne tenions pas compte de la prescription inductive et considérions l’effet d’un tour de roue comme totalement inconnu pour nous, nous pourrions également tourner le volant vers la gauche. Je ne dis pas cela pour suggérer une telle tentative ; les effets de la philosophie sceptique appliquée à la circulation automobile seraient plutôt désagréables. Mais je dirais qu’un philosophe qui doit mettre de côté ses principes chaque fois qu’il conduit une voiture est un mauvais philosophe.

Ce n’est pas justifier la croyance inductive que de montrer qu’il s’agit d’une habitude. C’est une habitude ; mais la question est de savoir s’il s’agit d’une bonne habitude, où « bonne » signifie « utile dans le but d’actions orientées vers des événements futurs ». Si quelqu’un me dit que Socrate est un homme et que tous les hommes sont mortels, j’ai l’habitude de croire que Socrate est mortel. Je sais cependant que c’est une bonne habitude. Si quelqu’un avait l’habitude de croire dans un tel cas que Socrate n’est pas mortel, on pourrait lui démontrer que c’est une mauvaise habitude. La question analogue doit être posée pour la déduction inductive. Si nous ne sommes pas en mesure de démontrer qu’il s’agit d’une bonne habitude, nous devrions soit cesser de l’utiliser, soit admettre franchement que notre philosophie est un échec.

La science procède par induction et non par des transformations tautologiques de rapports. Bacon a raison à propos d’Aristote ; mais le novum organon a besoin d’une justification aussi bonne que celle de l’organon. La critique de Hume a été le coup le plus dur porté à l’empirisme ; si nous ne voulons pas tromper notre conscience au moyen du narcotique du rationalisme aprioriste ou du soporifique du scepticisme, nous devons trouver une défense de l’inférence inductive qui tienne aussi bien que la justification formaliste de la logique déductive.

§ 39. La justification du principe d’induction

Nous allons maintenant commencer à donner la justification de l’induction que Hume pensait impossible. Dans la poursuite de cette enquête, demandons-nous d’abord ce qui a été prouvé, à proprement parler, par les objections de Hume.

Hume est parti de l’hypothèse qu’une justification de l’inférence inductive n’est donnée que si l’on peut montrer que l’inférence inductive doit mener au succès. En d’autres termes, Hume pensait que toute application justifiée de l’inférence inductive présuppose la démonstration que la conclusion est vraie. C’est sur cette hypothèse que repose la critique de Hume. Ses deux objections ne concernent directement que la question de la vérité de la conclusion ; elles prouvent que la vérité de la conclusion ne peut être démontrée. Les deux objections ne sont donc valables que dans la mesure où le présupposé humien est valable. C’est vers cette question qu’il faut se tourner : est-il nécessaire, pour justifier l’inférence inductive, de montrer que sa conclusion est vraie ? Une analyse assez simple nous montre que cette hypothèse ne tient pas. Certes, si l’on pouvait prouver la vérité de la conclusion, l’inférence inductive serait justifiée ; mais la réciproque n’est pas vraie : une justification de l’inférence inductive n’implique pas une preuve de la vérité de la conclusion. La preuve de la vérité de la conclusion n’est qu’une condition suffisante pour la justification de l’induction, et non une condition nécessaire.

La déduction inductive est une procédure qui doit nous fournir la meilleure hypothèse concernant l’avenir. Si nous ne connaissons pas la vérité sur l’avenir, il peut néanmoins y avoir une meilleure hypothèse à son sujet, c’est-à-dire une meilleure hypothèse par rapport à ce que nous savons. Nous devons nous demander si une telle caractérisation peut être donnée pour le principe d’induction. Si cela s’avère possible, le principe d’induction sera justifié.

Un exemple montrera la structure logique de notre raisonnement. Un homme peut être atteint d’une maladie grave ; le médecin nous dit : « Je ne sais pas si une opération sauvera cet homme, mais s’il y a un remède, c’est une opération ». Dans ce cas, l’opération serait justifiée. Bien sûr, il serait préférable de savoir que l’opération sauvera l’homme ; mais, si nous ne le savons pas, la connaissance formulée dans la déclaration du médecin est une justification suffisante. Si nous ne pouvons pas réaliser les conditions suffisantes du succès, nous réaliserons au moins les conditions nécessaires. Si nous pouvions montrer que l’inférence inductive est une condition nécessaire de succès, elle serait justifiée ; une telle preuve satisferait toutes les demandes qui peuvent être soulevées au sujet de la justification de l’induction.

Il est évident qu’il y a une grande différence entre notre exemple et l’induction. Le raisonnement du médecin présuppose des inductions ; sa connaissance d’une opération comme seul moyen possible de sauver une vie est basée sur des généralisations inductives, comme le sont tous les autres énoncés de caractère empirique. Mais nous voulions seulement illustrer la structure logique de notre raisonnement. Si nous voulons considérer un tel raisonnement comme une justification du principe d’induction, le caractère de l’induction comme condition nécessaire du succès doit être démontré d’une manière qui ne présuppose pas l’induction. Une telle preuve peut cependant être donnée

Si nous voulons construire cette preuve, nous devons commencer par déterminer le but de l’induction. On dit généralement que l’on fait des inductions dans le but de prévoir l’avenir. Cette détermination est vague ; remplaçons-la par une formulation à caractère plus précis :

Le but de l’induction est de trouver des séries d’événements dont la fréquence d’apparition converge vers une limite.

Nous choisissons cette formulation parce que nous avons constaté que nous avons besoin de probabilités et qu’une probabilité doit être définie comme la limite d’une fréquence ; ainsi notre détermination du but de l’induction est donnée de telle sorte qu’elle nous permet d’appliquer les méthodes probabilistes. Si nous comparons cette détermination du but de l’induction avec les déterminations habituellement données, il s’avère qu’il ne s’agit pas d’un confinement à un but plus étroit, mais d’un élargissement. Ce que nous appelons habituellement « prévoir l’avenir » est inclus dans notre formulation comme un cas particulier ; le cas où l’on connaîtrait avec certitude pour chaque événement l’événement qui le suit correspondrait dans notre formulation à un cas où la limite de la fréquence est de la valeur numérique . Hume n’a pensé qu’à ce cas. Notre enquête diffère donc de celle de Hume dans la mesure où elle conçoit le but de l’induction sous une forme généralisée. Mais nous n’omettons aucune application possible si nous déterminons le principe de l’induction comme le moyen d’obtenir la limite d’une fréquence. Si nous avons des limites de fréquence, nous avons tout ce que nous voulons, y compris le cas considéré par Hume ; nous avons alors les lois de la nature sous leur forme la plus générale, y compris les lois statistiques et les lois dites causales — ces dernières n’étant rien d’autre qu’un cas particulier de lois statistiques, correspondant à la valeur numérique de la limite de la fréquence. Nous sommes donc en droit de considérer la détermination de la limite d’une fréquence comme le but de l’inférence inductive.

Or, il est évident que nous n’avons aucune garantie que ce but puisse être atteint. Le monde peut être tellement désordonné qu’il nous est impossible de construire des séries avec une limite. Introduisons le terme « prévisible » pour un monde qui est suffisamment ordonné pour nous permettre de construire des séries avec une limite. Nous devons donc admettre que nous ne savons pas si le monde est prévisible.

Mais si le monde est prévisible, demandons-nous quelle sera la fonction logique du principe d’induction. Pour cela, nous devons nous pencher sur la définition de la limite. La fréquence a une limite , si pour tout donné il existe un tel que est compris dans et reste dans cet intervalle pour tout le reste de la série. En comparant notre formulation du principe d’induction (§ 38) avec celle-ci, nous pouvons déduire de la définition de la limite que, s’il y a une limite, il y a un élément de la série à partir duquel le principe d’induction conduit à la vraie valeur de la limite. En ce sens, le principe d’induction est une condition nécessaire à la détermination d’une limite.

Il est vrai que si nous nous trouvons devant la valeur de la fréquence fournie par nos statistiques, nous ne savons pas si ce est suffisamment grand pour être identique à, ou au-delà du du « lieu de convergence » pour . Il se peut que notre ne soit pas encore assez grand, qu’après il y ait un écart plus grand que par rapport à . À cela nous pouvons répondre : Nous ne sommes pas obligés de rester à  ; nous pouvons continuer notre procédure et nous considérerons toujours le dernier obtenu comme notre meilleure valeur. Cette procédure doit conduire un jour ou l’autre à la vraie valeur , si tant est qu’il y ait une limite ; l’applicabilité de cette procédure, dans son ensemble, est une condition nécessaire de l’existence d’une limite en .

Pour comprendre cela, imaginons un principe contraire. Imaginons un homme qui, si est atteint, fait toujours l’hypothèse que la limite de la fréquence est à , où est une constante fixe. Si cet homme continue sa procédure d’augmentation de , il est sûr de manquer la limite ; cette procédure doit un jour ou l’autre devenir fausse, si tant est qu’il y ait une limite.

Nous avons maintenant trouvé une meilleure formulation de la condition nécessaire. Nous ne devons pas considérer l’hypothèse individuelle pour un individuel ; nous devons tenir compte de la procédure des hypothèses continues de type inductif. L’applicabilité de cette procédure est la condition nécessaire recherchée.

Mais si c’est seulement l’ensemble de la procédure qui constitue la condition nécessaire, comment appliquer cette idée au cas individuel qui se présente à nous ? Nous voulons savoir si l’individu que nous observons s’écarte de moins de de la limite de convergence, ce qui ne peut être ni garanti ni appelé une condition nécessaire de l’existence d’une limite. Qu’implique donc notre idée de condition nécessaire pour le cas individuel ? Il semble que pour notre cas particulier, l’idée s’avère sans application.

Cette difficulté correspond dans un certain sens à la difficulté que nous avons trouvée dans l’application de l’interprétation fréquentielle au cas unique. Elle doit être éliminée par l’introduction d’un concept déjà utilisé pour l’autre problème : le concept de posit.

Si nous observons une fréquence et la supposons être la valeur approximative de la limite, cette supposition n’est pas maintenue sous la forme d’un énoncé vrai ; c’est un postulat tel que nous le faisons dans un pari. Nous posons comme valeur de la limite, c’est-à-dire que nous parions sur , tout comme nous parions sur le côté d’un dé. Nous savons que est notre meilleure mise, c’est pourquoi nous la posons. Il existe toutefois une différence entre le type de pari effectué ici et celui effectué lors d’un lancer de dé.

Dans le cas du dé, nous connaissons le poids de l’affirmation : il est donné par le degré de probabilité. Si l’on pose le cas « côté autre que celui numéroté  », le poids de ce posit est de . On parle dans ce cas d’un posit à poids évalué, ou, en bref, d’un posit évalué.

Dans le cas de notre proposition , nous ne connaissons pas son poids. Nous l’appelons donc un postulat aveugle. Nous savons qu’il s’agit de notre meilleur postulat, mais nous ne savons pas à quel point il est bon. Il se peut que, bien qu’elle soit notre meilleure, elle soit plutôt mauvaise.

L’hypothèse aveugle peut toutefois être corrigée. En continuant notre série, nous obtenons de nouvelles valeurs  ; nous choisissons toujours la dernière . Ainsi le posit aveugle est de type approximatif ; nous savons que la méthode pour faire et corriger de tels posits doit à terme conduire au succès, dans le cas où il y a une limite de fréquence. C’est cette idée qui fournit la justification de l’hypothèse aveugle. La procédure décrite peut être appelée méthode d’anticipation ; en choisissant comme posit, nous anticipons le cas où est le « lieu de convergence ». Il se peut que par cette anticipation nous obtenions une fausse valeur ; nous savons cependant qu’une anticipation continue doit conduire à la vraie valeur, si tant est qu’il y ait une limite.

Une objection peut être soulevée ici. Il est vrai que le principe d’induction a la qualité de conduire à la limite, s’il y a une limite. Mais est-ce le seul principe qui possède une telle propriété ? Il pourrait y avoir d’autres méthodes qui nous indiqueraient également la valeur de la limite.

En effet, il pourrait y en avoir. Il pourrait y avoir des méthodes encore meilleures, c’est-à-dire des méthodes nous donnant la bonne valeur de la limite, ou du moins une valeur meilleure que la nôtre, à un moment de la série où est encore assez éloigné de . Imaginez un voyant capable de prédire la valeur de la limite à un stade aussi précoce de la série ; nous serions bien sûr très heureux d’avoir un tel homme à notre disposition. Nous pouvons cependant, sans rien savoir des prédictions du voyant, faire deux déclarations générales à leur sujet : (1) Les indications du voyant ne peuvent différer, si elles sont vraies, qu’au début de la série, de celles données par le principe inductif. À la fin, il doit y avoir une convergence asymptotique entre les indications du voyant et celles du principe inductif. Cela découle de la définition de la limite. (2) Le voyant peut être un imposteur ; ses prophéties peuvent être fausses et ne jamais conduire à la vraie valeur de la limite.

La deuxième affirmation contient la raison pour laquelle nous ne pouvons pas admettre la voyance sans contrôle. Comment obtenir ce contrôle ? Il est évident que le contrôle doit consister en une application du principe d’induction : nous demandons la prévision du voyant et la comparons avec des observations ultérieures ; s’il y a alors une bonne correspondance entre les prévisions et les observations, nous en déduirons, par induction, que les prophéties de l’homme seront également vraies dans l’avenir. C’est donc le principe d’induction qui doit décider si l’homme est un bon voyant. Cette position distinctive du principe d’induction est due au fait que nous connaissons sa fonction de conduire finalement à la vraie valeur de la limite, alors que nous ne savons rien du voyant.

Ces considérations nous amènent à apporter une correction à nos formulations. Il existe bien sûr de nombreuses conditions nécessaires à l’existence d’une limite ; celle que nous utiliserons cependant doit être telle que son caractère de nécessité doit nous être connu. C’est pourquoi nous devons préférer le principe inductif aux indications du voyant et contrôler le second par le premier : nous contrôlons la méthode inconnue par une méthode connue.

Nous devons donc poursuivre notre analyse en limitant la recherche d’autres méthodes à celles dont nous pouvons savoir qu’elles doivent conduire à la vraie valeur de la limite. Il est maintenant facile de voir que non seulement le principe inductif conduira au succès, mais aussi que toute méthode fera de même si elle détermine comme notre pari la valeur de

est un nombre qui est une fonction de , ou aussi de , mais lié à la condition

En raison de cette condition supplémentaire, la méthode doit conduire à la vraie valeur de la limite ; cette condition indique que toutes les méthodes de ce type, y compris le principe inductif, doivent converger asymptotiquement. Le principe inductif est le cas particulier où

pour toutes les valeurs de .

Il est maintenant évident qu’un système de paris du type le plus général peut présenter des avantages. La « correction » peut être déterminée de telle sorte que le pari résultant fournisse, même à un stade précoce de la série, une bonne approximation de la limite . Les prophéties d’un bon voyant seraient de ce type. D’autre part, il peut arriver que soit mal déterminé, c’est-à-dire que la convergence soit retardée par la correction. Si le terme est formulé arbitrairement, nous ne savons rien des deux possibilités. La valeur — c’est-à-dire le principe inductif — est donc la valeur du plus petit risque ; toute autre détermination peut aggraver la convergence. C’est une raison pratique pour préférer le principe inductif.

Ces considérations conduisent cependant à une formulation plus précise de la structure logique de l’inférence inductive. Nous devons dire que, s’il existe une méthode qui conduit à la limite de la fréquence, le principe inductif fera de même ; s’il existe une limite de la fréquence, le principe inductif est une condition suffisante pour la trouver. Si nous omettons maintenant la prémisse qu’il existe une limite de la fréquence fréquence, on ne peut pas dire que le principe inductif est la condition nécessaire pour la trouver parce qu’il existe d’autres méthodes utilisant une correction . Il existe un ensemble de conditions équivalentes telles que le choix d’un des membres de l’ensemble est nécessaire si l’on veut trouver la limite ; et, s’il y a une limite, chacun des membres de l’ensemble est une méthode appropriée pour la trouver. On peut donc dire que l’applicabilité du principe inductif est une condition nécessaire à l’existence d’une limite de fréquence. La décision en faveur du principe inductif parmi les membres de l’ensemble des moyens équivalents peut être justifiée en soulignant sa qualité d’incarner le plus petit risque ; après tout, cette décision n’est pas d’une grande pertinence, puisque toutes ces méthodes doivent conduire à la même valeur de la limite si elles sont suffisamment poursuivies. Il ne faut cependant pas oublier que la méthode de voyance n’est pas, pour autant, membre de l’ensemble car nous ne savons pas si la correction intervenant ici est soumise à la condition de convergence vers zéro. Il faut d’abord le prouver, et on ne peut le faire qu’en utilisant le principe inductif, c’est-à-dire une méthode connue pour être membre de l’ensemble : c’est pourquoi la voyance, malgré toutes ses prétentions occultes, doit être soumise au contrôle des méthodes scientifiques, c’est-à-dire au principe d’induction.

C’est dans l’analyse exposée que nous voyons la solution du problème de Hume.[20] Hume en demandait trop lorsqu’il voulait pour justification de l’inférence inductive une preuve que sa conclusion est vraie. Ce que ses objections démontrent, c’est seulement qu’une telle preuve ne peut être donnée. Nous n’effectuons cependant pas une inférence inductive avec la prétention d’obtenir un énoncé vrai. Ce que nous obtenons, c’est un pari ; et c’est le meilleur pari que l’on puisse faire car il correspond à une procédure dont l’applicabilité est la condition nécessaire de la possibilité des prédictions. Il n’est pas en notre pouvoir de remplir les conditions suffisantes pour obtenir des prédictions vraies ; réjouissons-nous de pouvoir remplir au moins les conditions nécessaires à la réalisation de ce but intrinsèque de la science.

§ 40 Deux objections contre notre justification de l’induction

Notre analyse du problème de l’induction repose sur notre définition du but de l’induction comme l’évaluation d’une limite de la fréquence. Certaines objections peuvent être soulevées quant à cet énoncé du but de l’induction.

La première objection repose sur l’idée que notre formulation est trop exigeante, que le postulat de l’existence de la limite de la fréquence est un postulat trop fort. Il est avancé que le monde peut être prévisible même s’il n’y a pas de limites de fréquence, que notre définition de la prévisibilité restreindrait trop étroitement ce concept, excluant d’autres types de structures qui pourraient peut-être être accessibles aux prédictions sans impliquer des séries d’événements avec des limites de fréquence. Appliquée à notre théorie de l’induction, cette objection ébranlerait la cohérence de notre justification ; en s’en tenant strictement au principe d’induction, l’homme de science pourrait exclure d’autres possibilités de prévoir l’avenir qui pourraient fonctionner même si l’inférence inductive devait échouer.[21]

À cela nous devons répondre que notre postulat n’exige pas l’existence d’une limite de fréquence pour toutes les séries d’événements. Il suffit qu’il y ait un certain nombre de séries de ce type ; à l’aide de celles-ci, nous devrions alors pouvoir de déterminer l’autre série. On peut imaginer des séries qui oscillent entre deux valeurs numériques de la fréquence ; on peut montrer que la description de séries de ce type est réductible à l’indication de sous-séries déterminables ayant une limite de la fréquence. Introduisons le terme de série réductible pour les séries qui sont réductibles à d’autres séries ayant une limite de fréquence ; notre définition de la prévisibilité énonce alors seulement que le monde est constitué de séries réductibles. La procédure inductive, la méthode d’anticipation et de correction ultérieure, conduira automatiquement à distinguer les séries ayant une limite des autres séries et à décrire ces autres au moyen de la série ayant une limite. Nous ne pouvons entrer ici dans les détails mathématiques de ce problème ; pour un développement de celui-ci nous devons nous référer à une autre publication.[22]

Pour échapper à notre défense, l’objection pourrait être poursuivie par la construction d’un monde dans lequel il n’y a pas de série ayant une limite. Dans un tel monde, pourrait argumenter notre adversaire, il pourrait y avoir un clairvoyant qui connaîtrait chaque événement d’une série individuellement, qui pourrait prédire avec précision ce qui se passera d’un événement à l’autre — n’est-ce pas « prévoir l’avenir » sans avoir une limite de fréquence à sa disposition ?

Nous ne pouvons l’admettre. Appelons le cas où la prédiction du voyant correspond à l’événement observé ultérieurement, (non-) le cas contraire. Or si le voyant devait avoir la faculté supposée, la série d’événements du type et définirait une série avec une limite de fréquence. Si l’homme était un prophète parfait, cette limite serait le nombre  ; cependant on peut admettre des prophètes moins parfaits avec une limite inférieure. Quoi qu’il en soit, nous avons construit ici une série avec une limite. Nous devons avoir une telle série si nous voulons contrôler le prophète ; notre contrôle ne consisterait en rien d’autre que l’application du principe d’induction à la série d’événements et , c’est-à-dire en une déduction inductive quant à la fiabilité du prophète, sur la base de ses succès. Ce n’est que si la réduction à une telle série avec une limite est possible que nous pouvons savoir si l’homme est un bon prophète ou non, car seule cette réduction nous donne les moyens de contrôle.

On voit par cette considération que le cas imaginé n’est pas plus général mais moins général que notre monde de séries réductibles. Une prévision nous donnant une véritable détermination de chaque événement est un cas beaucoup plus particulier que l’indication de la limite de la fréquence et est donc incluse dans notre procédure inductive. Nous voyons en même temps que notre postulat de l’existence de limites de fréquences n’est pas une restriction du concept de prédictibilité. Toute méthode de prédiction définit par elle-même une série avec une limite de fréquence ; donc, si la prédiction est possible, il y a des séries avec des limites de fréquences.

On est donc en droit d’appeler l’applicabilité de la procédure inductive une condition nécessaire de la prédictibilité. Nous voyons en même temps pourquoi une telle relation existe : c’est une conséquence logique de la définition de la prédictibilité. C’est pourquoi nous ne pouvons démontrer la position unique du principe inductif qu’au moyen de relations tautologiques. Bien que l’inférence inductive ne soit pas une tautologie, la preuve qu’elle conduit à la meilleure proposition ne repose que sur des tautologies. La conception formelle de la logique a été placée, par le problème de l’induction, devant le paradoxe qu’une inférence qui conduit à quelque chose de nouveau doit être justifiée dans une conception de la logique qui ne permet que des transformations vides, c’est-à-dire tautologiques : ce paradoxe est résolu par la reconnaissance que le « quelque chose de nouveau » fourni par l’inférence n’est pas maintenu comme un énoncé vrai mais comme notre meilleur postulat, et que la démonstration n’est pas orientée vers la vérité de la conclusion, mais vers la relation logique de la procédure avec le but de la connaissance.

On pourrait soulever, instinctivement, une objection contre notre théorie de l’induction : qu’il y apparaisse quelque chose comme « une condition nécessaire de la connaissance » — un concept qui est accompagné, depuis la théorie de la connaissance de Kant, d’une saveur plutôt désagréable. Dans notre théorie, cependant, cette qualité du principe inductif ne découle pas d’une quelconque qualité a priori de la raison humaine, mais trouve son origine dans d’autres sources. Celui qui veut quelque chose doit dire ce qu’il veut ; celui qui veut prédire doit dire ce qu’il entend par prédire. Si nous essayons de trouver une définition de ce terme qui corresponde, au moins dans une certaine mesure, à la pratique habituelle du langage, la définition — indépendamment de toute autre détermination — s’avérera impliquer le postulat de l’existence de certaines séries ayant une limite de fréquence. C’est de cette composante de la définition que l’on déduit que le principe d’induction est une condition nécessaire de la prévisibilité. L’application du principe d’induction ne signifie donc pas une restriction ou une renonciation à la prévisibilité sous une autre forme — elle ne signifie rien d’autre que l’interprétation mathématique de ce que nous entendons par prévisibilité, à proprement parler.

Passons maintenant à une deuxième objection. La première objection prétendait que notre définition de la prévisibilité était trop exigeante ; la seconde objection, au contraire, soutient que cette définition est trop peu exigeante, que ce que nous appelons prévisibilité n’est pas une condition suffisante pour les prédictions réelles. Cette objection provient du fait que notre définition admet des séries infinies d’événements ; à cette conception s’oppose le point de vue selon lequel une série réellement observable est toujours finie, d’une longueur même assez restreinte, déterminée par la courte durée des vies humaines.

Nous ne nierons pas ce dernier fait. Nous devons admettre qu’il peut exister une série d’événements ayant une limite dont la convergence commence si tard que la petite partie de la série observée par les êtres humains ne révèle aucun indice de la convergence ultérieure. Une telle série aurait pour nous le caractère d’une série non convergente. En appliquant le principe d’induction, nous ne devrions jamais réussir nos déductions ; après un court laps de temps, nos postulats s’avéreraient toujours faux. Bien que, dans un tel cas, la condition de prévisibilité soit remplie, la procédure inductive ne serait pas un moyen pratiquement suffisant pour la découvrir.

Nous ne nierons pas non plus cette conséquence. Nous n’admettons cependant pas que le cas considéré soulève une quelconque objection à notre théorie. Nous ne sommes pas partis pour notre justification de l’induction d’un présupposé qu’il existe des séries ayant une limite ; malgré cela, nous avons réussi à donner la justification recherchée. Ceci a été rendu possible par l’utilisation du concept de condition nécessaire ; nous avons dit que, si nous ne sommes pas sûrs de la possibilité du succès, nous devons au moins réaliser ses conditions nécessaires. Le cas d’une convergence trop tardive revient au même que le cas d’une non-convergence, en ce qui concerne les capacités humaines. Cependant, si nous parvenons à justifier la procédure inductive même si ce pire des cas ne peut être exclu a priori, notre justification aura également pris en compte l’autre cas, celui d’une convergence trop tardive.

Introduisons le terme de limite pratique pour une série montrant une convergence suffisante dans un domaine accessible aux observations humaines ; ajoutons que nous pouvons couvrir par ce terme le cas d’une série qui, sans converger à l’infini, montre une convergence approximative dans un segment de la série, accessible en pratique et suffisamment long (une série dite « semi-convergente » ). Nous pouvons donc dire que notre théorie ne concerne pas une limite mathématique, mais une limite pratique. La prévisibilité doit être définie à l’aide de la limite pratique, et la procédure inductive n’est une condition suffisante de succès que si la série en question a une limite pratique. Avec ces concepts, cependant, nous pouvons tout aussi bien mener à bien notre argumentation. L’applicabilité de la procédure inductive peut être démontrée, même dans le domaine de ces concepts, comme étant la condition nécessaire de la prévisibilité.

C’est sur le concept de condition nécessaire que repose notre raisonnement. Il est vrai que si la série en question n’avait pas de limite pratique — y compris le cas d’une convergence trop tardive — cela impliquerait l’inefficacité de la procédure inductive. L’éventualité de ce cas ne doit cependant pas nous empêcher de parier au moins sur le succès. Ce n’est que si nous savions que le cas défavorable est réel que nous devrions renoncer aux tentatives de prédiction. Mais ce n’est évidemment pas notre cas. Nous ne savons pas si nous allons réussir, mais nous ne savons pas non plus le contraire. Hume pensait qu’une justification de l’induction ne pouvait être donnée parce que nous ne savions pas si nous allions réussir ; la formulation correcte, au contraire, serait qu’une justification de l’induction ne pouvait être donnée si nous savions que nous n’allions pas réussir. Nous ne sommes pas dans cette dernière situation, mais dans la première ; la question du succès est pour nous indéterminée, et nous pouvons donc au moins oser un pari. Le pari, cependant, ne doit pas être fixé arbitrairement mais choisi le plus favorablement possible ; nous devons au moins actualiser les conditions nécessaires au succès, si les conditions suffisantes ne sont pas à notre portée. L’applicabilité de la procédure inductive étant une condition nécessaire de la prévisibilité, cette procédure déterminera notre meilleur pari.

Nous pouvons comparer notre situation à celle d’un homme qui veut pêcher dans une partie inexplorée de la mer. Personne ne peut lui dire s’il y a ou non du poisson à cet endroit. Doit-il jeter son filet ? Eh bien, s’il veut pêcher à cet endroit, je lui conseille de jeter son filet, de tenter sa chance au moins. Il est préférable d’essayer même dans l’incertitude que de ne pas essayer et d’être certain de ne rien obtenir.

§ 41 — Inductions concaténées

Les considérations sur la possibilité d’une convergence trop lente de la série ne sauraient ébranler notre justification de la procédure inductive, comme signifiant au moins une tentative de trouver une série pratiquement convergente ; elles soulignent cependant l’utilité de méthodes qui conduiraient à une approximation plus rapide, c’est-à-dire qui indiqueraient la vraie valeur de la limite en un point de la série où la fréquence relative est encore assez éloignée de la valeur limite. On peut vouloir encore plus ; on peut vouloir des méthodes qui nous donnent la valeur numérique de la limite avant que l’actualisation physique de la série n’ait commencé — un problème qui peut être considéré comme un cas extrême du premier problème. L’élaboration de telles méthodes est en effet une question de la plus haute importance ; nous nous demanderons maintenant si elles existent ou non, et comment on peut les trouver.

Nous avons déjà rencontré un exemple qui peut être considéré comme la transition vers une méthode d’approximation plus rapide. Nous avons évoqué la possibilité d’un voyant et dit que ses capacités pourraient être contrôlées par le principe inductif ; nous avons dit que, si le contrôle confirmait les prédictions, le voyant devait être considéré comme un prophète fiable, et ses indications comme supérieures à celles du principe inductif. Cette idée montre une caractéristique importante des méthodes inductives. On peut parfois déduire du principe inductif qu’il est préférable d’appliquer une autre méthode de prédiction ; le principe inductif peut conduire à son propre dépassement. Ce n’est pas une contradiction ; au contraire, il n’y a aucune difficulté logique dans une telle procédure ; c’est même l’une des méthodes les plus utiles de l’enquête scientifique.

Si nous voulons étudier des déductions de ce type, nous n’avons pas besoin de faire appel à des voyants ou à des oracles de type mystique : la science elle-même a développé ces méthodes dans une large mesure. La méthode de recherche scientifique peut être considérée comme une concaténation de déductions inductives, dans le but de remplacer le principe inductif dans tous les cas où il conduirait à un résultat erroné, ou dans lesquels il nous mènerait trop tard au bon résultat. C’est à cette procédure d’inductions concaténées que l’on doit l’immense succès de la méthode scientifique. La complication de la procédure est devenue la raison pour laquelle elle a été mal interprétée par de nombreux philosophes ; la contradiction apparente à une application directe du principe inductif, dans des cas individuels, a été considérée comme une preuve de l’existence de méthodes non inductives qui devaient être supérieures à la méthode « primitive » de l’induction. Ainsi, le principe de la connexion causale a été conçu comme une méthode non inductive qui devait nous fournir une « connexion interne » des phénomènes au lieu de la « simple succession » fournie par l’induction. De telles interprétations révèlent une profonde incompréhension des méthodes scientifiques. Il n’y a pas de différence entre les lois causales et les lois inductives ; les premières ne sont rien d’autre qu’un cas particulier des secondes. C’est le cas d’une limite égale à , ou du moins approximativement égale à  ; si nous connaissons, dans un tel cas, la valeur de la limite, avant même que la série n’ait commencé, nous avons le cas de la prédiction individuelle d’événements futurs se produisant dans des conditions inédites, telle qu’elle est exigée dans le cadre de la conception causale de la connaissance. Ce cas est donc inclus dans notre théorie des inductions concaténées.

Le lien entre toutes les chaînes d’inférences conduisant à des prédictions est toujours l’inférence inductive. C’est parce que parmi toutes les déductions scientifiques, il n’y en a qu’une seule d’une portée considérable : c’est la déduction inductive. Toutes les autres déductions sont vides, tautologiques ; elles n’ajoutent rien de nouveau aux expériences dont elles partent. L’inférence inductive le fait ; c’est pourquoi elle est la forme élémentaire de la méthode de découverte scientifique. Cependant, c’est la seule forme ; il n’y a pas de cas de connexions de phénomènes supposés par la science qui ne s’intègrent pas dans le schéma inductif. Il suffit de construire ce schéma sous une forme suffisamment générale pour qu’il englobe toutes les méthodes scientifiques. Pour ce faire, nous devons nous tourner vers l’analyse des inductions concaténées.

Nous commençons par un cas assez simple qui montre déjà la structure logique par laquelle la déduction inductive peut être supplantée dans un cas individuel. Les chimistes ont découvert que presque toutes les substances fondent si elles sont suffisamment chauffées ; seul le carbone n’a pas été liquéfié. Les chimistes ne croient cependant pas que le carbone soit infusible ; ils sont convaincus qu’à une température plus élevée, le carbone fondra également et que ce n’est qu’en raison de l’imperfection de nos moyens techniques qu’une température suffisamment élevée n’a pas encore été atteinte. Pour interpréter la structure logique des déductions liées à ces expériences, désignons par l’état fondu de la substance, par l’état contraire, et rangeons les états dans une série de températures croissantes ; nous avons alors le schéma suivant

Cuivre :
Fer :

. . . . . . . .


. . . . . . . .

Carbone :
À ce schéma, que nous appelons un treillis de probabilités, nous appliquons l’inférence inductive dans deux directions. La première est la direction horizontale. Pour les premières lignes, elle fournit le résultat selon lequel, au-dessus d’une certaine température, la substance sera toujours à l’état liquide. (Notre exemple est un cas particulier de déduction inductive, où la limite de la fréquence est égale à .) Pour la dernière ligne, la déduction correspondante donnerait le résultat que le carbone est infusible. Mais ici intervient une inférence dans le sens vertical ; elle constate que dans tous les autres cas la série conduit à la fusion, et en déduit qu’il en sera de même pour la dernière ligne si l’expérience est suffisamment poursuivie. On voit qu’il y a ici une induction croisée concernant une série de séries, et que cette induction du deuxième niveau remplace une induction du premier niveau.

Cette procédure peut être interprétée de la manière suivante. En appliquant le principe inductif dans le sens horizontal, nous procédons à des posits concernant la limite de la fréquence ; ce sont des posits aveugles, car nous ne connaissons pas de poids coordonné. Présupposant la validité de ces postulats, nous comptons ensuite dans le sens vertical et constatons que la valeur 1 a une fréquence relative élevée parmi les limites horizontales, tandis que la valeur 0 fournie par la dernière ligne est une exception. De cette façon, nous obtenons un poids pour les limites horizontales ; ainsi les posits aveugles sont transformés en posits, avec un poids évalué. En fonction des poids obtenus, nous corrigeons maintenant le posit de la dernière ligne pour qu’il ait le poids le plus élevé. La procédure peut donc être conçue comme une transformation de posits aveugles en posits avec des poids évalués, combinée avec des corrections découlant des poids obtenus — une méthode de probabilité typique, basée sur l’interprétation de la fréquence. Elle utilise l’existence de probabilités de différents niveaux. La fréquence à l’intérieur des lignes horizontales détermine une probabilité de premier niveau ; en comptant la fréquence à l’intérieur d’une série dont les éléments sont eux-mêmes des séries, on obtient une probabilité de second niveau.[23] La probabilité de second niveau détermine le poids de la phrase énonçant une probabilité de premier niveau. Il ne faut cependant pas oublier que la transformation en posit expertisé ne concerne que les posits du premier niveau, alors que les posits du second niveau restent aveugles. Ainsi, à la fin de la transformation, il apparaît un postulat aveugle de niveau supérieur. Celui-ci peut bien sûr être transformé en posit de poids évalué, si on l’incorpore dans un collecteur supérieur dont les éléments sont des séries de séries ; il est évident que cette transformation fournira à nouveau un nouveau posit aveugle d’un niveau encore plus élevé. Nous pouvons dire : Tout posit aveugle peut être transformé en posit avec un poids évalué, mais la transformation introduit de nouveaux posits aveugles. Il y aura donc toujours des postulats aveugles sur lesquels l’ensemble de la concaténation est basé.

Notre exemple est un cas particulier dans la mesure où les limites qui apparaissent sont uniquement et . Si nous voulons trouver des exemples du cas général, nous devons passer à des cas de lois statistiques. Pour avoir un modèle des inférences qui se produisent, considérons un exemple de la théorie des jeux de hasard, choisi sous une forme telle que des inférences simplifiées se produisent.

Supposons qu’il y ait un ensemble de trois urnes contenant des boules blanches et noires dans différents rapports de combinaison ; supposons que nous sachions que les rapports des boules blanches au nombre total de boules sont , , et , mais que nous ne sachions pas à quelle urne appartient chacun de ces rapports. On choisit une urne, puis on y effectue quatre tirages (en mettant toujours une boule noire dans l’urne avant le tirage suivant), et obtenir trois boules blanches. En ce qui concerne les tirages ultérieurs de la même urne, deux questions se posent :

1. Quelle est la probabilité d’obtenir une boule blanche ?

Selon le principe inductif, on répondra à cette question par . Il s’agit d’un postulat aveugle. Pour la transformer en une hypothèse avec un poids évalué, nous passons à la deuxième question :

2. Quelle est la probabilité que la probabilité d’une boule blanche soit de  ?

Cette question concerne une probabilité du second degré ; elle est équivalente à la question de la probabilité jugée sur la base des tirages déjà effectués que l’urne choisie contienne le rapport . Le calcul des probabilités, par des considérations impliquant également un problème de treillis de probabilités, donne à cette question une réponse assez compliquée qu’il n’est pas nécessaire d’analyser ici ; dans notre exemple, il fournit la valeur . On voit que si notre meilleur posit dans le cas donné sera la limite de la fréquence, ce posit n’est pas très bon ; il n’a lui-même que le poids . En considérant le dessin suivant comme un cas unique, nous avons ici deux poids : le poids pour le dessin d’une boule blanche, et le poids pour la valeur du premier poids. Le second poids dans ce cas est plus petit que le premier ; si, pour obtenir une comparaison, nous écrivons les poids en fractions décimales, nous avons pour le premier et pour le second poids.

Dans cet exemple, le postulat de départ est confirmé par la détermination du poids du deuxième niveau, celui-ci étant supérieur à , et donc supérieur au poids du deuxième niveau appartenant aux paris à la limite ou . Par un autre choix des valeurs numériques, on obtiendrait un cas de correction, c’est-à-dire un cas où le poids du deuxième niveau nous inclinerait à changer le premier posit. S’il y avait vingt urnes, dont dix-neuf contenaient des boules blanches dans un rapport de , et une seule contenait des boules blanches dans un rapport de , la probabilité au deuxième niveau deviendrait  ; dans ce cas, il faudrait corriger le premier postulat et poser la limite , en opposition au principe d’induction. L’occurrence de trois boules blanches parmi quatre serait alors considérée comme une exception fortuite qui ne pourrait pas être considérée comme une base suffisante pour une inférence inductive ; cette correction serait due au changement d’un postulat aveugle en un postulat évalué.

Notre exemple est, comme nous l’avons dit, simplifié ; cette simplification est contenue dans les deux points suivants. Premièrement, nous avons présupposé une certaine connaissance des valeurs possibles des probabilités du premier niveau : qu’il n’y a en litige que les trois valeurs , , et (dans le second cas : seulement les deux valeurs et ). Deuxièmement, nous avons présupposé que les urnes sont également probables pour notre choix, c’est-à-dire que nous attribuons aux urnes les probabilités initiales (dans le deuxième cas : ) ; cette présupposition est également contenue dans le calcul de la valeur (dans le deuxième cas : ) pour la probabilité du deuxième niveau.

En général, nous n’avons pas droit à de tels présupposés. Nous sommes plutôt obligés de nous renseigner sur les valeurs possibles des probabilités du premier niveau et des probabilités initiales correspondantes. La structure de ces déductions doit également être exprimée dans un treillis de probabilités, mais d’un type plus général que celui utilisé dans l’exemple concernant la fusion de substances chimiques ; les limites des fréquences qui apparaissent ici ne sont pas seulement ou . Les réponses ne peuvent être données que sous la forme de postulats basés sur des observations de fréquence, de sorte que l’ensemble du calcul implique encore d’autres postulats et des postulats du type aveugle. C’est la raison pour laquelle nous ne pouvons pas nous passer de postulats aveugles ; même si chacun d’entre eux peut être transformé en un postulat évalué, de nouveaux postulats aveugles sont introduits par la transformation elle-même.[24]

Avant d’analyser ce processus conduisant à des posits et à des poids de niveaux supérieurs, nous devons examiner certaines objections à notre interprétation probabiliste des inférences scientifiques. On pourrait alléguer que toutes les inférences scientifiques ne sont pas purement de type probabiliste et ne sont donc pas entièrement couvertes par notre schéma inductif. L’objection peut porter sur le fait que nos déductions reposent sur des hypothèses causales sans lesquelles nous ne devrions pas nous aventurer à placer nos paris. Dans notre exemple chimique, l’affirmation de la limite dans les lignes horizontales de la figure n’est pas seulement basée sur une simple énumération des et des . Nous savons que si une substance est déjà fondue, elle ne deviendra pas solide à une température plus élevée. La possibilité de liquéfier le carbone à des températures plus élevées ne repose pas non plus sur le simple comptage des lignes de la figure ; la théorie atomique de la matière nous apprend que la chaleur, en augmentant la vitesse des atomes, doit avoir pour effet de décomposer la structure des solides. Les hypothèses causales de ce type jouent un rôle décisif dans les déductions telles que celles fournies par l’exemple.

Nous ne nierons pas la pertinence de telles considérations pour la déduction effective du physicien, mais leur présence n’exclut pas la possibilité que ces hypothèses dites causales admettent une interprétation de type inductif. Nous avons simplifié notre analyse pour montrer la structure inductive des principales inférences ; ce que montre l’objection, c’est qu’il n’est pas correct d’isoler certaines des chaînes inductives, et que chaque cas est incorporé dans l’ensemble de la concaténation de la connaissance. Notre thèse selon laquelle toutes les inférences se produisant sont de type inductif n’est pas ébranlée pour autant. Nous allons le montrer à l’aide d’un autre exemple qui clarifiera la nature inductive des explications dites causales.

La loi de la gravitation de Newton a toujours été considérée comme le prototype d’une loi explicative. La loi de Galilée sur la chute des corps et la loi de Kepler sur le mouvement elliptique des corps célestes étaient des généralisations inductives de faits observés ; mais la loi de Newton, dit-on, était une explication causale des faits observés. Newton n’a pas observé les faits mais a réfléchi sur eux ; son idée d’une force d’attraction a expliqué les mouvements observés, et la forme mathématique qu’il a donnée à ses idées ne montre aucune ressemblance avec les méthodes de probabilité telles qu’elles apparaissent dans notre schéma. N’est-ce pas là une preuve contre notre interprétation inductive des déductions scientifiques ?

Je ne peux l’admettre. Au contraire, la découverte de Newton me semble impliquer des méthodes typiques de la procédure de probabilité de la science. Pour le montrer, entrons dans une analyse plus détaillée de l’exemple.

Les expériences de Galilée ont été réalisées sur des corps en chute dont il a observé les positions spatio-temporelles ; il a constaté que les quantités mesurées s’inscrivaient dans la formule , et en a déduit, par le biais du principe inductif, que la même loi vaut pour des cas similaires. Désignons par le cas où les valeurs spatio-temporelles mesurées répondent à la relation  ; nous avons alors une série dans laquelle a été observé avec une fréquence relative presque égale à , et pour laquelle nous maintenons une limite de fréquence à . De même, Kepler a observé une série de positions spatio-temporelles de la planète Mars et a trouvé qu’elles pouvaient être reliées par une relation mathématique qu’il a appelée la loi des aires. Si nous désignons à nouveau par le cas où la relation est satisfaite par les valeurs spatio-temporelles, nous obtenons également une série dans laquelle a une fréquence relative de presque , et pour laquelle une limite à est déduit. Les cas contraires (non-) comprennent les cas, jamais totalement éliminés, dans lesquels les observations ne s’intègrent pas dans la relation mathématique. Comme les observations des deux exemples se rapportent non pas à une mais à plusieurs séries d’expériences, nous devons les représenter par le schéma suivant :

(graphique)

C’est la découverte de Newton qu’une formule peut être donnée qui inclut les observations de Galilée et de Kepler ; nous pouvons donc considérer le schéma précédent, composé de deux parties, comme un schéma indivis pour lequel le cas est défini par une seule relation mathématique. C’est la fameuse relation qui fait cela ; le cas peut être considéré comme signifiant la correspondance des observations à cette loi mathématique, dans les deux parties du schéma.

Cette reconnaissance élargit considérablement les possibilités d’application des méthodes de probabilité. Nous sommes maintenant en mesure d’appliquer des déductions croisées allant des lignes galiléennes du schéma aux lignes képlériennes, et inversement ; c’est-à-dire que la validité des lois de Kepler n’est plus basée sur le seul matériel d’observation de Kepler mais conjointement sur le matériel de Galilée, et inversement, la validité de la loi de Galilée est conjointement soutenue par le matériel d’observation de Kepler. Avant Newton, de tels croisements n’étaient possibles qu’à l’intérieur de chaque section du « schéma séparément ». La découverte de Newton, en unifiant les deux théories, implique donc une augmentation de la certitude pour chacune d’entre elles ; elle relie un ensemble plus complet de matériel d’observation pour former un groupe inductif.

L’accroissement de certitude décrit correspond à la conception des hommes de science manifestée à l’occasion de découvertes théoriques de ce type. La logique et l’épistémologie classiques n’ont pu fournir aucun argument valable pour cette interprétation ; c’est seulement la logique des probabilités qui, par l’idée d’inductions concaténées, est en mesure de justifier une telle conception. On voit que ce n’est qu’en plaçant la structure causale de la connaissance dans le cadre de la probabilité que l’on parvient à en comprendre les traits essentiels.

§ 42. Les deux types de simplicité

On pourrait objecter à notre interprétation que, logiquement parlant, la découverte de Newton est triviale ; si l’on dispose d’un ensemble fini d’observations de nature très différente, il est toujours mathématiquement possible de construire une formule qui englobe simultanément toutes les observations. En général, une telle formule serait très compliquée, et même si compliquée qu’un esprit humain ne serait pas capable de la découvrir ; c’est l’avantage de la découverte de Newton que, dans ce cas, une formule très simple suffit. Mais c’est tout ce que Newton a fait, poursuit l’objection ; la théorie de Newton est plus simple, plus élégante que d’autres, mais le progrès dans le sens de la vérité n’est pas lié à sa découverte. La simplicité est une question de goût scientifique, un postulat d’économie scientifique, mais n’a aucun rapport avec la vérité.

Ce type de raisonnement, bien connu de nombreux auteurs positivistes, est le résultat d’une profonde incompréhension du caractère probabiliste des méthodes scientifiques. Il est vrai que pour tout ensemble d’observations, une formule complète peut être construite, au moins théoriquement, et que la formule de Newton se distingue de toutes les autres par sa simplicité. Mais cette simplicité n’est pas une question de science goût scientifique ; elle a au contraire une fonction inductive, c’est-à-dire qu’elle apporte à la formule de Newton de bonnes qualités prédictives. Pour le montrer, il faut ajouter une remarque concernant la simplicité.

Il y a des cas où la simplicité d’une théorie n’est qu’une question de goût ou d’économie. Il s’agit des cas où les théories comparées sont logiquement équivalentes, c’est-à-dire qu’elles se correspondent dans tous les faits observables. Un cas bien connu de ce type est la différence des systèmes de mesure. Le système métrique est plus simple que le système des yards et des pouces, mais il n’y a pas de différence dans leur caractère de vérité ; à toute indication dans le système métrique correspond une indication dans le système des yards et des pouces — si l’un est vrai, l’autre l’est aussi, et inversement. La plus grande simplicité dans ce cas est vraiment une question de goût et d’économie. Les calculs dans le système métrique permettent d’appliquer les règles des fractions décimales ; c’est là, en effet, un grand avantage pratique qui rend souhaitable l’introduction du système métrique dans les pays qui s’en tiennent encore au système des yards et des pouces, mais c’est là la seule différence. Pour ce type de simplicité qui ne concerne que la description et non les faits coordonnés à la description, j’ai proposé le nom de simplicité descriptive. Elle joue un grand rôle dans la physique moderne dans tous les cas où nous avons le choix entre plusieurs définitions. C’est le cas dans de nombreux théorèmes d’Einstein ; c’est la raison pour laquelle la théorie de la relativité offre un grand nombre d’exemples de simplicité descriptive. Ainsi, le choix d’un système de référence qui doit être appelé système au repos est une question de simplicité descriptive ; c’est l’un des résultats des idées d’Einstein que nous devons parler ici de simplicité descriptive, qu’il n’y a pas de différence de caractère de vérité comme le croyait Copernic. La question de la définition de la simultanéité ou de du choix de la géométrie euclidienne ou non euclidienne sont également de ce type. Dans tous ces cas, il s’agit uniquement d’une question de commodité pour laquelle nous décidons de la définition.

Cependant, il existe d’autres cas où la simplicité détermine le choix entre des théories non équivalentes. C’est le cas lorsqu’il s’agit de tracer un diagramme qui est déterminé par certaines mesures physiques. Imaginons qu’un physicien ait trouvé par expérience les points indiqués sur la figure 6 ; il veut tracer une courbe qui passe par

Fig. 6 — La courbe la plus simple : simplicité inductive

les données observées. Il est bien connu que le physicien choisit la courbe la plus simple ; il ne faut pas y voir une question de commodité. Nous avons tracé sur la figure 6, en plus de la courbe la plus simple, une courbe (en pointillé) qui fait de nombreuses oscillations entre les points observés. Les deux courbes correspondent quant aux mesures observées, mais elles diffèrent quant aux mesures futures ; elles signifient donc des prédictions différentes à partir du même matériel d’observation. Le choix de la courbe la plus simple dépend donc d’une hypothèse inductive : nous pensons que la courbe la plus simple donne les meilleures prédictions. Dans ce cas, on parle de simplicité inductive ; ce concept s’applique aux théories qui diffèrent en ce qui concerne les prédictions, bien qu’elles soient basées sur le même matériel d’observation. Ou, plus précisément, la relation « différence quant à la simplicité inductive » s’applique aux théories qui sont équivalentes en ce qui concerne tous les faits observés, mais qui ne sont pas équivalentes en ce qui concerne les prédictions.[25]

La confusion entre les deux types de simplicité a causé beaucoup de dégâts dans le domaine de la philosophie des sciences. Des positivistes comme Mach ont parlé d’un principe d’économie qui remplacerait l’objectif de vérité prétendument suivi par la science ; il n’y a pas, disent-ils, de vérité scientifique mais seulement une description la plus économique possible. Il ne s’agit là que d’une confusion des deux concepts de simplicité. Le principe d’économie détermine le choix entre des théories qui diffèrent par leur simplicité descriptive ; cette idée a été transférée à tort aux cas de simplicité inductive, avec pour résultat qu’il n’y a plus de vérité mais seulement de l’économie. En réalité, dans les cas de simplicité inductive, ce n’est pas l’économie qui détermine notre choix. Le principe régulateur de la construction des théories scientifiques est le postulat du meilleur caractère prédictif ; toutes nos décisions quant au choix entre des théories non équivalentes sont déterminées par ce postulat. Si, dans de tels cas, la question de la simplicité joue un certain rôle dans notre décision, c’est parce que nous faisons l’hypothèse que la théorie la plus simple fournit les meilleures prédictions. Cette hypothèse ne peut être justifiée par la commodité ; elle a un caractère de vérité et exige une justification dans le cadre de la théorie des probabilités et de l’induction.

Notre théorie de l’induction nous permet de donner cette justification. Nous avons justifié la déduction inductive en montrant qu’elle correspond à une procédure dont l’application continue doit conduire au succès, si tant est que le succès soit possible. La même idée vaut pour le principe de la courbe la plus simple. Ce que nous voulons construire avec le diagramme, c’est une fonction continue qui détermine les observations passées et futures, une loi mathématique des phénomènes. En gardant cet objectif à l’esprit, nous pouvons justifier la procédure de la courbe la plus simple en divisant notre raisonnement en deux étapes.

Dans un premier temps, imaginons que nous joignons les points observés par une chaîne de lignes droites, telle que dessinée dans la figure 6. Il doit s’agir d’une première approximation, car s’il existe une fonction telle que nous voulons la construire, il doit être possible de l’approximer par une chaîne de lignes droites. Il se peut qu’une observation ultérieure montre une déviation trop importante ; nous corrigerons alors notre diagramme en traçant une nouvelle chaîne de lignes droites, incluant les points nouvellement observés. Cette procédure de dessin préliminaire et de correction ultérieure doit conduire à la courbe vraie, si tant est qu’elle existe — son applicabilité est une condition nécessaire de l’existence d’une loi déterminant les phénomènes.

C’est la méthode d’anticipation qui est adoptée avec un tel procédé. Nous ne savons pas si les points observés sont suffisamment denses pour admettre une approximation linéaire de la courbe ; mais nous anticipons ce cas, étant prêts à corriger notre hypothèse si des observations ultérieures ne la confirment pas. Un jour ou l’autre, cette procédure sera couronnée de succès, si tant est qu’elle puisse l’être.

Mais l’enchaînement de lignes droites ne correspond pas à la procédure réelle appliquée par le physicien. Il préfère une courbe lisse, sans angles, à la chaîne de lignes droites. La justification de cette procédure nécessite une deuxième étape dans nos considérations.

Pour ce faire, nous devons considérer les dérivées de la fonction représentée par la courbe. Les quotients différentiels d’une fonction sont considérés en physique comme des entités physiques, au même titre que l’entité originale représentée par la fonction ; ainsi, si l’entité originale est une distance spatiale représentée comme une fonction du temps, la première dérivée est une vitesse, la seconde une accélération, etc. Pour toutes ces entités dérivées, nous visons également à construire des lois mathématiques ; nous voulons trouver pour elles aussi des fonctions continues telles que celles recherchées dans notre diagramme. Si l’on considère la chaîne de droites de ce point de vue, elle échoue déjà pour la dérivée première ; dans ce cas, le quotient différentiel premier, conçu comme une fonction de l’argument , n’est pas représenté par une courbe continue mais par une chaîne discontinue de droites horizontales. Ceci peut être illustré par la figure , dont les lignes pointillées correspondent à la dérivée première de la chaîne de droites de la figure  ; on voit que l’on n’obtient même pas ici une chaîne continue de droites mais une chaîne décomposée en plusieurs parties. Ainsi, si l’on approxime la courbe originale par une chaîne de droites, le principe de l’approximation linéaire n’est respecté que pour la courbe originale ; pour la dérivée première, il est déjà violé. Il en va autrement pour la courbe lisse ; ses dérivées, conçues comme des fonctions de , sont également des courbes lisses. C’est ce que montre la figure , où la dérivée première de la courbe lisse de la figure est représentée par la ligne continue lisse. C’est la raison pour laquelle la courbe lisse est préférée. Elle a, par rapport à l’ensemble des points observés, des qualités similaires à celles d’une interpolation linéaire et peut être justifiée par le principe d’anticipation ; de plus, elle satisfait également le même postulat pour ses dérivées.

La procédure d’interpolation la plus lisse peut donc être considérée comme une superposition d’interpolations linéaires effectuées pour la construction de la fonction originale et de ses dérivées. Ainsi, l’interpolation non linéaire par la courbe la plus lisse peut être justifiée par une réduction aux interpolations linéaires qui déterminent, dans l’ensemble, qu’une interpolation non linéaire est préférable. La procédure ne correspond pas à une induction unique mais à une concaténation d’inductions concernant différentes fonctions se trouvant dans la relation mutuelle d’une fonction et de sa dérivée ; le résultat est une meilleure induction, car elle est basée sur une application répétée du principe inductif, et incorpore des corrections dans le sens défini au § 41.

Fig. 7. — Dérivées de la courbe la plus simple, et de la chaîne de droites, développées à partir de la Fig. 6.

Il reste une objection à notre raisonnement. Nous avons réussi à justifier la préférence de la courbe lisse à la chaîne de droites ; mais le postulat de la courbe lisse n’est pas sans ambiguïté. Si une courbe telle que celle tracée en pointillé sur la figure 6 est exclue, il reste d’autres courbes lisses très semblables à celle tracée ; les points observés ne nous fourniront pas une décision claire quant au choix entre des courbes lisses aussi semblables. Laquelle choisir ?

Il faut ici répondre que le choix n’est pas pertinent. Du point de vue de l’approximation, il n’y a pas de grande différence entre ces formes de courbes ; elles convergent toutes asymptotiquement ; elles ne diffèrent pas essentiellement prédictions sont concernées. Le choix entre les deux peut donc être déterminé du point de vue de la commodité. Le principe de simplicité inductive ne détermine le choix que dans une certaine mesure : il exclut la courbe oscillante de la figure , mais il reste un petit domaine d’indétermination à l’intérieur duquel le principe de simplicité descriptive peut être appliqué. Nous préférons ici une expression analytique plus simple parce que nous savons mieux la manier dans un contexte mathématique ; cela est permis parce que les fonctions ouvertes à notre choix ne diffèrent pas de manière pertinente quant aux prédictions d’observations ultérieures entre les points observés.

Une autre objection peut être soulevée à l’encontre de ce dernier argument. Il est vrai que dans le domaine des points observés, il n’y a pas de grande différence entre toutes ces courbes lisses ; mais cela n’est plus valable en dehors de ce domaine. Toutes les fonctions analytiques définissent une prolongation de la courbe dans un domaine éloigné, et deux fonctions analytiques qui ne diffèrent que légèrement dans le domaine intérieur peuvent conduire à de grandes différences quant aux extrapolations. Par conséquent, le choix entre elles ne peut être justifié par la simplicité descriptive en ce qui concerne les extrapolations ; comment alors justifier ce choix ?

Il faut répondre qu’un ensemble d’observations ne justifie pas du tout une extrapolation d’une longueur considérable. Le désir de connaître la suite de la courbe bien au-delà du domaine observé peut être très fort chez le physicien ; mais, s’il ne dispose que de l’ensemble observé, il doit renoncer à toute hypothèse d’extrapolation. Le principe inductif est la seule règle dont dispose le physicien ; s’il ne s’applique pas, la philosophie ne peut pas lui fournir un principe mystérieux indiquant la voie où l’induction échoue — dans ce cas, il ne reste plus qu’à s’avouer un modeste ignorabimus.

Notre adversaire pourrait objecter que l’homme de science ne se conforme pas toujours à cette alternative. Seul l’esprit de médiocrité se soumet au renoncement, s’exclamera-t-il ; le génie scientifique ne se sent pas lié aux étroites restrictions de l’induction — il devinera la loi en dehors du domaine des faits observés, même si votre principe d’induction ne peut justifier ses pressentiments. Votre théorie de l’induction comme interpolation, comme méthode d’approximation continuelle au moyen d’anticipations, peut être assez bonne pour les problèmes subalternes de la recherche scientifique, pour l’achèvement et la consolidation des théories scientifiques. Laissons cette tâche aux artisans de la recherche scientifique, le génie suit d’autres voies, inconnues de nous, injustifiables a priori, mais justifiées a posteriori par le succès de ses prédictions. La découverte de Newton n’est-elle pas l’œuvre d’un génie qui n’aurait jamais été obtenue par les méthodes de la simple induction ? La découverte par Einstein de nouvelles lois sur le mouvement des planètes, sur la courbure de la lumière par la gravitation, sur l’identité de la masse et de l’énergie, etc. n’est-elle pas une construction d’idées qui n’a aucun rapport avec les diagrammes de courbes d’interpolation, avec les statistiques de fréquences relatives, avec la lente conduite des approximations, pas à pas ?

Qu’il me soit permis de dire que je serais le dernier à discréditer le travail des grands hommes de science. Je sais aussi bien que d’autres que le travail de leur esprit ne peut être remplacé par des modes d’emploi de diagrammes et de statistiques. Je ne me risquerai pas à décrire les modes de pensée qu’ils ont suivis au moment de leurs grandes découvertes ; l’obscurité de la naissance des grandes idées ne sera jamais éclaircie de façon satisfaisante par l’investigation psychologique. Je n’admets cependant pas que ces faits constituent une objection à ma théorie de l’induction comme seul moyen d’expansion des connaissances.

Nous avons signalé au début de notre enquête (§ 1) la distinction entre le contexte de la découverte et le contexte de la justification. Nous avons souligné que l’épistémologie ne peut se préoccuper du premier mais seulement du second ; nous avons montré que l’analyse de la science n’est pas orientée vers les processus de pensée réels mais vers la reconstruction rationnelle de la connaissance. C’est cette détermination de la tâche de l’épistémologie qu’il faut rappeler si l’on veut construire une théorie de la recherche scientifique.

Ce que nous voulons mettre en évidence avec notre théorie de l’induction, c’est la relation logique de la nouvelle théorie avec les faits connus. Nous n’insistons pas sur le fait que la découverte de la nouvelle théorie s’effectue par une réflexion du type de notre exposé ; nous ne soutenons rien sur la question de savoir comment elle s’effectue — ce que nous soutenons n’est rien d’autre que la relation d’une théorie aux faits, indépendamment de l’homme qui a trouvé la théorie. Il doit y avoir une relation précise de ce genre, sinon il n’y aurait rien à découvrir pour l’homme de science. Pourquoi la théorie de la gravitation d’Einstein a-t-elle été une grande découverte, avant même d’être confirmée par des observations astronomiques ? Parce qu’Einstein a vu — ce que ses prédécesseurs n’avaient pas vu — que les faits connus indiquent une telle théorie, c’est-à-dire qu’une expansion inductive des faits connus conduit à la nouvelle théorie. C’est justement ce qui distingue le grand découvreur scientifique du voyant. Ce dernier veut prévoir l’avenir sans recourir à l’induction ; sa prévision est une construction à ciel ouvert, sans pont avec le solide domaine de l’observation, et c’est un simple hasard si ses prédictions se confirment ou non. L’homme de science construit sa prévision de telle sorte que les faits connus la soutiennent par des relations inductives ; c’est pourquoi nous nous fions à sa prédiction. Ce qui fait la grandeur de son travail, c’est qu’il voit les relations inductives entre les différents éléments du système de connaissance là où d’autres ne les voyaient pas ; mais il n’est pas vrai que l’induction prédise des phénomènes qui n’ont aucune relation inductive avec les faits connus. Le génie scientifique ne se manifeste pas en négligeant dédaigneusement les méthodes inductives ; au contraire, il montre sa suprématie sur les modes de pensée inférieurs en maniant mieux, en utilisant plus intelligemment les méthodes d’induction, qui resteront toujours les véritables méthodes de la découverte scientifique.

Qu’il y ait une relation inductive des faits connus à la nouvelle théorie devient évident par la réflexion suivante. Les adeptes de l’opinion contraire croient que la construction de la nouvelle théorie est due à une sorte de pressentiment mystique, mais que plus tard, après une confirmation des prédictions contenues dans la nouvelle théorie, celle-ci se révèle vraie. Il ne s’agit là que d’une des schématisations injustifiées de la logique à deux valeurs. Nous n’aurons jamais une preuve définitive de la théorie ; la soi-disant confirmation consiste en la démonstration de certains faits qui confèrent une plus grande probabilité à la théorie, c’est-à-dire qui permettent des inférences inductives assez simples à la théorie. La situation avant la confirmation ne diffère de celle après qu’en degré. Cette situation est caractérisée par l’apparition de certains faits qui confèrent au moins une certaine probabilité à la théorie et qui la distinguent des autres comme notre meilleure hypothèse, selon les méthodes inductives. C’est ce que voit le bon théoricien. S’il n’y avait pas de telles relations inductives, sa supposition ne serait qu’une simple hypothèse, et son succès ne serait dû qu’au hasard.

Nous pouvons ajouter que la distinction entre le contexte de justification et le contexte de découverte n’est pas limitée à la seule pensée inductive. La même distinction s’applique aux opérations déductives de la pensée. Si nous sommes confrontés à un problème mathématique, par exemple la construction d’un triangle à partir de trois paramètres donnés, la solution (ou la classe de solutions) est entièrement déterminée par le problème donné. Si une solution quelconque nous est présentée, nous pouvons décider sans ambiguïté et uniquement à l’aide d’opérations déductives si elle est correcte ou non. La manière dont nous trouvons la solution, cependant, reste en grande partie dans l’obscurité inexplorée de la pensée productive et peut être influencée par des considérations esthétiques, ou un « sentiment d’harmonie géométrique ». Les rapports de grands mathématiciens montrent que les considérations esthétiques peuvent jouer un rôle décisif dans la découverte de grands théorèmes mathématiques. Pourtant, en dépit de ce fait psychologique, personne ne proposerait une théorie philosophique selon laquelle la solution des problèmes mathématiques est déterminée par des points de vue esthétiques. La relation objective des entités données à la solution et la manière subjective de la trouver sont clairement séparées pour les problèmes de caractère déductif ; nous devons apprendre à faire la même distinction pour le problème de la relation inductive des faits aux théories.

Il y a des cas, il est vrai, où une décision claire quant à la théorie la plus favorable ne peut être obtenue parce qu’il y a plusieurs théories avec des poids égaux indiqués par les faits. Cela ne signifie pas que le principe inductif nous soit défavorable ; au contraire, un grand nombre de théories est toujours exclu par ce principe. Mais parmi les poids du reste admissible, il se peut qu’il n’y ait pas de maximum, ou un maximum si faible qu’il ne peut être considéré comme fournissant la base d’une décision claire. Dans ces cas, que nous pouvons appeler des cas de décision différentielle[26], différents hommes de science décideront pour des théories différentes, leur décision étant déterminée par des goûts personnels plus que par des principes scientifiques ; la décision finale sera alors prise par des expériences ultérieures d’un caractère crucial. C’est une sorte de « sélection naturelle », de « lutte pour l’existence », qui détermine dans un tel cas l’acceptation finale d’une théorie scientifique ; bien que ce cas se produise, et pas trop rarement, il ne faut pas oublier qu’il s’agit simplement d’un cas où la prophétie scientifique s’effondre, la décision en faveur d’une hypothèse n’étant possible qu’après la survenance des événements prédits. L’homme qui a prédit la bonne théorie est alors parfois considéré comme un grand prophète parce qu’il connaissait la vraie prédiction même dans un cas où les principes scientifiques de prédiction ont échoué. Mais il ne faut pas oublier que son succès est celui d’un joueur qui s’enorgueillit d’avoir prévu le rouge ou le noir. Ce présumé don prophétique révélera toujours sa nature fallacieuse dans un second cas de prédiction où le succès fera défaut. L’homme de science, dans le cas d’une décision différentielle, ferait mieux d’admettre qu’il ne peut pas faire son choix rationnellement.

Dans le cadre de notre introduction au concept de simplicité inductive, nous avons illustré sa signification par un diagramme et indiqué qu’une courbe lisse était le modèle de ce type de simplicité. Cependant, ce n’est pas le seul cas de ce genre. Les connexions inductives de la physique moderne sont construites analytiquement ; c’est pourquoi le théoricien de la physique doit être un bon mathématicien.[27]

La procédure inductive de Newton a consisté à démontrer qu’une simple formule mathématique couvre à la fois les lois de Galilée et de Kepler. La simplicité de la formule exprime son caractère d’interpolation, de linéarité, ou presque linéaire ; c’est à cette qualité que l’on doit ses qualités prédictives. La théorie de Newton ne se contente pas d’intégrer les observations de Galilée et de Kepler, elle conduit aussi à des prédictions ; ces « prédictions » peuvent concerner des phénomènes déjà connus, mais qui n’ont pas été vus auparavant en relation avec d’autres phénomènes, ni utilisés comme partie de la base sur laquelle la nouvelle théorie a été construite. C’est le cas de l’explication des marées par Newton. D’autre part, la théorie de Newton a également conduit à des prédictions, à proprement parler, par exemple l’attraction d’une boule de plomb sur d’autres corps, telle qu’elle a été observée par Cavendish lors de la rotation d’une balance de torsion.

Nous avons soulevé la question de savoir si, dans un diagramme, une extrapolation est possible qui s’étend à un domaine assez éloigné du domaine des points observés. Il existe des exemples dans lesquels de telles extrapolations semblent se produire. Mais ces cas s’expliquent autrement : il y a des faits d’un autre type, n’appartenant pas au domaine des points d’observation marqués dans le diagramme, qui soutiennent l’extrapolation. Il s’agit par exemple des cas où la forme analytique de la courbe est connue du physicien avant les observations, et où celles-ci ne sont faites que pour déterminer les constantes numériques de l’expression analytique. Ce cas, assez fréquent en physique, correspond dans notre exemple à une détermination de la courbe par des faits extérieurs au domaine observé ; car la forme analytique de la courbe est alors déterminée par des réflexions reliant le phénomène en question à d’autres phénomènes.

Un exemple du même type est la prédiction par Einstein de la déviation des rayons lumineux émis par les étoiles dans le champ gravitationnel du soleil. S’il n’avait poursuivi que le projet de trouver une généralisation de la loi de Newton sur le mouvement des planètes telle que les irrégularités de la planète Mercure aurait été expliquée, son hypothèse de la déviation de la lumière aurait été une extrapolation injustifiée et non justifiée par des inductions. Mais Einstein a vu qu’il disposait d’un ensemble d’observations beaucoup plus complet, qui pouvait être interpolé au moyen de l’idée qu’un champ gravitationnel et un mouvement accéléré sont toujours équivalents. De ce « principe d’équivalence » découle immédiatement la déviation de la lumière, des rayons ; ainsi, dans un contexte plus large, la prédiction d’Einstein était « l’interpolation la plus harmonieuse ». C’est cette qualité que dénotent les prédicats fréquemment appliqués aux théories d’Einstein, tels que « la simplicité naturelle de ses hypothèses » ; ces prédicats expriment la simplicité inductive d’une théorie, c’est-à-dire son caractère d’interpolation harmonieuse. Cela ne diminue en rien la grandeur de la découverte d’Einstein ; au contraire, c’est justement le fait d’avoir vu cette relation qui le distingue d’un voyant et fait de lui l’un des plus admirables prophètes dans le cadre des méthodes scientifiques. Le don de voir des lignes d’interpolation harmonieuse dans un vaste domaine de faits d’observation est un don rare du destin ; réjouissons-nous d’avoir des hommes capables d’effectuer à l’égard de tout le domaine de la connaissance des déductions dont la structure réapparaît dans les modestes déductions que l’artisan de la science applique dans son travail de tous les jours.

§ 43. La structure probabiliste de la connaissance

Notre discussion des méthodes de la recherche scientifique et de la formation des théories scientifiques nous a conduits au résultat que la structure des inférences scientifiques doit être conçue comme une concaténation d’inférences inductives. La structure élémentaire de cette concaténation est le treillis de probabilités ; nous pouvons ici nous référer à l’exposé de cette forme d’inférence au §41. En conséquence des idéalisations, dans lesquelles la transition de la probabilité à la pratique vérité joue un rôle décisif, le caractère probabiliste des inférences n’est pas toujours facilement perceptible ; les étapes courtes des inférences inductives peuvent être combinées en de longues chaînes formant des étapes plus longues d’une structure si compliquée qu’il peut être difficile de voir l’inférence inductive comme le seul élément atomique qui les compose. Pour indiquer la méthode de décomposition de telles structures et de leur réduction à des déductions inductives, nous pouvons ajouter ici une discussion sur quelques exemples.

Il y a des cas où une expérience peut décider du sort d’une théorie. Ces cas d’experimentum crucis sont souvent cités contre la conception inductive de la science ; ils semblent prouver que ce n’est pas le nombre de cas qui décide en faveur d’une théorie, mais quelque chose comme un « aperçu immédiat de la nature même du phénomène », ouvert pour nous par une seule expérience. En y regardant de plus près, la procédure se révèle être un cas particulier d’inductions concaténées. Nous pouvons savoir, par expérience, qu’il n’y a que deux possibilités pour une certaine expérience, c’est-à-dire que nous pouvons savoir, avec une grande probabilité, que sera suivi de ou de et, en outre, qu’il y a une grande probabilité que sera toujours suivi du même type d’événement, et non alternativement des deux. Dans un tel cas, si les probabilités d’occurrence sont élevées, une seule expérience peut effectivement suffire à la décision. C’est le cas de l’expérience décisive de Lavoisier sur la combustion. En pratique, il ne restait que deux théories pour expliquer la combustion : la première soutenait qu’une substance spécifique, le phlogiston, s’échappait pendant la combustion ; la seconde supposait qu’une substance provenant de l’air pénétrait dans le corps brûlant pendant la combustion. Lavoisier a montré dans une expérience célèbre que le corps était plus lourd après avoir été brûlé qu’avant ; une seule expérience pouvait donc trancher en faveur de la théorie de l’oxydation de la combustion. Mais cela n’a été possible que parce que les inductions antérieures avaient exclu toutes les théories sauf deux et parce que les inductions antérieures avaient rendu très probable le fait que tous les processus de combustion sont du même type. Ainsi, l’experimentum crucis trouve son explication dans la théorie de l’induction et n’implique pas d’autres hypothèses ; c’est seulement la superposition d’un grand nombre d’inférences inductives élémentaires qui crée des structures logiques dont la forme dans son ensemble, si l’on s’en tient à une conception schématisée, suggère l’idée d’inférences non inductives.

C’est le grand mérite de John Stuart Mill d’avoir souligné que toutes les inférences empiriques sont réductibles à l’inductio per enumerationem simplicem. La preuve exacte n’a cependant été obtenue que par la démonstration que le calcul des probabilités peut être ramené à ce principe, démonstration qui présuppose une construction axiomatique du calcul des probabilités. La physique applique dans ses déductions, outre la logique et les mathématiques en général, les méthodes du calcul des probabilités ; une analyse de cette dernière discipline était donc aussi nécessaire à l’épistémologie qu’une analyse de la logique et des méthodes générales des mathématiques.

C’est en raison de ce fondement des inférences probabilistes sur le principe de l’induction que nous sommes en droit d’interpréter les inférences conduisant des observations aux faits comme des inférences inductives. Les déductions apparaissant sous la forme des schémas développés dans le cadre du calcul des probabilités sont réductibles, pour cette raison, à des déductions inductives. C’est le cas de nombreuses déductions qui, après un examen superficiel, ne présentent aucun caractère probabiliste, mais ressemblent à une décision concernant une hypothèse, basée sur l’observation de ses « conséquences nécessaires ». Si un détective déduit de quelques empreintes digitales sur un couteau ensanglanté que M. X est un meurtrier, il est généralement justifié en disant : « Il est impossible qu’un autre homme ait les mêmes empreintes digitales que M. X ; il est impossible que le couteau ensanglanté qui gît à côté du cadavre de la victime n’ait pas été utilisé pour tuer l’homme, dans les conditions données, et ainsi de suite. Ces soi-disant impossibilités ne sont cependant que des probabilités très faibles, et toute l’inférence doit être considérée comme relevant de la règle de Bayes, l’un des schémas bien connus du calcul des probabilités qui est utilisé pour déduire d’observations données les probabilités de leurs causes. Elle ne fournit donc pas une certitude mais seulement une forte probabilité pour l’hypothèse en question.

Les déductions scientifiques des observations aux faits sont du même type. Si Darwin a soutenu la théorie selon laquelle l’ordre logique des organismes selon la différenciation de leur structure interne peut être interprété comme l’ordre historique du développement des espèces, cette théorie est basée sur des faits tels que la correspondance entre l’ordre temporel des couches géologiques (déterminé par leur superposition) et l’apparition d’organismes supérieurs. Dans l’hypothèse d’une théorie qui considère les organismes supérieurs comme aussi anciens que les plus bas, cette correspondance apparaîtrait comme un résultat très improbable. Inversement, selon la règle de Bayes, le fait observé rend la théorie de Darwin probable et l’autre théorie improbable. Le caractère probabiliste de cette inférence est généralement masqué par l’utilisation d’énoncés tels que « L’autre théorie est incompatible avec les faits observés », énoncé dans lequel on passe d’une faible probabilité à une impossibilité ; et des conceptions épistémologiques ont été développées selon lesquelles une théorie est testée sans ambiguïté par ses conséquences. Un œil averti découvre néanmoins des structures de probabilité dans toutes ces inférences des faits aux théories. Cette analyse permet également de réduire les inférences qui se produisent à des inférences inductives, en raison de la réductibilité du calcul des probabilités au principe inductif. C’est la raison pour laquelle nous pouvons dire que les déductions scientifiques des faits aux théories sont des déductions inductives.

L’induction scientifique n’est pas d’une forme « supérieure » aux inductions ordinaires de la vie quotidienne ; mais elle est meilleure dans le sens d’une différence de degré. Cette différence est due à la concaténation d’inductions telles que celles exprimées dans l’application des règles du calcul des probabilités ; elles conduisent à des résultats qui ne seraient jamais atteints par des inductions directes. Nous avons dit que la nature inductive de ces déductions est parfois obscurcie par une schématisation dans laquelle les implications probabilistes sont remplacées par des implications strictes ; ceci peut être illustré par un autre exemple. Certains philosophes ont distingué une induction généralisante d’une induction exacte ; la première serait notre pauvre induction liée à la fréquence, qui se limite aux seules probabilités ; tandis que la seconde serait une méthode supérieure de connaissance qui, bien que basée sur l’expérience, conduirait à la certitude absolue. Je me réfère ici à une discussion que j’ai eue un jour avec un biologiste de haut rang, qui refusait d’admettre que sa science dépende d’un principe aussi imparfait que l’inductio per enumerationem simplicem. Il m’a présenté un exemple concernant les animaux carnivores et herbivores. Nous observons, disait-il, que les premiers ont un intestin court, les seconds un intestin long ; nous en déduisons donc par induction généralisante qu’il y a une relation de cause à effet entre la nourriture et la longueur de l’intestin. Ce n’est qu’une simple supposition, a-t-il dit, mais elle est prouvée plus tard par induction exacte au moment où nous réussissons à modifier expérimentalement la longueur de l’intestin par la nourriture que nous donnons à l’animal. De telles expériences ont en effet été réalisées avec succès sur des têtards.[28] Mais ce qui est négligé dans ce type de raisonnement c’est que la différence en question n’est rien d’autre qu’une différence de degré. Les expériences sur les têtards élargissent le matériel d’observation, et précisément dans un sens qui nous permet d’utiliser certaines lois bien établies par des inductions antérieures, comme la loi selon laquelle la nourriture a une influence sur le développement de l’organisme, que les autres conditions dans lesquelles les animaux ont été gardés n’ont pas d’influence en général sur leurs intestins, et ainsi de suite. Je ne dis pas cela pour déprécier le travail des biologistes ; au contraire, le progrès de la connaissance, des probabilités inférieures aux probabilités supérieures, est dû à des expériences de ce genre. Il n’y a cependant aucune raison d’établir une différence qualitative entre les méthodes lorsqu’il s’agit de différences quantitatives. Ce que fait le scientifique expérimental, c’est de créer des conditions dans lesquelles tous les processus qui se produisent, à l’exception de celui qui doit être testé, sont conformes à des cas connus ; en isolant le phénomène inconnu d’autres phénomènes inconnus, il parvient à des formes plus simples d’inférence inductive. En ce qui concerne l’interprétation de cette procédure, nous devons veiller à ne pas confondre une idéalisation avec les déductions qui se produisent réellement. Si nous considérons que ces probabilités élevées sont égales à , nous transformons la procédure réelle en un schéma dans lequel des « connexions causales » se produisent et dans lequel une expérience peut démontrer avec certitude une nouvelle « loi causale ». Déduire de l’applicabilité d’un tel schéma l’existence d’une « induction exacte » qui serait d’un type logique différent de l’induction ordinaire, c’est surestimer une approximation et tirer des conclusions qui ne sont valables que pour le schéma et non pour la procédure réelle à laquelle il s’applique.

Toute épistémologie qui force la connaissance à entrer dans le cadre de la logique à deux valeurs est exposée à ce danger. L’épistémologie traditionnelle a commis la grave erreur de considérer la connaissance comme un système de propositions à deux valeurs ; c’est à cette conception que sont dues toutes les formes d’apriorisme, qui ne sont rien d’autre qu’une tentative de justifier une connaissance absolument certaine de caractère synthétique. Et c’est aussi à cette conception que sont dues toutes les formes de scepticisme, le renoncement à la vérité étant l’attitude des esprits les plus critiques devant le problème d’une telle connaissance absolue. La voie entre Scylla et Charybde est indiquée par la théorie des probabilités de la connaissance. Il n’y a pas de connaissance absolument certaine ni d’ignorance absolue — il y a un chemin entre les deux, indiqué par le principe d’induction comme notre meilleur guide.

Si nous disons que la logique à deux valeurs ne s’applique pas à la connaissance réelle, ce n’est pas pour affirmer qu’elle est fausse. Il s’agit seulement d’affirmer que les conditions de son application ne sont pas réalisées. Les propositions scientifiques ne sont pas utilisées comme des entités à deux valeurs mais comme des entités ayant un poids dans une échelle continue ; par conséquent, les présupposés de la logique à deux valeurs ne sont pas réalisés dans la science. Traiter la science comme un système de propositions à deux valeurs revient à jouer aux échecs sur un échiquier dont les cases sont plus petites que les pieds des pièces ; les règles du jeu ne peuvent pas être appliquées dans un tel cas car il reste indéterminé sur quelle case se trouve une pièce. De même, les règles de la logique à deux valeurs ne peuvent s’appliquer aux propositions scientifiques, du moins pas en général, car il n’y a pas de valeur de vérité déterminée correspondant aux propositions, mais seulement un poids. C’est donc la logique probabiliste seule qui s’applique à la connaissance dans sa structure générale.

N’y a-t-il pas moyen, nous demandera-t-on, d’échapper à cette conséquence ? N’y a-t-il pas moyen de transformer la logique des probabilités en logique bivalente ? Pour répondre à cette question, nous pouvons nous servir de nos investigations concernant cette transformation (§ 36). Nous avons montré qu’il y a deux façons d’effectuer une telle transformation. La première est la manière de dichotomie ou de trichotomie ; nous avons constaté que cette méthode ne peut conduire qu’à une validité approximative de la logique à deux valeurs. La seconde voie fait appel à l’interprétation fréquentielle ; cependant, elle est également limitée à une validité approximative pour deux raisons : premièrement, parce que l’élément individuel de la série propositionnelle n’est pas strictement vrai ou faux et, deuxièmement, parce que la fréquence à affirmer ne peut pas être affirmée avec certitude. C’est ce dernier point de vue qu’il nous faut maintenant analyser plus précisément.

La transition considérée peut être conçue, si l’on utilise la conception logique de la probabilité (§ 33), comme une transition d’énoncés de probabilité à des énoncés sur la probabilité d’autres énoncés ; mais il serait erroné de croire que l’on pourrait ainsi aboutir à une logique stricte à deux valeurs. Un énoncé sur la probabilité d’un autre énoncé n’est en soi ni vrai ni faux, mais nous est seulement donné avec un poids déterminé. En utilisant la transition en question, nous n’arriverons jamais à autre chose que des probabilités. Nous sommes liés à cette série d’étapes menant d’une probabilité à une autre. Ce n’est qu’une schématisation si l’on s’arrête à l’une des marches et que l’on considère la forte probabilité qui y est obtenue comme une vérité. C’est donc une schématisation que d’avoir parlé tout au long de notre enquête du prédicat de poids ; il aurait fallu parler d’un ensemble infini de poids de tous niveaux coordonnés à un énoncé. On peut se référer ici à notre exemple numérique (§41) dans lequel nous avons calculé la probabilité pour un énoncé du premier niveau et la probabilité pour l’énoncé du second niveau que le premier énoncé ait la probabilité  ; dans cet exemple, nous avons coupé le vol à la deuxième étape. Il s’agit également d’une schématisation, en raison des conditions simplifiées dans lesquelles le problème a été donné ; une considération exhaustive devrait prendre en compte toutes les probabilités des niveaux infiniment nombreux.

Dans l’exemple donné, nous voyons aussi une autre caractéristique de la structure probabiliste de la connaissance : les probabilités qui interviennent ne sont en aucun cas toutes d’un degré élevé ou d’un degré faible. Il y a aussi des degrés intermédiaires ; leur calcul peut être basé sur la fréquence des propositions élémentaires dont la probabilité est proche des valeurs extrêmes ou (cf. §36) — mais les propositions auxquelles ces probabilités sont coordonnées comme des poids entrent dans le système de la connaissance comme des propositions d’un degré de poids intermédiaire. C’est pourquoi, pour l’ensemble de la science, la logique bivalente ne s’applique même pas au sens d’une approximation. Une application approximative de la logique à deux valeurs n’est possible que si nous considérons non pas les propositions directes de la science, mais celles du deuxième niveau ou d’un niveau supérieur — les propositions concernant la probabilité des propositions directes de la science.[29]

L’occurrence de différentes probabilités de niveaux supérieurs est une caractéristique spécifique de la logique probabiliste ; la logique à deux valeurs ne présente cette caractéristique que sous une forme dégénérée. Notre probabilité du deuxième niveau correspondrait, dans la logique à deux valeurs, à la vérité de la phrase « La phrase est vraie » ; mais si est vrai, alors «  est vrai » est vrai aussi. Il n’est donc pas nécessaire de considérer les valeurs de vérité des niveaux supérieurs dans la logique à deux valeurs ; c’est pourquoi ce problème ne joue aucun rôle dans la logique traditionnelle ou la logistique. En revanche, en logique des probabilités, nous ne pouvons pas nous passer de considérations de la sorte ; c’est pourquoi l’application de la logique des probabilités à la structure logique de la science est une affaire assez compliquée. Ces réflexions deviennent pertinentes si nous voulons définir la probabilité d’une théorie scientifique. Cette question a pris une certaine importance dans la discussion récente sur la théorie de la probabilité de la connaissance. On a tenté de montrer que la logique des probabilités n’est pas un cadre suffisamment large pour inclure les théories scientifiques dans leur ensemble. Pour les théories scientifiques, nous ne connaissons pas de probabilité précise, et nous ne pouvons pas la déterminer parce qu’il n’existe pas de méthodes définissant une voie pour une telle détermination.

Cette objection provient du fait que l’on sous-estime l’importance des probabilités des niveaux supérieurs. Nous avons dit qu’il s’agissait déjà d’une schématisation si l’on parlait de la probabilité, ou du poids d’une proposition simple ; cette schématisation est cependant admissible en tant qu’approximation suffisante. Mais ce n’est plus le cas si l’on passe des propositions simples aux théories scientifiques. Par exemple, la probabilité de la théorie quantique n’existe pas. Une théorie physique est un agrégat assez complexe ; ses différentes composantes peuvent avoir des probabilités différentes qui doivent être déterminées séparément. Les probabilités qui interviennent ici ne sont pas toutes du même niveau. Une théorie scientifique appartient, par conséquent, à un ensemble de probabilités, y compris les probabilités des différentes parties de la théorie et des différents niveaux.[30]

Dans le cadre de l’analyse du problème de la probabilité des théories, une question en particulier a été au premier plan de la discussion. On s’est demandé si la probabilité d’une théorie concerne les faits prédits par la théorie, ou s’il faut considérer la théorie comme un phénomène sociologique et compter le nombre de théories réussies produites par l’humanité. La réponse est que les deux types de calcul s’appliquent mais qu’ils correspondent à des niveaux différents. La théorie quantique prédit un grand nombre de phénomènes, tels que les observations sur les électromètres et les rayons lumineux, avec des probabilités déterminées ; comme la théorie doit être considérée comme la conjonction logique de propositions sur ces phénomènes, sa probabilité peut être déterminée comme le produit arithmétique de ces probabilités élémentaires. C’est la probabilité d’appartenance du premier niveau à la théorie quantique. D’autre part, on peut considérer la théorie quantique comme un élément de l’ensemble des théories produites par les physiciens et demander le ratio des théories réussies au sein de cet ensemble. La probabilité ainsi obtenue doit être interprétée non pas comme la probabilité directe de la théorie quantique, mais comme la probabilité de l’hypothèse « La théorie quantique est vraie » ; comme la vérité dont il est question ici n’est pas une vérité stricte, mais seulement une forte probabilité, à savoir celle du premier niveau, la probabilité du second niveau est indépendante de celle du premier et exige un calcul propre. Nous voyons qu’au moins deux probabilités de niveaux différents jouent un rôle dans les questions sur les théories ; nous pourrions en construire encore d’autres, en considérant d’autres types de classification de la théorie. Si l’on ajoute la prise en compte du fait que les parties d’une théorie peuvent déjà appartenir à des niveaux différents, on voit qu’une théorie dans le cadre de la théorie probabiliste de la connaissance n’est pas caractérisée par un simple poids mais par un ensemble de poids comprenant en partie des poids de mêmes niveaux, en partie de niveaux différents.

Le calcul pratique de la probabilité d’une théorie comporte des difficultés, mais il serait erroné de supposer que notre conception est dépourvue de toute base pratique. Il est vrai que que la probabilité des théories d’une grande généralité n’est généralement pas calculée quantitativement ; mais dès que des déterminations de caractère numérique se produisent dans la science, telles que celles concernant les constantes physiques, elles sont combinées avec des calculs qui peuvent être interprétés comme des étapes préliminaires vers le calcul de la probabilité d’une théorie. C’est dans l’application de la théorie mathématique des erreurs que des considérations de ce type trouvent leur expression. L’« erreur moyenne » d’une détermination peut être interprétée, selon des résultats bien connus du calcul des probabilités[31], comme les limites à l’intérieur desquelles l’écart des observations futures restera avec la probabilité  ; cette indication peut donc être conçue comme le calcul d’une probabilité de premier niveau d’une hypothèse. Si nous disons que « la vitesse de la lumière est de km/sec, avec une erreur moyenne de , ou de pour cent »[32], on peut lire : « La probabilité que la vitesse de la lumière se situe entre km/sec et km/sec, est de  ». On peut facilement montrer que l’on peut en déduire une limite inférieure pour la probabilité (au premier niveau) de l’hypothèse d’Einstein sur la constance de la vitesse de la lumière ; en passant à des limites de précision un peu plus larges et en appliquant certaines propriétés de la loi de Gauss, on peut énoncer ce résultat sous cette forme : « La probabilité de l’hypothèse d’Einstein sur la constance de la vitesse de la lumière est supérieure à , si l’on admet une fourchette numérique de pour la valeur possible de la constante ».

Des considérations du même type peuvent être menées pour des théories plus globales. En ce qui concerne les probabilités du deuxième niveau, nous ne pouvons pas encore déterminer leurs valeurs numériques. On a objecté que nous nous heurtons ici à une difficulté de principe car nous ne savons pas dans quelle classe la théorie doit être incorporée si l’on veut déterminer sa probabilité au sens fréquentiel ; ainsi si l’on veut déterminer la probabilité de second niveau de la théorie quantique, doit-on considérer la classe des théories scientifiques en général, ou seulement celle des théories physiques, ou seulement celle des théories physiques de l’époque moderne ? Je ne pense pas qu’il s’agisse d’une difficulté sérieuse, car la même question se pose pour la détermination de la probabilité d’événements uniques ; j’ai indiqué au § 34 la méthode à suivre dans un tel cas. La classe la plus étroite dont on dispose est la meilleure ; elle doit cependant être assez nombreuse pour permettre des statistiques fiables. Si la probabilité des théories (du deuxième niveau) n’est pas encore accessible à une détermination quantitative, la raison en est à chercher, je pense, dans le fait que nous ne disposons pas dans ce domaine d’une statistique suffisamment importante de cas uniformes. En d’autres termes, si nous utilisons une classe de cas dont le nombre n’est pas trop faible, nous pouvons facilement indiquer une sous-classe dans laquelle la probabilité est considérablement différente. Nous savons cela d’après des considérations générales et nous n’essayons donc pas de faire des statistiques. Les statistiques futures pourront peut-être surmonter ces difficultés, comme les difficultés similaires des statistiques météorologiques ont été surmontées. Tant que nous n’aurons pas de telles statistiques, des évaluations grossières seront utilisées à leur place, comme dans tous les domaines de la connaissance humaine qui ne sont pas encore accessibles à des déterminations quantitatives satisfaisantes. Des évaluations de ce type (concernant la probabilité de second niveau d’une théorie) peuvent acquérir une importance pratique dans les cas où nous jugeons une théorie en fonction du succès obtenu avec d’autres théories dans ce domaine ; si un astronome propose une nouvelle théorie de l’évolution de l’univers, nous hésitons à faire confiance à cette théorie en raison d’expériences malheureuses avec d’autres théories de ce type.

Une dernière objection subsiste. Nous avons dit qu’une théorie, et même une proposition simple, se caractérise non pas par un seul poids, mais par un ensemble de poids en nombre infini. Il faut en tout cas se limiter à un nombre fini de membres. Cela se justifierait si tous les membres suivants étaient des poids de degré  ; on pourrait alors considérer le dernier poids utilisé comme réellement déterminé. Mais, si l’on ne sait rien de tous les autres membres de l’ensemble, comment les omettre tous ? Comment justifier l’utilisation des poids des niveaux inférieurs si l’on ne sait rien des poids des niveaux supérieurs ?

Pour voir la force de cette objection, imaginons le cas où tous les autres poids sont d’un degré très faible — proche de zéro. Il en résulterait que le dernier poids déterminé par nous ne serait pas fiable ; le poids précédent le deviendrait également et, comme ce manque de fiabilité se transmettrait également au poids du premier niveau, l’ensemble du système de poids serait sans valeur. Comment justifier notre théorie des poids, et par là même la procédure probabiliste de la connaissance, devant la possibilité irréfutable d’un tel cas ?

Cette objection n’est rien d’autre que l’objection bien connue à laquelle la procédure d’induction est déjà exposée dans sa forme la plus simple. Nous ne savons pas si nous réussirons à poser notre pari correspondant au principe de l’induction. Mais nous avons constaté que, tant que nous ne savons pas le contraire, il convient de parier, de tenter sa chance au moins. Nous savons que le principe d’induction détermine notre meilleur pari, ou posit, parce que c’est le seul posit dont nous savons qu’il doit conduire au succès, si tant est que le succès soit possible. Quant au système d’inductions concaténées, nous en savons plus : nous savons qu’il est meilleur que n’importe quelle induction isolée. Le système, dans son ensemble, conduira au succès plus tôt qu’une induction unique ; et il peut conduire au succès même si certaines inductions uniques restent sans succès. Cette différence logique, la supériorité du réseau d’inductions concaténées sur les inductions simples peut être démontrée par des considérations purement mathématiques, c’est-à-dire au moyen de tautologies ; notre préférence pour le système d’inductions peut donc être justifiée sans faire appel à des présupposés concernant la nature. Il est très remarquable qu’une telle démonstration puisse être faite ; bien que nous ne sachions pas si nos moyens de prédiction auront du succès, nous pouvons cependant établir un ordre entre eux et en distinguer un, le système des inductions concaténées, comme étant le meilleur. Avec ce résultat, l’application du système d’inductions scientifiques trouve une justification similaire, et même meilleure, que celle de l’induction unique : le système d’inductions scientifiques est le meilleur posit que nous connaissons sur l’avenir.

Nous avons constaté que les posits du niveau le plus élevé sont toujours des posits aveugles ; ainsi le système de connaissance, dans son ensemble, est un posit aveugle. Les postulats des niveaux inférieurs ont des poids évalués, mais leur utilité dépend des poids inconnus des postulats des niveaux supérieurs. L’incertitude de la connaissance dans son ensemble pénètre donc jusqu’aux postulats les plus simples que nous puissions faire, ceux qui concernent les événements de la vie quotidienne. Un tel résultat semble inévitable pour toute théorie de la prédiction. Nous n’avons aucune certitude quant à la prévision de l’avenir. Nous ne savons pas si les prédictions de théories compliquées, telles que la théorie quantique ou la théorie des molécules d’albumine, se révéleront exactes ; nous ne savons même pas si les hypothèses les plus simples concernant notre avenir immédiat seront confirmées, qu’il s’agisse du lever du soleil ou de la persistance des conditions de notre environnement personnel. Il n’y a pas de principe philosophique qui garantisse la fiabilité de telles prédictions ; c’est notre réponse à toutes les tentatives faites dans l’histoire de la philosophie pour nous procurer une telle certitude, depuis Platon, en passant par toutes les variétés de théologie, jusqu’à Descartes et Kant.

Malgré cela, nous ne renonçons pas à la prédiction ; les arguments des sceptiques comme Hume ne peuvent ébranler notre résolution : au moins essayer les prédictions. Nous savons avec certitude que parmi toutes les procédures de prévision de l’avenir, dont nous savons qu’elles impliquent le succès si le succès est possible, la procédure des inductions concaténées est la meilleure. Nous l’essayons comme notre meilleur atout pour avoir notre chance — si nous ne réussissons pas, eh bien, notre essai a été vain.

Est-ce à dire que nous devons renoncer à toute croyance en la réussite ? Cette croyance existe ; chacun l’a lorsqu’il fait des inductions ; notre solution du problème inductif nous oblige-t-elle à le dissuader de cette croyance ferme ? Il ne s’agit pas d’une question philosophique mais d’une question sociale. En tant que philosophes, nous savons qu’une telle croyance n’est pas justifiable ; en tant que sociologues, nous pouvons nous réjouir qu’une telle croyance existe. Tout le monde ne risque pas d’agir selon un principe s’il ne croit pas au succès ; la croyance peut donc le guider lorsque les postulats de la logique s’avèrent trop faibles pour l’orienter.

Mais admettre cette croyance n’est pas l’attitude du sceptique qui, ne connaissant pas de solution propre, laisse chacun croire ce qu’il veut. Nous pouvons admettre cette croyance parce que nous savons qu’elle déterminera les mêmes actions que l’analyse logique. Si nous ne pouvons pas justifier la croyance, nous pouvons justifier la structure logique de l’inférence à laquelle elle correspond heureusement en ce qui concerne les résultats pratiques. Cette heureuse coïncidence s’explique certainement par l’idée de sélection de Darwin : devaient survivre les animaux dont les habitudes de croyance correspondaient à l’instrument le plus utile pour prévoir l’avenir. Il n’y a aucune raison de dissuader quiconque de faire avec croyance quelque chose qu’il devrait faire de la même manière s’il n’avait pas de croyance.

Cette remarque ne s’applique pas seulement à la croyance en l’induction en tant que telle. Il existe d’autres types de croyances qui ont cristallisé autour des méthodes d’expansion des connaissances. Les hommes de science n’ont pas toujours une vision aussi claire des problèmes philosophiques que l’analyse logique l’exigerait : ils ont rempli le monde de la recherche de concepts mystiques ; ils parlent de « pressentiments instinctifs », d’« hypothèses naturelles », et l’un des meilleurs d’entre eux m’a dit un jour qu’il avait trouvé ses grandes théories parce qu’il était persuadé de l’harmonie de la nature. Si l’on analysait les découvertes de ces hommes, on constaterait que leur manière de procéder correspond dans une mesure étonnamment élevée aux règles du principe d’induction, appliqué cependant à un domaine de faits où les esprits moyens n’en voient pas les traces. Dans de tels cas, les opérations inductives sont imbriquées dans une croyance dont l’intension diffère du principe inductif, bien que sa fonction dans le système des opérations de la connaissance soit la même. Le mysticisme de la découverte scientifique n’est rien d’autre qu’une superstructure d’images et de souhaits ; la structure de soutien en dessous est déterminée par le principe inductif.

Je ne dis pas cela dans l’intention de discréditer la croyance — de faire tomber la superstructure. Au contraire, il semble que ce soit une loi psychologique que les découvertes aient besoin d’une sorte de mythologie ; de même que la déduction inductive peut nous conduire dans certains cas à préférer des méthodes différentes d’elle, elle peut aussi nous conduire à la loi psychologique que parfois les hommes qui croient posséder d’autres guides seront les meilleurs pour faire des inductions. Le philosophe ne doit pas s’en étonner.

Cela ne signifie pas que je doive lui conseiller de partager l’une ou l’autre de ces croyances. Le but du philosophe est de savoir ce qu’il fait, de comprendre les opérations de la pensée et de ne pas se contenter de les appliquer instinctivement, automatiquement. Il veut regarder à travers la superstructure et découvrir la structure qui la soutient. La croyance en l’induction, la croyance en l’uniformité du monde, la croyance en une harmonie mystique entre la nature et la raison — elles appartiennent toutes à la superstructure ; le fondement solide qui se trouve en dessous est le système des opérations inductives. La difficulté d’une justification logique de ces opérations a conduit les philosophes à chercher une justification de la superstructure, à tenter une justification ontologique de la croyance inductive en cherchant des qualités nécessaires du monde qui assureraient le succès des déductions inductives. Toutes ces tentatives sont vouées à l’échec, car nous ne serons jamais en mesure de fournir une preuve convaincante d’une quelconque présomption matérielle concernant la nature. Le chemin vers la compréhension du passage de l’expérience à la prédiction se trouve dans la sphère logique ; pour le trouver, nous devons nous libérer d’un préjugé profondément enraciné : de la présupposition que le système de connaissance doit être un système de propositions vraies. Si nous éliminons ce présupposé de la théorie de la connaissance, les difficultés se dissipent, et avec elles se dissipe le brouillard mystique qui plane sur les méthodes de recherche de la science. Nous interpréterons alors la connaissance comme un système de postulats, ou de paris ; la question de la justification prend alors la forme de la question de savoir si la connaissance scientifique est notre meilleur pari. L’analyse logique montre que cette démonstration peut être faite, que la procédure inductive de la science se distingue des autres méthodes de prédiction en ce qu’elle conduit aux postulats les plus favorables. Ainsi, nous parions sur les prédictions de la science et nous parions sur les prédictions de la sagesse pratique : nous parions sur le fait que le soleil se lèvera demain, nous parions que la nourriture nous nourrira demain, nous parions que nos pieds nous porteront demain. L’enjeu n’est pas mince ; c’est toute notre existence personnelle, notre vie même, qui est en jeu. Confesser son ignorance face à l’avenir est le devoir tragique de toute philosophie scientifique ; mais, s’il nous est interdit de connaître les vraies prédictions, nous serons heureux de savoir au moins que nous connaissons la route qui mène à nos meilleurs paris.

  1. J. M. Keynes, A Treatise on Probability (Londres, 1921).
  2. K. Popper, Logik der Forschung (Berlin, 1935).
  3. Cet isomorphisme découle strictement de la construction axiomatique du calcul des probabilités qui montre que toutes les lois de probabilités peuvent être déduites de l’interprétation fréquentielle (cf. § 37).
  4. Cf. le rapport sur ce problème dans l’ouvrage de l’auteur Wahrscheinlichkeitslehre (Leiden, 1935), § 65. Pour tous les autres détails mathématiques omis dans les recherches qui suivent, on peut également se référer à ce livre.
  5. Cf. ibid., § 54.
  6. Le verbe « to posit » a déjà été utilisé occasionnellement ; je me risquerai à l’utiliser également comme substantif par analogie avec l’emploi correspondant du mot « dépôt ».
  7. L’apparition du produit arithmétique est ici due à l’interprétation de la fréquence. Si le pari est fréquemment répété, le produit mentionné détermine le montant total de l’argent qui revient au joueur.
  8. Le mot allemand Setzung utilisé dans la Wahrscheinlichkeitslehre de l’auteur a ces deux significations.
  9. Cette remarque mérite d’être nuancée. Le pari qui a le plus de poids n’est pas toujours le meilleur ; si les valeurs, ou les gains, coordonnés à des événements de probabilités différentes sont différents dans un rapport qui dépasse le rapport inverse des probabilités, le meilleur pari est celui sur l’événement le moins probable (cf. notre remarque à la fin du § 33). Des réflexions de ce type peuvent déterminer nos actions. Si nous appelons le pari ayant le poids le plus élevé notre meilleur pari, nous voulons dire « notre meilleur pari en ce qui concerne les prédictions ». Nous ne voulons pas prendre en compte dans de tels énoncés la valeur ou la pertinence des faits concernés. L’utilisation du mot « posit » permet d’éviter cette ambiguïté, puisque l’expression « meilleur posit » doit toujours signifier ce sens plus étroit.
  10. Imaginons une classe au sein de laquelle un événement du type est attendu avec une probabilité de  ; si nous parions, alors, toujours sur , nous obtenons de succès. Imaginons maintenant que la classe se divise en deux classes, et  ; dans , a une probabilité de , dans , a une probabilité de . Nous allons maintenant faire des mises différentes selon que l’événement du type appartient à , ou à  ; dans le premier cas, nous misons toujours sur non-, dans le second, sur . Nous aurons alors 75 pour cent de succès (cf. Wahrscheinlichkeitslehre de l’auteur, § 75).
  11. On a objecté à notre théorie que la probabilité dépend non seulement de la classe, mais aussi de l’ordre dans lequel les éléments de la classe sont disposés. Ce dernier point est vrai, mais il n’affaiblit pas notre théorie. Tout d’abord, c’est une caractéristique importante de nombreux phénomènes statistiques que la structure de fréquence est indépendante, dans une large mesure, des changements dans l’ordre. Deuxièmement, si l’ordre est pertinent pour la détermination du poids, il doit être inclus dans la prescription ; c’est le cas pour les maladies contagieuses (où la probabilité de survenue d’une maladie dépend de la maladie ou de l’absence de maladie des personnes dans l’environnement), ou pour les maladies ayant une tendance à se répéter (où la probabilité change si la maladie s’est déjà produite), etc. La théorie mathématique des probabilités a développé des méthodes pour ces cas. Elles n’impliquent aucune difficulté pratique quant à la définition du poids.
  12. Pour un exposé détaillé, voir l’article de l’auteur, « Wahrscheinlichkeitslogik », Berichte der Berliner Akademie der Wissenschaften (math.-phys. KI., 1932) ; et le livre de l’auteur, Wahrscheinlichkeitslehre. En ce qui concerne les autres publications de l’auteur, voir chap. i, n. 14. Pour un résumé de toutes les contributions au problème, cf. Z. Zawirski, « Über das Verhältnis der mehrwertigen Logik zur Wahrscheinlichkeitslogik », Studia philosophica, I (Varsovie, 1935), 407.
  13. Cf. la Wahrscheinlichkeitslehre de l'auteur, § 73. Au lieu de faire dépendre la « valeur de vérité » d’une combinaison de celle d’une autre combinaison, on peut introduire comme troisième paramètre indépendant la « probabilité de par rapport à  » que l’on écrit . C’est la voie suivie dans Wahrscheinlichkeitslehre. Les deux méthodes reviennent au même.
  14. Notons que nos formules générales ne sont pas limitées au cas d’événements indépendants mais s’appliquent à tous les événements quels qu’ils soient.
  15. On peut montrer que pour le cas particulier des valeurs de vérité restreintes à et , la valeur de vérité du produit logique n’est plus arbitraire mais déterminée par d’autres règles de la logique des probabilités (cf. Wahrscheinlichkeitslehre, § 73).
  16. Cf. la Wahrscheinlichkeitslehre de l’auteur, §§ 72 et 74.
  17. Il convient de noter ici que nous utilisons le terme « formaliste » dans un sens un peu plus large que le sens utilisé dans la discussion sur la logique moderne, où les formalistes sont représentés par le groupe plus étroit centré autour de Hilbert. Les différences entre ces groupes ne sont cependant pas essentielles pour notre étude.
  18. Cette réduction du calcul des probabilités à un axiome concernant l’existence d’une limite de la fréquence a été réalisée dans l’article de l’auteur, « Axiomatik der Wahrscheinlichkeitsrechnung », Mathematische Zeitschrift, XXXIV (1932), 568. Un exposé plus détaillé a été donné dans la Wahrscheinlichkeitslehre de l’auteur.
  19. Ce fait n’a pas été suffisamment remarqué par certains positivistes modernes qui ont essayé de défendre contre moi la conception de la disparité (cf. ma réponse à Popper et Carnap dans Erkenntnis, V [1935], 267).
  20. Cette théorie de l’induction a été publiée pour la première fois par l’auteur dans Erkenntnis, III (1933), 421-25. Un exposé plus détaillé a été donné dans la Wahrscheinlichkeitslehre de l’auteur, § 80.
  21. Cette objection a été soulevée par P. Hertz, Erkenntnis, VI (1936), 25 ; cf. aussi ma réponse, Ibid. p. 32.
  22. Cf. ibid. p. 36.
  23. En ce qui concerne la théorie des probabilités de niveaux supérieurs, voir Wahrscheinlichkeitslehre de l’auteur, §§ 56-60.
  24. Pour une analyse précise de ces inférences, voir Wahrscheinlichkeitslehre de l’auteur, § 77.
  25. Les termes « simplicité descriptive » et « simplicité inductive » ont été introduits dans l'Axiomatik der relativistischen Raum-Zeit-Lehre (Braunschweig, 1924), p. 9. Une explication plus détaillée de ces concepts a été donnée par l’auteur dans Ziele und Wege der physikalischen Erkenntnis in Handbuch der Physik, ed. Geiger-Scheel (Berlin, 1929), IV, 34-36.
  26. Cette appellation a été choisie par analogie avec le terme « diagnostic différentiel » utilisé par les médecins, pour désigner un cas où les symptômes observés de la maladie indiquent plusieurs maladies comme origine possible, mais ne permettent pas de trancher entre les membres de ce groupe, à moins que certains nouveaux symptômes ne soient observés. Ce diagnostic différentiel est, logiquement, un cas particulier de notre décision différentielle.
  27. Nous pouvons ajouter que l’interprétation graphique des déductions inductives peut également être réalisée, pour des cas compliqués, si nous passons à un espace de paramètres d’un plus grand nombre de dimensions (cf. l’article de l’auteur, « Die Kausalbehauptung und die Möglichkeit ihrer empirischen Nachprüfung », Erkenntnis, III [1932], 32).
  28. Max Hartmann, » Die methodologischen Grundlagen der Biologie", Erkenntnis, III (1932-33), 248.
  29. Dans nos recherches précédentes, nous avons souvent fait usage de la validité approximative de la logique à deux valeurs pour le langage de second niveau. Une schématisation de ce type est que nous avons considéré les énoncés sur le poids d’une proposition comme étant vrais ou faux ; une autre est contenue dans notre utilisation des concepts de possibilité physique et logique, apparaissant dans nos définitions de la signification. À proprement parler, il n’y a entre ces types de possibilité qu’une différence de degré. Nous étions en droit de les considérer sous une forme schématisée comme qualitativement différents parce qu’ils concernent des réflexions appartenant au langage de second niveau. La validité approximative de la logique à deux valeurs pour le langage de second niveau explique aussi que le langage positiviste puisse être conçu comme approximativement valide au sens d’un langage de second niveau (cf. la remarque à la fin du § 17).
  30. Ces différentes probabilités ne peuvent en général pas être combinées mathématiquement en une seule probabilité ; une telle simplification présuppose des conditions mathématiques spéciales qui ne s’appliqueraient, le cas échéant, qu’à des parties de la théorie (cf. Wahrscheinlichkeitslehre, § 58).
  31. Cf. ibid. p. 226.
  32. A. A. Michelson, Astrophysical Journal, LXV (1927), 1.