Aller au contenu

Expérience et Prédiction/V. Probabilité et Induction

La bibliothèque libre.
Traduction par Wikisource .
The University of Chicago Press (p. 295-404).




CHAPTER V

PROBABILITY AND INDUCTION


PROBABILITY AND INDUCTION

CHAPTER V

§ 32 Les deux formes du concept de probabilité

Le concept de probabilité a été représenté dans les enquêtes précédentes par le concept de poids. Cependant, nous n’avons pas fait grand usage de cette équivalence ; nous avons traité le concept de poids de manière indépendante, sans tenir compte des délimitations qu’implique son équivalence présumée avec le concept de probabilité. Nous avons montré qu’il existe un tel concept de poids, que la connaissance en a besoin dans le sens d’une valeur prédictive, et qu’il est appliqué dans le langage courant aussi bien que dans les propositions scientifiques — mais nous ne sommes pas entrés dans une analyse du concept, nous appuyant sur une compréhension profane de ce que nous voulions dire par le terme. Nous avons utilisé le fait que le maniement d’un concept peut précéder l’analyse de sa structure. Nous avons construit le triplet de prédicats — signification, valeur de vérité et poids — et constaté que c’est à ce dernier concept que les autres se réduisent. La vérité s’est révélée n’être qu’un poids élevé et ne doit pas être considérée comme autre chose qu’une idéalisation approximativement valable pour certaines fins pratiques ; la signification sens a été réduite à la vérité et au poids par la théorie de la vérifiabilité ; nous avons ainsi trouvé que la place logique du concept de poids est au fondement même de la connaissance. Il nous reste maintenant à entrer dans l’analyse de ce concept et à prouver son équivalence avec le concept de probabilité ; nous pouvons aussi espérer clarifier ses fonctions par leur dérivation d’un concept aussi définitivement déterminé que le concept de probabilité.

En nous attelant à cette tâche, nous nous heurtons au fait qu’il existe deux applications différentes du concept de probabilité, dont une seule semble être identique au concept de poids tel que nous l’avons introduit. Au début de notre enquête sur la nature de la probabilité, nous nous trouvons confrontés à la nécessité d’étudier cette distinction ; nous devons nous demander si nous sommes justifiés de parler d’un seul concept de probabilité comprenant les deux applications.

Il y a, tout d’abord, le concept bien déterminé de probabilité que l’on retrouve en mathématiques, en physique mathématique et dans tous les types de statistiques. Ce concept mathématique de probabilité est devenu l’objet d’une discipline mathématique, le calcul des probabilités ; ses qualités ont été exactement formulées en langage mathématique, et son application a trouvé une analyse détaillée dans les méthodes bien connues de la statistique mathématique. Bien que cette discipline soit relativement jeune, elle a été développée jusqu’à un haut degré de perfection. Cette évolution commence avec les recherches de Pascal et Fermat sur la théorie des jeux de hasard, passe par les travaux fondamentaux de Laplace et Gauss, et se poursuit de nos jours dans les travaux complets d’un grand nombre de mathématiciens. Toute tentative de théorie de ce concept mathématique de probabilité doit partir de sa forme mathématique. Les mathématiciens se sont donc efforcés de clarifier les fondements de ce concept ; parmi les chercheurs modernes sur ce sujet, on peut citer les noms de v. Mises, Tornier, Dörge, Copeland et Kolmogoroff.

Il existe cependant un second concept de probabilité qui ne se présente pas sous une forme mathématique. Il s’agit du concept qui apparaît dans la conversation sous la forme de « probablement », « vraisemblablement », « présumablement » ; son application n’est cependant pas limitée au langage familier mais s’étend également au langage scientifique, où les suppositions et les conjectures ne peuvent pas être évité. Nous nous prononçons sur les déclarations scientifiques et les théories scientifiques non pas avec la prétention de certitude, mais dans le sens de suppositions probables, ou hautement probables. Le terme « probable » utilisé ici n’est pas soumis aux méthodes statistiques. Ce concept logique de probabilité, bien qu’indispensable à la construction de la connaissance, n’a pas trouvé la détermination exacte qui a été construite pour le concept mathématique. Il est vrai que les logiciens de tous les temps se sont penchés sur ce concept, d’Aristote à nos jours ; le traitement scientifique de ce concept est donc beaucoup plus ancien que celui du concept mathématique qui a commencé avec les recherches de Pascal et Fermat. Mais la théorie du concept logique de probabilité n’a pas pu atteindre le même degré de perfection que la théorie du concept mathématique de probabilité.

Le grand mérite des créateurs de la logistique a été d’envisager, dès le début, une logique des probabilités qui devait être aussi exacte que la logique de la vérité. Leibnitz avait déjà demandé « une nouvelle espèce de logique, qui traiterait des degrés de probabilité » ; mais cette demande d’une logique des probabilités, comme son projet d’un calcul de la logique de la vérité, ne s’est concrétisée qu’au dix-neuvième siècle. Après quelques tentatives de De Morgan, c’est Boole qui développa le premier calcul complet d’une logique des probabilités, qui, malgré quelques erreurs corrigées plus tard par Peirce, doit être considéré comme la plus grande avancée dans l’histoire du concept logique de probabilité depuis Aristote. Ce fut un signe prophétique que l’exposition de cette logique des probabilités ait été donnée dans l’ouvrage même qui est à la base du développement moderne de la logique de la vérité et de la fausseté : dans les Lois de la Pensée de Boole. Dans le développement ultérieur, les problèmes de la logique de la vérité ont pris une ampleur beaucoup plus grande ; la logique des probabilités n’a été poursuivie que par des auteurs isolés, parmi lesquels on peut citer Venn et Peirce, et parmi les écrivains contemporains, Keynes, Lukasiewicz et Zawirski.

Si l’on considère ces deux lignes de développement, on peut supposer qu’elles sont sous-tendues par deux concepts qui peuvent présenter certaines similitudes et connexions, mais qui sont, dans leur nature logique, totalement disparates. Cette conception de la disparité des deux concepts de probabilité a en effet été maintenue par un grand nombre d’auteurs, sous la forme soit d’une hypothèse consciente, soit d’une hypothèse tacite. D’autre part, l’idée a été maintenue que la différence apparente des deux concepts n’est que superficielle, qu’un examen plus approfondi les révèle identiques, et que ce n’est que sur la base d’une conception de l'identité que l’on peut obtenir une compréhension plus profonde des deux concepts de probabilité. La lutte entre ces deux conceptions occupe dans une large mesure la discussion philosophique du problème des probabilités. L’enjeu de cette lutte est, en effet, de la plus haute importance : puisque la théorie du concept mathématique de probabilité a été développée jusqu’à une solution satisfaisante, la conception de l’identité conduit à une solution du problème philosophique de la probabilité dans son ensemble, alors que la conception de la disparité laisse le problème du concept logique de probabilité dans un état plutôt vague et insatisfaisant. Cette dernière conséquence provient du fait qu’une théorie satisfaisante de ce concept, différent du concept mathématique, n’a pas encore été présentée.

La conception de la disparité trouve son origine dans le fait que le concept mathématique de probabilité est interprété en termes de fréquence, alors que le concept logique de probabilité semble être d’un type tout à fait différent.

En effet, le grand succès de la théorie mathématique des probabilités est dû au fait qu’elle a été développée comme une théorie des fréquences relatives. Il est vrai que la définition originale de degré de probabilité interprétée pour une application aux jeux de hasard n’était pas de type fréquentiel ; Laplace a donné la fameuse formulation du rapport des cas favorables aux cas possibles, valable sous le présupposé controversé de cas « également possibles ». Cette définition, apparemment naturelle pour les cas du type du dé, a cependant été abandonnée dans toutes les applications de la théorie à des cas de valeur pratique : les statisticiens de toutes sortes n’ont pas demandé les cas « également possibles » de Laplace mais ont interprété la valeur numérique de la probabilité par le rapport de deux fréquences — la fréquence des événements de la classe plus étroite considérée et la fréquence des événements de la classe plus large à laquelle la probabilité se réfère. Les tables de mortalité des compagnies d’assurance-vie ne sont pas basées sur des hypothèses de cas « également possibles » ; les probabilités qui y figurent sont calculées sous forme de fractions dont le numérateur est donné par la classe des cas de décès, et dont le dénominateur est déterminé par la classe de la population à laquelle se rapportent les statistiques. La fréquence relative ainsi obtenue s’est révélée être une interprétation du degré de probabilité beaucoup plus utile que celle de Laplace. Les extensions considérables de la théorie mathématique, indiquées par des concepts tels que la moyenne, la dispersion, l’erreur moyenne, la fonction de probabilité et la loi de Gauss, sont dues à l’abandon définitif de la définition de Laplace et au passage à la théorie de la fréquence.

Le concept logique de probabilité, au contraire, semble indépendant de l’interprétation des fréquences qui, pour de nombreux cas de probabilité logique, ne semble pas du tout applicable. Nous demandons la probabilité d’événements déterminés, par exemple qu’il fasse beau demain, ou que Jules César ait été en Grande-Bretagne ; il n’y a pas de concept statistique exprimé dans la question. C’est le problème de la probabilité du cas unique qui constitue l’origine de la théorie des disparités ; des auteurs comme Keynes[1] fondent donc leur concept de probabilité logique essentiellement sur ce problème.

Ces auteurs vont même jusqu’à refuser une valeur numérique à la probabilité logique. Keynes a développé l’idée que la probabilité logique ne vise qu’à établir un ordre, une série déterminée par les concepts de « plus probable » et « moins probable », dans laquelle les concepts métriques tels que « deux fois plus probable » n’interviennent pas. Ces idées ont été reprises par Popper.[2] Pour ces auteurs, la probabilité logique est un concept purement topologique. D’autres auteurs ne veulent pas admettre une telle restriction. Leur concept de probabilité logique est métrique, mais pas de type fréquentiel. La probabilité logique, disent-ils, s’intéresse au « degré rationnel d’espérance », un concept qui s’applique déjà à un seul événement. C’est ici que les cas « également possibles » de Laplace trouvent leur champ d’application en fournissant le point d’appui pour la détermination du degré d’espérance qu’un être raisonnable devrait apprendre à mettre à la place de sentiments aussi déraisonnables que l’espoir et la crainte.

Il nous appartiendra d’abord d’entrer dans la discussion de ces questions. Nous devons trancher en faveur de la conception de la disparité ou de la conception de l’identité des deux formes du concept de probabilité.

§ 33. Conception de la disparité ou conception de l’identité ?

La conception de la disparité est parfois justifiée en disant que le concept mathématique de probabilité énonce une propriété des événements, alors que le concept logique de probabilité énonce une propriété des propositions.

Si c’était là tout le contenu de la conception de la disparité, nous ne l’attaquerions pas ; car il est effectivement possible de faire une telle distinction. Si nous interprétons la probabilité comme une fréquence d’événements, un énoncé de probabilité portera sur des événements ; si nous considérons, au contraire, la probabilité comme une généralisation de la vérité, nous devons concevoir la probabilité comme portant sur des propositions. Ceci est rendu nécessaire par la nature du concept de vérité ; seules les propositions, et non les choses, peuvent être appelées vraies, et notre prédicat de poids que nous voulons identifier avec la probabilité a été introduit également comme un prédicat de propositions. Mais, si nous appliquons ces réflexions au concept de probabilité, nous constatons qu’elles n’ont qu’une signification formelle et ne touchent pas le problème central de la conception de la disparité. En effet, si l’on interprète le concept logique de probabilité également par une fréquence, les deux concepts deviennent isomorphes ; le concept mathématique est alors interprété par une fréquence d’événements, et le concept logique par une fréquence de propositions sur les événements.[3] Ce que la conception de l’identité veut maintenir, c’est seulement l’applicabilité de l’interprétation de la fréquence au concept logique de probabilité ; on voit ainsi que la thèse de la conception de l’identité est, à proprement parler, un isomorphisme des deux concepts, ou une identité structurelle. Même du point de vue de la conception de l’identité, on peut donc considérer le concept logique de probabilité comme un concept d’un niveau linguistique supérieur : une telle distinction n’entraîne aucune difficulté pour la théorie des probabilités, puisqu’on est de toute façon obligé d’introduire une échelle infinie de probabilités de niveaux logiques différents (cf. § 41).

Il y a un deuxième sens dans lequel il faut parler ici d’identité. Si l’on accepte l’interprétation fréquentielle pour le concept logique, ce concept peut être appliqué également aux énoncés de statistiques mathématiques : c’est-à-dire que même les énoncés purement statistiques admettent à la fois la conception mathématique et la conception logique de la probabilité. Un énoncé sur la probabilité de décès par tuberculose peut donc être interprété comme concernant des statistiques de cas de tuberculose, ou comme concernant des statistiques de propositions sur des cas de tuberculose. D’autre part, les exemples donnés pour une signification logique du concept de probabilité admettent également les deux interprétations.

C’est pourquoi nous utiliserons dans la suite des recherches le terme de « conception de l’identité » sans toujours mentionner qu’il s’agit, à proprement parler, d’une différence de niveaux logiques. Nous utilisons ici le mot « identité » dans le sens d’une identité de structure, et notre thèse revient à maintenir l’applicabilité de l’interprétation fréquentielle à tous les concepts de probabilité.

C’est à cette thèse que s’attaque la conception de la disparité. Nous aurons à discuter cette question maintenant ; si nous ne pouvons admettre la conception de la disparité, c’est parce que cette conception entraîne des conséquences incompatibles avec les principes de l’empirisme.

Il y a d’abord le principe de vérifiabilité qui ne peut être mené à bien dans le cadre de la conception de la disparité. Si l’on admet une probabilité d’un événement unique, au sens d’une valeur prédictive, c’est-à-dire signifiant quelque chose concernant des événements futurs, il n’y a pas de possibilité de vérifier le degré de probabilité par l’observation de l’événement futur en question. Par exemple, nous lançons un dé et nous nous attendons, avec une probabilité de 5/6, à obtenir un nombre supérieur à 1 : comment le vérifier si nous observons un seul lancer ? Si l’événement attendu ne se produit pas, il ne s’agit pas d’une réfutation de la présomption car la probabilité 5/6 n’exclut pas le cas où le chiffre 1 se produirait. Si l’événement attendu se produit, ce n’est pas une preuve de la justesse de la présomption car la même chose pourrait se produire si la probabilité était de 1/6 seulement. Nous pourrions au moins dire que la survenance de l’événement est plus compatible avec la présomption que sa non-occurrence. Mais comment distinguer alors entre différents degrés de probabilité tous deux supérieurs à la moitié ? Si nous avions dit que la probabilité de l’événement n’est pas de 5/6 mais de 3/4, en quoi la vérification de cette présomption diffère-t-elle de celle de l’autre ?

La difficulté n’est pas levée si l’on tente de restreindre les énoncés de probabilité à de simples énoncés topologiques, en éliminant le degré de probabilité. Une affirmation du type « Cet événement est plus probable que l’autre » ne peut pas non plus être vérifiée si elle concerne un seul cas. Prenons deux événements qui s’excluent mutuellement et qui sont attendus avec des probabilités respectives de 1/6 et 1/4 ; le second peut se produire. Est-ce une preuve que cet événement était plus probable que l’autre ? Cela ne peut être soutenu car il n’existe pas de principe selon lequel l’événement le plus probable doit se produire. L’interprétation topologique de la probabilité logique est donc exposée aux mêmes objections que l’interprétation métrique.

Cette analyse met en évidence qu’une vérification ne peut être donnée si l’énoncé de la probabilité ne concerne qu’un seul cas. L’interprétation mono-cas de l’énoncé de probabilité n’est pas compatible avec la théorie de la vérifiabilité du sens car ni le degré ni l’ordre affirmés par l’énoncé de probabilité ne peuvent être contrôlés si l’on ne considère qu’un seul événement. L’un des principes élémentaires de l’empirisme est donc violé par cette interprétation.

La conception de la disparité pose une deuxième difficulté, si l’on veut déterminer quantitativement le degré de probabilité. Nous avons dit que, si l’on nie l’interprétation de la fréquence, le concept « également probable » exige une justification par le concept de « cas également possibles », comme dans la formulation de Laplace. Cela conduit toutefois à l’apriorisme. Comment connaître l’« égalité des possibilités » ? Les disciples de Laplace sont obligés d’admettre ici une sorte de jugement « synthétique a priori » ; le principe de « raison insuffisante » ou de « pas de raison contraire » ne fait que le maintenir sous une forme déguisée. Cela devient évident si nous passons à un énoncé de fréquence, qui dans de nombreux cas, comme pour les dés, est attaché à l’énoncé de « possibilité égale ». Comment savons-nous que la « possibilité égale » implique une fréquence égale ? Nous sommes obligés de supposer une correspondance entre la raison et la réalité, telle que Kant l’avait postulée.

Nous n’entrerons pas ici dans une discussion sur ce deuxième point, bien qu’il ait joué un rôle important dans les discussions philosophiques plus anciennes sur le problème des probabilités. Nous pouvons seulement mentionner que le problème des cas également probables, tels qu’ils se produisent dans les jeux de hasard, trouve une solution assez simple dans la théorie mathématique ; aucun présupposé tel que le principe de « pas de raison contraire » n’est nécessaire, et toute la question peut être réduite à des présupposés tels qu’ils se produisent dans la théorie fréquentiste de la probabilité.[4] Il est évident que la question n’aurait pas pris autant d’importance si la théorie fréquentiste de la probabilité avait été acceptée de manière approfondie. Le principal point de divergence dans la discussion entre la conception de la disparité et celle de l’identité est à rechercher dans le problème de l’interprétation du cas unique. Si l’on peut montrer que l’interprétation du cas unique est évitable et que les exemples qui semblent l’exiger peuvent être soumis à l’interprétation fréquentiste, la supériorité de la conception de l’identité est donc démontrée. Mener à bien cette conception revient donc à montrer que l’interprétation fréquentielle des probabilités peut toujours être appliquée. Nous allons maintenant nous demander si cela est possible.

Pour l’interprétation fréquentielle, une vérification du degré de probabilité est possible dès que l’événement peut être répété ; la fréquence observée dans une série d’événements est considérée comme un contrôle du degré de probabilité. Cette interprétation présuppose donc que l’événement n’est pas décrit comme un événement individuel mais comme un membre d’une classe ; la « répétition » de l’événement signifie son inclusion dans une classe d’événements similaires. Dans le cas du dé, cette classe est facile à construire ; elle est constituée des différents lancers du dé. Mais comment construire cette classe dans d’autres exemples, comme le cas d’un événement historique dont on parle avec une certaine probabilité, ou le cas de la validité d’une théorie scientifique que l’on suppose non pas avec certitude mais seulement avec plus ou moins de probabilité ?

Les adeptes de la conception de l’identité estiment qu’une telle classe peut toujours être construite et doit l’être si l’on veut que l’énoncé de probabilité ait un sens. L’origine de l’interprétation au cas par cas se trouve dans le fait que, dans de nombreux cas, la construction de la classe n’est pas aussi clairement déterminée que dans le cas du dé, ou dans le fait que le langage ordinaire supprime la référence à une classe et parle incorrectement d’un événement unique là où une classe d’événements devrait être considérée. Si nous gardons ce postulat clairement à l’esprit, nous constatons que la voie vers la construction de la classe correspondante est indiquée dans l’origine et l’utilisation des énoncés de probabilité. Pourquoi attribuons-nous, par exemple, une forte probabilité à l’affirmation selon laquelle Napoléon a eu une attaque de maladie lors de la bataille de Leipzig, et une probabilité plus faible à l’affirmation selon laquelle Caspar Hauser était le fils d’un prince ? C’est parce que des chroniques de types différents rapportent ces affirmations : l’une est fiable parce que ses affirmations, lors de fréquentes tentatives de contrôle, ont été confirmées ; l’autre n’est pas fiable parce que les tentatives de contrôle ont fréquemment conduit à la réfutation de l’affirmation. La transition vers le type de chronique indique la classe de l’interprétation de la fréquence ; la probabilité apparaissant dans les déclarations sur la maladie de Napoléon, ou la descendance de Caspar Hauser, doit être interprétée comme concernant une certaine classe de rapports historiques et trouve son interprétation statistique dans la fréquence des confirmations rencontrées à l’intérieur de cette classe. Ou encore, prenons une déclaration telle que celle prononcée par un médecin, lorsqu’il considère que la mort dans un certain cas de tuberculose est hautement probable : c’est la fréquence de la mort dans la classe des cas similaires qui est signifiée par le degré de probabilité apparaissant dans la déclaration.

Bien que l’on ne puisse nier que la classe correspondante est facilement déterminée dans de tels cas, une autre objection peut être soulevée à l’encontre de notre interprétation de l’énoncé de probabilité. Il est vrai, diront nos adversaires, que la fréquence au sein d’une telle classe est à l’origine de notre énoncé de probabilité ; mais l’énoncé concerne-t-il cette fréquence ? Le médecin fondera silencieusement sa prédiction de la mort de son patient sur des statistiques relatives à la tuberculose ; mais parle-t-il de telles statistiques lorsqu’il évoque le patient déterminé qu’il a devant lui ? Le patient peut être notre ami intime, c’est sa chance personnelle de mort ou de vie que nous voulons connaître ; si la réponse du médecin concerne une classe de cas similaires, cela peut être intéressant pour un statisticien mais pas pour nous qui voulons connaître le sort de notre ami. Peut-être fait-il partie du petit pourcentage de cas d’issue heureuse admis par les statistiques ; pourquoi devrions-nous croire à une forte probabilité de sa mort parce que les statistiques concernant d’autres personnes fournissent un pourcentage aussi élevé ?

C’est le problème de l’applicabilité de l’interprétation de la fréquence au cas unique qui est soulevé par cette objection. Ce problème joue un grand rôle dans la défense de la conception de la disparité ; on dit que la théorie de la fréquence peut au mieux fournir une justification du degré de probabilité mais qu’elle ne peut pas être acceptée comme son interprétation dès que l’on demande la probabilité d’un cas unique. L’objection semble très convaincante ; je ne pense pas, cependant, qu’elle tienne la route.

Une clarification du problème ne peut être donnée que par une analyse de la situation dans laquelle nous employons des énoncés de probabilité. Pourquoi demandons-nous la probabilité d’événements futurs, ou d’événements passés dont nous n’avons pas de connaissance certaine ? Nous pourrions nous contenter d’affirmer que nous ne connaissons pas leur valeur de vérité — cette attitude aurait l’avantage de ne pas être exposée à la critique logique. Si nous ne sommes pas d’accord avec une telle proposition, c’est parce que nous ne pouvons pas renoncer à une décision concernant l’événement au moment où nous sommes confrontés à la nécessité d’agir. L’action exige une décision sur des événements inconnus ; en essayant de rendre cette décision aussi favorable que possible, l’application d’énoncés de probabilité devient inévitable. Cette réflexion détermine la manière dont l’interprétation des énoncés de probabilité doit être recherchée : la signification des énoncés de probabilité doit être déterminée de manière à ce que notre comportement en les utilisant pour l’action puisse être justifié.

C’est dans ce sens que l’interprétation de la fréquence des énoncés de probabilité peut être effectuée, même si c’est la survenance ou non d’un seul événement qui nous préoccupe. La préférence pour l’événement le plus probable est justifiée dans l’interprétation de la fréquence par le argument en termes de comportement est le plus favorable dans l’ensemble : si nous décidons de supposer la survenance de l’événement le plus probable, nous aurons à long terme le plus grand nombre de réussites. Ainsi, bien que l’événement individuel reste inconnu, nous avons intérêt à croire à la survenance de l’événement le plus probable tel que déterminé par l’interprétation de la fréquence ; malgré d’éventuels échecs, ce principe nous conduira au meilleur ratio de succès possible.

Quelques exemples peuvent illustrer ce point. Si l’on nous demande si la face 1 d’un dé apparaîtra ou non lors d’un lancer, il est plus sage de se prononcer pour « non-1 » car, si l’on poursuit l’expérience, on obtiendra à terme le plus grand nombre de succès. Si nous voulons faire une excursion demain et que la météo prévoit du mauvais temps, il vaut mieux ne pas y aller, non pas parce que la possibilité de beau temps est exclue, mais parce qu’en appliquant le principe qui sous-tend ce choix à toutes nos excursions, nous réduirons au minimum les cas de mauvais temps. Si le médecin nous dit que notre ami va probablement mourir, nous décidons qu’il vaut mieux le croire, non pas parce qu’il est impossible que notre ami survive à sa maladie, mais parce qu’une telle décision, appliquée de façon répétée dans des cas similaires, nous évitera bien des déceptions.

On pourrait objecter à l’interprétation de la fréquence que le principe du plus grand nombre de succès ne s’applique pas dans les cas où un seul membre de la classe concernée se réalise. Les lancers de dé, les excursions ou les cas de maladie sont des événements qui se répètent souvent ; mais qu’en est-il des autres cas où il n’y a pas de répétition ? Cette objection, cependant, conçoit la classe comme étant construite de manière trop étroite. Nous pouvons incorporer des événements de types très différents dans une même classe, au sens de l’interprétation de la fréquence, même si le degré de probabilité change d’un événement à l’autre. Le calcul des probabilités a développé un type de série de probabilités avec des probabilités changeantes ;[5] pour ce type, l’interprétation de la fréquence peut également être appliquée, la fréquence étant déterminée par la moyenne des probabilités qui se produisent. Ainsi, chaque action de notre vie s’inscrit dans une série d’actions. Si nous considérons les nombreuses actions de la vie quotidienne qui présupposent le concept de probabilité — nous appuyons sur le bouton électrique de la porte parce qu’il y a une probabilité que la sonnette retentisse, nous postons une lettre parce qu’il y a une probabilité qu’elle arrive à l’adresse indiquée, nous allons à la station de tramway parce qu’il y a une certaine probabilité que le tramway vienne nous chercher, etc… — ces actions se combinent pour former une série assez longue dans laquelle l’interprétation de la fréquence est applicable. Les actions plus importantes peuvent être incluses dans une autre série, y compris les événements qui, dans un sens plus étroit, ne se répètent pas. L’ensemble de nos actions forme une série assez étendue qui, si elle n’était pas soumise au principe de l’hypothèse de l’événement le plus probable, conduirait à une diminution remarquable des succès.

Nous avons dit que nous faisions mieux de supposer l’événement le plus probable ; ceci nécessite une légère correction pour les cas où des degrés d’importance différents sont attachés aux cas qui s’offrent à notre choix. Si l’on nous propose un pari dans lequel les enjeux sont de dix contre un pour l’apparition du « numéro 1 » et d’un « numéro autre que 1 » sur la face du dé, il est bien sûr plus favorable de parier sur le « numéro 1 ». Cependant, c’est à nouveau l’interprétation de la fréquence qui justifie notre pari ; en raison des conditions du pari, nous gagnerons plus d’argent à long terme en misant ainsi. Ce cas est donc inclus dans notre principe de comportement le plus favorable dans l’ensemble. Au lieu d’une somme d’argent, ce peut être l’importance d’un événement qui assume une fonction analogue à celle des gains dans le jeu. Si nous attendons l’arrivée d’un ami avec la probabilité d’un tiers, nous ferions mieux d’aller à la gare pour le rencontrer. Dans cet exemple, l’inconvénient que notre ami arrive sans que nous soyons à la gare est tellement plus grand que l’inconvénient que nous y allions en vain que nous préférons avoir ce dernier inconvénient dans deux tiers des cas à avoir le premier inconvénient dans un tiers des cas. Ici, c’est encore l’interprétation de la fréquence qui justifie notre comportement ; si la probabilité d’arrivée de notre ami est d’un centième seulement, nous n’allons pas à la gare parce que notre inconvénient d’y aller quatre-vingt-dix-neuf fois en vain est plus grand que son inconvénient d’y arriver une fois sans notre présence.

Ces considérations apportent une solution au problème de l’applicabilité de l’interprétation de la fréquence au cas unique. Bien que le sens de l’énoncé de probabilité soit lié à une classe d’événements, l’énoncé est applicable aux actions concernant un seul événement. Le principe appliqué dans nos recherches précédentes, selon lequel il y a autant de sens dans les propositions qu’il est possible d’en utiliser pour les actions, devient une fois de plus directif et conduit à une détermination de la signification des énoncés de probabilité. Il n’est pas nécessaire d’introduire une « signification de cas unique » de l’énoncé de probabilité ; une « signification de classe » est suffisante car elle suffit à justifier l’application des énoncés de probabilité à des actions concernant des événements uniques. La conception de disparité des deux concepts de probabilité peut être éliminée ; le principe de la connexion du sens et de l’action décide en faveur de la conception d’identité.

§ 34. Le concept de poids

Avec ces considérations, la supériorité de la conception de l’identité est démontrée en principe. Mais, pour mener à bien cette conception de façon cohérente, nous sommes obligés de entrer dans une étude plus approfondie de la position logique des affirmations sur le cas unique.

Si c’est seulement la fréquence de la classe qui est impliquée dans l’énoncé de la probabilité, l’énoncé individuel sur le cas unique reste entièrement indéterminé tant qu’il n’est pas encore vérifié. Nous nous attendons, disons, à ce que des nombres autres que 1 apparaissent sur la face du dé avec une probabilité de 5/6 ; qu’est-ce que cela signifie pour le lancer individuel que nous avons devant nous ? Cela ne signifie pas : « Il est vrai qu’un nombre différent de 1 apparaîtra » ; et cela ne signifie pas : « Il est faux qu’un nombre différent de 1 apparaîtra ». Il faut encore ajouter qu’elle ne signifie pas : « Il est probable au degré 5/6 qu’un nombre autre que 1 apparaîtra » ; car le terme « probable » ne concerne que la classe, et non l’événement individuel. Nous voyons que l’énoncé individuel est énoncé comme n’étant ni vrai, ni faux, ni probable ; en quel sens est-il donc énoncé ?

C’est, dirons-nous, un posit[6] Nous posons l’événement auquel la probabilité la plus élevée appartient comme l’événement qui se produira. Nous ne disons pas pour autant que nous sommes convaincus de sa réalisation, que la proposition concernant sa réalisation est vraie ; nous décidons seulement de la traiter comme une proposition vraie. Le mot « posit » peut exprimer cette prise pour vraie, sans impliquer qu’il y ait une preuve de la vérité ; la raison pour laquelle nous décidons de prendre la proposition pour vraie est que cette décision conduit, dans des applications répétées, au plus grand ratio de succès.

Notre postulat, cependant, peut avoir de bonnes ou de mauvaises qualités. Si la probabilité qui lui est associée est grande, elle est bonne ; dans le cas contraire, elle est mauvaise. L’apparition de considérations de ce type est mieux observée lorsque l’on considère le joueur. Le joueur mise sur l’événement — c’est son posit ; il ne lui attribue pas pour autant une valeur de vérité déterminée — il dit cependant que le fait de poser l’événement représente pour lui une valeur déterminée. Cette valeur peut même être exprimée en termes d’argent — le montant de sa mise indique la valeur que le posit possède pour lui. Si nous analysons la manière dont cette valeur est appréciée, nous constatons qu’elle contient deux composantes : la première est la somme d’argent que l’homme gagnerait si son pari était couronné de succès ; la seconde est la probabilité de succès. Le produit arithmétique de ces deux composantes peut être considéré, en correspondance avec les concepts utilisés dans le calcul des probabilités, comme la mesure de la valeur que le pari a pour le joueur.[7] Nous voyons que, dans cette détermination de la valeur, la probabilité joue le rôle d’un poids ; le montant des gains possibles est pesé en termes de probabilité de succès, et seul le montant pesé détermine la valeur. On peut dire que : Un poids est ce que devient un degré de probabilité si on l’applique à un seul cas.

C’est l’origine logique du terme « poids » que nous avons utilisé tout au long des enquêtes précédentes. Nous comprenons maintenant pourquoi le poids peut être interprété comme la valeur prédictive de la phrase ; c’est la composante prédictive de la valeur totale de la phrase qui est mesurée par le poids. Cette interprétation permet de passer de la théorie de la fréquence au cas unique. L’énoncé d’un cas unique n’est pas prononcé par nous avec la prétention d’être un énoncé vrai ; il est prononcé sous la forme d’un postulat, ou comme nous pouvons aussi le dire — si nous préférons un mot établi — sous la forme d’un pari.[8] La fréquence au sein de la classe correspondante détermine, pour le cas unique, le poids du pari ou de la mise.

Le cas du jeu peut être considéré comme le paradigme de notre position face à des événements inconnus. Chaque fois qu’une prédiction est demandée, nous affrontons l’avenir comme un joueur ; nous ne pouvons rien dire de la vérité ou de la fausseté de l’événement en question — un postulat le concernant, cependant, possède pour nous un poids déterminé, qui peut être exprimé par un nombre. Un homme a une dette impayée, mais il ne sait pas si son débiteur s’acquittera un jour de sa responsabilité. S’il veut de l’argent aujourd’hui, il peut vendre sa créance pour un montant déterminé par la probabilité que le débiteur paie ; cette probabilité est donc une mesure de la valeur actuelle de la créance par rapport à sa valeur absolue et peut être appelée le poids de la créance. Nous nous plaçons de la même manière devant tout événement futur, qu’il s’agisse d’un emploi que nous espérons obtenir, du résultat d’une expérience physique, du lever du Soleil demain ou de la prochaine guerre mondiale. Toutes nos hypothèses concernant ces événements figurent dans notre liste d’attentes avec une valeur prédictive, un poids, déterminé par leur probabilité.

Toute déclaration concernant l’avenir est prononcée dans le sens d’un pari. Nous parions sur le fait que le Soleil se lèvera demain, qu’il y aura de la nourriture pour nous nourrir demain, que les lois physiques seront valables demain ; nous sommes tous des parieurs — l’homme de science, l’homme d’affaires et l’homme qui lance les dés. Comme ce dernier, nous connaissons les poids de nos mises ; et, s’il y a une différence en faveur du joueur scientifique, c’est seulement qu’il ne se contente pas de poids aussi faibles que ceux acceptés par le joueur aux dés. C’est la seule différence ; nous ne pouvons pas éviter de parier car c’est la seule façon de prendre en compte les événements futurs.

C’est le désir d’action qui rend nécessaire ce jeu. L’homme passif peut s’asseoir et attendre ce qui va se passer. L’homme actif qui veut déterminer son propre avenir, assurer sa nourriture, son logement, la vie de sa famille et le succès de son travail, est obligé d’être un joueur parce que la logique ne lui offre pas de meilleur moyen de gérer l’avenir. Il peut chercher les meilleurs paris possibles, c’est-à-dire ceux qui ont le plus de poids[9], et la science l’aidera à les trouver. Mais la logique ne peut lui fournir aucune garantie de succès.

Il reste quelques objections à notre théorie des poids qu’il convient maintenant d’analyser.

La première objection concerne la définition du poids appartenant à l’énoncé d’un seul événement. Si la probabilité appartient à une classe, sa valeur numérique est déterminée parce que pour une classe d’événements on peut déterminer une fréquence d’occurrence. Cependant, un événement unique appartient à plusieurs classes ; laquelle de ces classes devons-nous choisir pour déterminer le poids ? Supposons qu’un homme de quarante ans soit atteint de tuberculose ; nous voulons connaître la probabilité de son décès. Devons-nous considérer à cette fin la fréquence des décès dans la classe des hommes de quarante ans, ou dans la classe des tuberculeux ? Et il y a, bien sûr, beaucoup d’autres classes auxquelles l’homme appartient.

La réponse est, je pense, évidente. Nous prenons la classe la plus étroite pour laquelle nous disposons de statistiques fiables. Dans notre exemple, nous devrions prendre la classe des hommes tuberculeux de quarante ans. Plus la classe est étroite, meilleure est la détermination du poids. Ceci se justifie par l’interprétation de la fréquence, car le nombre de prédictions réussies sera le plus grand si nous choisissons la classe la plus étroite possible.[10] Un médecin prudent placera même l’homme en question dans une classe plus étroite en faisant une radiographie ; il utilisera alors comme poids du cas, la probabilité que la mort soit due à une condition du type de celle observée sur le film. Ce n’est que lorsque le passage à une nouvelle classe ne modifie pas la probabilité que celle-ci peut être négligée ; ainsi la classe des personnes dont le nom commence par la même lettre que le nom du malade peut être écartée.

La théorie de la conception classique de la causalité veut qu’en incluant le cas unique dans des classes de plus en plus étroites, la probabilité converge vers 1 ou vers 0, c’est-à-dire que l’occurrence ou la non-occurrence de l’événement est de plus en plus étroitement déterminée. Cette idée a été rejetée par la mécanique quantique, qui soutient qu’il existe une limite à la probabilité atteignable qui ne peut être dépassée, et que cette limite est inférieure à la certitude. Pour la vie pratique, cette question a peu d’importance, puisque nous devons de toute façon nous arrêter à une classe relativement éloignée de la limite. Le poids que nous utiliserons ne sera donc pas seulement déterminé par l’événement mais aussi par l’état de nos connaissances. Ce résultat de notre théorie semble très naturel, puisque nos paris ne peuvent que dépendre de l’état de nos connaissances.[11]

Une autre objection trouve son origine dans le fait que, dans de nombreux cas, nous ne sommes pas en mesure de déterminer une valeur numérique du poids. Quelle est la probabilité que César ait été en Grande-Bretagne, ou qu’il y ait une guerre l’année prochaine ? Il est vrai que nous ne pouvons pas, pour des raisons pratiques, déterminer cette probabilité ; mais je ne pense pas qu’il faille en déduire qu’il n’y a pas de probabilité déterminable par principe. Il ne s’agit que de l’état des connaissances scientifiques pour savoir s’il existe des bases statistiques pour la prédiction d’événements inconnus. On peut imaginer des méthodes de comptage du taux de réussite dans les rapports des chroniques historiques d’un certain type ; et les informations statistiques sur les guerres en relation avec les conditions sociologiques font partie du domaine des possibilités scientifiques.

On a fait valoir que dans de tels cas, nous ne connaissons qu’une comparaison de probabilités, un « plus probable » et un « moins probable ». Nous pourrions dire, par exemple, que cette année une guerre est moins probable que l’année dernière. Ce n’est pas faux ; il est certainement plus facile de connaître des déterminations d’ordre topologique que d’ordre métrique. Mais les premières n’excluent pas les secondes ; il n’y a aucune raison de supposer qu’une détermination métrique est impossible. Au contraire, la méthode statistique montre des moyens de trouver de telles déterminations métriques ; ce n’est qu’une question technique de savoir si l’on peut ou non les mener à bien.

De nombreux germes d’une détermination métrique des poids sont contenus dans les habitudes des affaires et de la vie quotidienne. L’habitude de parier sur presque toutes les choses inconnues mais qui nous intéresse montre que l’homme de la vie pratique en sait plus sur les poids que beaucoup de philosophes ne veulent bien l’admettre. Il a développé une méthode d’évaluation instinctive qui peut être comparée à l’évaluation d’un bon entrepreneur concernant les fonds nécessaires à l’ouverture d’une nouvelle usine, ou à l’évaluation par un officier d’artillerie des distances spatiales. Dans les deux cas, la détermination exacte par des méthodes quantitatives n’est pas exclue ; l’appréciation instinctive peut cependant en être un bon substitut. L’homme qui parie sur l’issue d’un match de boxe, d’une course de chevaux, d’une recherche scientifique ou d’un voyage d’exploration, fait appel à de telles évaluations instinctives du poids ; la hauteur de ses enjeux indique le poids évalué. Le système de poids qui sous-tend toutes nos actions ne possède pas la forme élaborée des tables de mortalité des compagnies d’assurance ; cependant, il présente des caractéristiques métriques aussi bien que topologiques, et il y a de bonnes raisons de penser qu’il peut être développé avec une plus grande exactitude par des méthodes statistiques.

§ 35. La logique des probabilités

La conception logique considère la probabilité comme une généralisation de la vérité ; ses règles doivent donc être développées sous la forme d’un système logique. C’est cette logique des probabilités que nous allons maintenant construire.

Supposons une classe de symboles donnés  ; il peut s’agir de propositions ou de quelque chose de semblable — ce point peut être laissé en suspens pour l’instant. À chaque symbole est coordonné un nombre dont la valeur varie entre et  ; nous l’appelons la probabilité appartenant au symbole et la désignons par

Par exemple, nous pouvons avoir

En outre, nous disposons de symboles logiques tels que les signes ¯ pour « pas », pour « ou », un point () pour « et », pour « implique » et pour « est équivalent à ». En effectuant avec ces signes des opérations basées sur le postulat que doit assumer des fonctions similaires à celles de la vérité et de la fausseté en logique ordinaire, nous obtenons une sorte de logique que nous appellerons logique des probabilités. Comme il n’y a pas d’autre détermination du terme w probabilité » tel qu’il apparaît ici, la logique des probabilités est un système formel, auquel nous pourrons donner des interprétations par la suite.

La manière dont nous allons développer ce système formel n’est pas, logiquement parlant, suffisamment déterminée. Nous pourrions inventer n’importe quel système de règles et l’appeler logique des probabilités. C’est la raison pour laquelle le problème de la logique des probabilités, et le problème connexe d’une logique de la modalité, ont récemment donné lieu à de vives discussions ; on nous a présenté un grand nombre de systèmes ingénieux, en particulier dans le cas de la logique de la modalité, les avantages de chacun étant soulignés par leurs différents auteurs. Je ne pense pas, cependant, que la question soit tranchée par l’élégance logique, ou par d’autres avantages logiques des systèmes proposés. La logique que nous recherchons doit correspondre à la pratique de la science ; et comme la science a développé les qualités du concept de probabilité d’une manière très déterminée, il ne nous reste, pratiquement, aucun choix. Cela signifie que les lois de la logique des probabilités doivent être conformes aux lois du calcul mathématique des probabilités ; par cette relation, la structure de la logique des probabilités est entièrement déterminée. Une remarque similaire s’applique à la logique de la modalité ; les concepts de « possibilité », « nécessité » et autres, considérés ici sont utilisés dans la pratique comme un cadre topologique du concept de probabilité ; leur structure doit donc être formulée dans des systèmes déductibles du système général de la logique des probabilités. La construction de ce système au moyen d’une déduction des règles du calcul mathématique des probabilités est donc le problème fondamental de tout le domaine. Cette construction a été réalisée, mais nous ne pouvons pas la présenter en détail et nous devons nous contenter d’en rapporter les résultats.[12]

Les règles de la logique des probabilités ressemblent aux règles de la logique ordinaire ou alternative (on parle aussi de « logique à deux valeurs »). Cependant, il existe deux différences décisives.

La première est que la « valeur de vérité » des symboles n’est pas liée aux deux valeurs « vérité » et « fausseté », qui peuvent être désignées par et , mais varie continuellement dans tout l’intervalle de à .

La seconde est une différence concernant les règles. Dans la logique alternative, la valeur de vérité d’une combinaison , ou , etc. est déterminée si les valeurs de vérité de et sont données individuellement. Si nous savons que est vrai et que est vrai, alors nous savons que est vrai ; ou, si nous savons que est vrai et que est faux, nous savons que est vrai, alors que dans ce cas serait faux. Une telle règle ne s’applique pas à la logique des probabilités. Nous ne pouvons pas entrer ici dans une justification détaillée de cette affirmation ; nous ne pouvons que résumer les résultats obtenus.[13] Il s’avère que la « valeur de vérité » d’une combinaison de et n’est déterminée que si, en plus des « valeurs de vérité » de et séparément, la « valeur de vérité » de l’une des autres combinaisons est donnée. C’est-à-dire : si et sont données, la valeur de , ou de , et ainsi de suite, n’est pas déterminée ; il peut y avoir des cas où et sont respectivement égaux, alors que et sont différents. Toutefois, si la « valeur de vérité » de l’une des combinaisons est connue, celle des autres peut être calculée. On peut, par exemple, introduire comme troisième paramètre indépendant et déterminer ensuite les « valeurs de vérité » des autres combinaisons en fonction de , et . Nous avons, par exemple, la formule

(1)

La nécessité d’un troisième paramètre pour la détermination de la « valeur de vérité » des combinaisons distingue la logique probabiliste de la logique alternative ; elle ne peut être éliminée mais provient d’une indétermination correspondante dans le calcul mathématique. Si et désignent les faces et d’un même dé, on a

car les faces ne peuvent pas se trouver ensemble ; la probabilité de la disjonction devient alors , ce qui découle de

et de notre formule (1). Si au contraire et désignent les faces numérotées de deux dés lancés ensemble, on a en raison de l’indépendance des lancers[14]

et notre formule (1) fournit pour la probabilité de la disjonction, conformément aux règles bien connues du calcul des probabilités.

Une formule similaire est développée pour l’implication. On montre qu’elle est

(2)

Ce cas diffère de celui de la disjonction dans la mesure où deux indications, la probabilité de et celle du produit , suffisent à déterminer la probabilité de l’implication ; cette dernière probabilité s’avère indépendante de la probabilité de . On ne peut cependant pas remplacer l’indication de par celle de  ; cela laisserait la probabilité de l’implication indéterminée.

Pour l’équivalence, l’équation est

(3)

Dans ce cas, les trois probabilités , et sont à nouveau nécessaires pour déterminer la probabilité du terme du côté gauche de l’équivalence.

Ce n’est que pour la négation que l’on obtient une formule similaire à celle de la logique alternative :

(4)

La probabilité de suffit à déterminer celle de .

Ces formules indiquent une structure logique plus générale que celle de la logique bivalente ; elles la contiennent cependant comme un cas particulier. On le voit aisément : si l’on restreint la valeur numérique de et aux nombres et , les formules ()-() fournissent automatiquement les relations bien connues de la logique à deux valeurs, telles qu’elles sont exprimées dans les tables de vérité de la logistique ; il suffit d’ajouter la table de vérité à deux valeurs pour le produit logique , qui, dans la logique alternative, n’est pas donné indépendamment mais est une fonction de et .[15]

Ces brèves remarques peuvent suffire à indiquer la nature de la logique des probabilités ; cette logique s’avère être une généralisation de la logique à deux valeurs, puisqu’elle est applicable dans le cas où les arguments forment une échelle continue de valeurs de vérité. Passons maintenant à la question de l’interprétation du système formel.

Si nous entendons par , des propositions, notre logique des probabilités devient identique au système de poids que nous avons expliqué et utilisé dans nos enquêtes précédentes. Nous parlerons dans cette interprétation de la logique des poids.

Nous pouvons cependant donner une autre interprétation aux symboles . Nous pouvons entendre par le symbole non pas une proposition mais une série de propositions définies d’une manière particulière. Considérons une fonction propositionnelle telle que «  est un dé présentant “la face ” » ; les différents lancers du dé, numérotés par l’indice , fournissent alors une série de propositions qui sont tantôt vraies, tantôt fausses, mais qui sont toutes dérivées de la même fonction propositionnelle. Nous parlerons ici d’une série propositionnelle . Les parenthèses indiquent qu’il s’agit de la série entière formée par les propositions individuelles . Ou prenons la fonction propositionnelle : «  est un cas de tuberculose avec issue fatale » ; elle sera tantôt vraie, tantôt fausse, si parcourt tout le domaine des personnes tuberculeuses. Si nous remplaçons les symboles , dans nos formules, nous pouvons interpréter comme les limites des fréquences avec lesquelles une proposition est vraie dans la série propositionnelle. En ce qui concerne les opérations logiques, nous ajoutons les définitions suivantes

qui postulent que toute opération logique entre deux séries propositionnelles est équivalente à l’agrégat de ces opérations logiques entre les éléments de la série propositionnelle. Notre système de formules fournit alors les lois de probabilité selon l’interprétation fréquentielle. Nous parlerons, dans ce cas, de logique des séries propositionnelles. On voit que par ces deux interprétations la conception logique des probabilités se scinde en deux sous-espèces. La logique des probabilités est, formellement parlant, une structure d’éléments linguistiques ; mais nous obtenons deux interprétations de cette structure par des interprétations différentes de ces éléments. Si nous concevons les propositions comme des éléments de cette structure, et leurs poids comme leurs « valeurs de vérité », nous obtenons la logique des poids. Si nous concevons les séries propositionnelles comme des éléments de la structure logique et les limites de leurs fréquences comme leurs « valeurs de vérité », nous obtenons la logique des séries propositionnelles.

Nous avons expliqué plus haut que la conception de l’identité soutient l’identité structurelle du concept logique et du concept mathématique de probabilité ; nous pouvons maintenant procéder à une autre forme de cette thèse. Notre logique des poids est la logique probabiliste des propositions ; elle formule les règles de ce que les adeptes de la conception de la disparité appelleraient le concept logique de probabilité. En revanche, notre logique des séries propositionnelles formule l’équivalent logique de la conception mathématique de la probabilité, c’est-à-dire un système logique basé sur l’interprétation des fréquences. Ce que la conception de l’identité soutient, c’est l’identité de ces deux systèmes logiques, c’est-à-dire, premièrement, leur identité structurelle et, deuxièmement, la thèse selon laquelle le concept de poids n’a pas d’autre signification que celle qui peut être exprimée dans les énoncés de fréquence. Le concept de poids est en quelque sorte une propriété fictive des propositions que nous utilisons comme abréviation pour les énoncés de fréquence. Cela revient à dire que tout poids peut être conçu, en principe, comme déterminé par une fréquence ; et que, inversement, toute fréquence apparaissant dans les statistiques peut être conçue comme un poids. Si les adeptes de la conception de la disparité ne veulent pas l’admettre, c’est qu’ils ne voient dans certains cas que la forme pondérale de la probabilité et, dans d’autres, que la forme fréquentielle. Or, les deux formes existent dans tous les cas. Dans des cas tels que les événements historiques, ces philosophes ne considèrent que la fonction de poids de la probabilité et n’envisagent pas la possibilité de construire une série dans laquelle le poids est déterminé par une fréquence. Dans des cas comme le jeu de dés ou les statistiques sociales, ces philosophes ne voient que l’interprétation fréquentielle de la probabilité et n’observent pas que la probabilité ainsi obtenue peut être conçue comme un poids pour chaque événement de la série statistique. Un lancer de dé est un événement individuel au même titre que le séjour de Jules César en Grande-Bretagne ; tous deux peuvent être incorporés dans la logique des poids, mais cela n’empêche pas que le poids soit déterminé par une fréquence. Les statistiques nécessaires à cette détermination sont faciles à obtenir pour le dé mais sont très difficiles à obtenir dans le cas du séjour de César en Grande-Bretagne. Nous devons nous contenter dans ce cas d’appréciations grossières ; mais cela ne prouve pas une disparité essentielle des deux cas.

§ 36 Les deux façons de transformer la logique des probabilités en logique à deux valeurs

Il faut maintenant se poser la question de la transformation de la logique des probabilités en logique alternative. Par le mot « transformation » nous n’entendons pas une transition du type indiqué précédemment. La transition par restriction du domaine des variables est une spécialisation ; son application dépend de la nature des variables données. Nous cherchons maintenant une transition qui puisse être effectuée pour n’importe quel type de variables, et qui transforme tout système de logique des probabilités en logique à deux valeurs.

Il existe deux façons d’effectuer une telle transformation. La première est la méthode de la division. Dans sa forme la plus simple, la division est une dichotomie. Nous coupons alors l’échelle de probabilité en deux parties par une valeur de démarcation , par exemple la valeur , et nous faisons les définitions suivantes :

Si , est dit vrai
Si , est dit faux.

Cette procédure fournit une classification assez grossière des énoncés de probabilité, mais elle est toujours applicable et suffit à certaines fins pratiques.

Une méthode de division plus appropriée introduit une logique à trois valeurs. Nous procédons alors par trichotomie ; nous choisissons deux valeurs de démarcation, et et nous définissons :

Si , est dit vrai
Si , est dit faux
Si , est dit indéterminé

Si l’on choisit pour une valeur proche de 1 et pour une valeur proche de 0, la méthode de la trichotomie a l’avantage de ne considérer comme vraies que les probabilités élevées et comme fausses que les probabilités faibles. En ce qui concerne le domaine intermédiaire de l’indéterminé, la procédure correspond à la pratique réelle : il y a de nombreuses déclarations que nous ne pouvons pas utiliser parce que leur valeur de vérité est inconnue. Si nous laissons tomber ces énoncés indéterminés, nous pouvons considérer le reste comme des énoncés d’une logique à deux valeurs ; en ce sens, la méthode de la trichotomie conduit également à une logique à deux valeurs.

En ce qui concerne la validité des règles de la logique bivalente pour les propositions définies comme « vraies » ou « fausses » par dichotomie ou trichotomie, il convient d’ajouter la remarque suivante. L’opération de négation s’applique à la dichotomie parce qu’elle conduit d’un domaine à l’autre en raison de la relation exprimée en (4), § 35. Il en est de même pour la trichotomie si les limites et sont situées symétriquement ; en raison de (4), § 35, la négation d’un énoncé vrai est alors fausse, et réciproquement. Dans le cas des autres opérations, cependant, l’application des règles de la logique à deux valeurs n’est permise que dans le sens d’une approximation. Si, par exemple, selon nos définitions, est vrai et est vrai, nous ne pouvons pas toujours considérer le produit logique comme également vrai, car il existe certaines exceptions. C’est le cas lorsque et sont proches de la limite ou  ; il se peut alors que soit inférieur à la limite. Ainsi, si et sont indépendants, la valeur de est donnée par le produit arithmétique de et  ; comme ces nombres sont des fractions inférieures à , leur produit peut se situer au-dessous de la limite, alors que chacun d’eux se situe au-dessus de la limite. Un cas similaire est possible pour la disjonction. En général, si est faux, et est faux, leur disjonction est fausse aussi ; il peut arriver cependant dans notre logique dérivée que dans un tel cas la disjonction soit vraie. Cette possibilité est impliquée dans notre formule (1), § 35 ; si et sont inférieurs à la limite, peut être supérieur à la limite.

La logique à deux valeurs dérivée de la logique des probabilités par dichotomie n’est qu’une logique approximative. Il en va de même pour la logique bivalente ou trivalente dérivée par trichotomie. Cette dernière ne devient une logique stricte que si et , c’est-à-dire si tout le domaine entre et est dit indéterminé. Dans ce cas, des exceptions telles que celles mentionnées ne peuvent se produire ; ce n’est que dans le cas où et sont tous deux indéterminés qu’il y a une certaine ambiguïté.[16] Une telle logique, cependant, ne s’applique pas à la physique, car les cas ou ne se produisent pas dans la pratique ; il n’y aurait pas du tout d’énoncés vrais ou faux en physique si l’on utilisait cette logique. Une transformation par division est donc vouée à rester une approximation.

Passons maintenant à la deuxième méthode de transformation. Elle est rendue possible par l’interprétation fréquentielle des probabilités. Nous sommes partis d’un système relationnel L entre les éléments ,

Comme la « valeur de vérité » des éléments , varie continuellement de à , a le caractère d’une logique à échelle continue et signifie logique des probabilités. Nous avons dit que nous pouvons remplacer les éléments , par un autre ensemble d’éléments , appelés séries propositionnelles ; nous avons alors le système

La valeur de vérité des éléments , varie également sur une échelle continue. Or, les séries propositionnelles , sont constituées d’éléments qui sont des propositions à deux valeurs de vérité seulement, et la « valeur de vérité » de la série propositionnelle peut être interprétée comme la fréquence à laquelle les propositions sont vraies. Par cette interprétation, le système relationnel est transformé en un autre système relationnel

On peut comparer cette transition à l’introduction de nouvelles variables en mathématiques. n’est rien d’autre que la logique ordinaire à deux valeurs.

C’est-à-dire : Tout énoncé sur les séries propositionnelles, dans le cadre de la logique des probabilités, peut être transformé en un énoncé dans le cadre de la logique à deux valeurs Page:Reichenbach - Experience and Prediction.djvu/344 fréquence d’une série physique ne peut donc pas être énoncée avec certitude : cet énoncé n’est en soi que probable. Ces réflexions conduisent, comme on le voit, à une théorie des énoncés probabilistes de niveaux supérieurs ; comme ces considérations impliquent quelques analyses supplémentaires, nous pouvons reporter la discussion de cette théorie à des sections ultérieures (§§ 41 et 43). Il peut suffire pour l’instant d’affirmer que la deuxième condition ne peut être remplie pour les énoncés des sciences empiriques.

À ce stade, la première condition doit être examinée de plus près. Cette condition n’est pas remplie dans les sciences empiriques parce qu’il n’y a pas de propositions absolument vérifiables. Tel était le résultat de nos investigations précédentes ; nous avons montré qu’il ne s’agit que d’une schématisation lorsque l’on parle d’une proposition strictement vraie ou fausse. Avant le lancer du dé, nous n’avons qu’une probabilité sur le résultat du lancer ; après le lancer, nous disons que nous connaissons exactement le résultat. Mais, à proprement parler, il ne s’agit que du passage d’une probabilité faible à une probabilité forte ; il n’est pas absolument certain qu’il y ait devant moi sur la table un dé présentant la face . Il en est de même pour toute autre proposition quelle qu’elle soit ; il n’est pas nécessaire d’entrer à nouveau dans la discussion de cette idée. Si nous considérons la deuxième condition comme remplie — et pour certains usages cela peut être pratique — cette hypothèse n’est donc valable que dans le sens d’une schématisation.

Nous pouvons indiquer maintenant ce qui est réalisé dans cette schématisation. À proprement parler, les propositions élémentaires ne possèdent pour nous qu’un poids ; si nous remplaçons ce poids par la vérité ou la fausseté, nous effectuons une transformation par dichotomie ou trichotomie. Ainsi la transformation de en , par l’interprétation fréquentielle, présuppose une autre transformation par division portant sur le nouvel ensemble d’éléments.

L’interprétation fréquentielle, en introduisant la logique bivalente, ne peut donc pas nous libérer du caractère approximatif de cette logique, même si nous ne tenons pas compte de la deuxième condition. Cela n’implique pas pour autant qu’une telle transition soit superflue ; au contraire, il s’agit d’une procédure qui permet d’accroître fortement le degré d’approximation. C’est la raison pour laquelle cette transformation joue un rôle dominant parmi les méthodes scientifiques.

Nous pourrions essayer de construire notre système de connaissance en donnant à chaque proposition un poids évalué ; nous constaterions alors, cependant, que nous obtenons ainsi un système de poids plutôt mauvais. La procédure actuelle de la science remplace une telle méthode directe par une méthode indirecte, qui doit être considérée comme l’une des inventions les plus perspicaces de la science. Nous commençons par une transformation trichotomique, nous n’acceptons que les propositions de poids fort et faible et nous abandonnons le domaine intermédiaire. Appliquant alors l’interprétation fréquentielle des probabilités, nous construisons par des processus de comptage le poids des propositions avant omission. Ce n’est pas le seul but de nos calculs ; nous pouvons même contrôler le poids des propositions acceptées au départ et éventuellement les déplacer de la place supposée dans l’échelle des poids vers une nouvelle place. Ainsi, une proposition supposée vraie à l’origine peut s’avérer indéterminée ou fausse par la suite. Il ne s’agit pas d’une contradiction dans la méthode statistique, car la modification de la valeur de vérité de certaines des propositions élémentaires n’a pas, dans l’ensemble, une grande influence sur la fréquence. Nous devons constamment insister sur le fait que ce qui a été supposé par l’évaluation comme étant le poids est confirmé ultérieurement par une réduction de la fréquence d’autres énoncés qui sont jugés par des évaluations également. Les évaluations initiales sont donc soumises à un processus de dissolution, dirigé par la fréquence interprétée Ce processus de dissolution conduit à un nouvel ensemble d’évaluations ; l’amélioration associée à cette procédure consiste dans le fait que chaque évaluation individuelle devient moins importante, que son éventuelle fausseté influence moins l’ensemble du système. Ainsi, par l’action concertée de la trichotomie et de l’interprétation des fréquences, nous construisons un système de poids beaucoup plus exact que celui que nous pourrions obtenir par une évaluation directe des poids.

Dans le cadre de cette procédure, la fonction essentielle de l’interprétation des fréquences devient manifeste. Bien que notre logique de propositions ne soit pas à deux valeurs mais à échelle continue, nous n’avons pas besoin de commencer la connaissance avec la logique des probabilités. Nous commençons par une logique approximative à deux valeurs et développons l’échelle continue au moyen de l’interprétation des fréquences. La même méthode s’applique inversement : si un énoncé de probabilité est donné, nous le vérifions au moyen de l’interprétation des fréquences, en le réduisant à des énoncés d’une logique approximative bivalente. Cette logique approximative est meilleure que la logique probabiliste originale car elle omet le domaine intermédiaire douteux des poids. C’est l’interprétation fréquentielle des probabilités qui rend cette réduction possible, car en dissolvant les poids en fréquences, elle nous permet de limiter l’évaluation directe des poids à ceux qui sont d’un degré élevé ou faible. L’interprétation des fréquences nous libère de la manipulation d’un système logique trop peu maniable pour une utilisation directe.

Il ne faut cependant pas oublier que la logique bivalente reste toujours approximative. Le système de connaissance est écrit dans le langage de la logique des probabilités ; la logique bivalente est un langage de substitution qui ne convient que dans le cadre d’une approximation. Toute épistémologie qui néglige ce fait risque de se perdre sur les hauteurs dénudées d’une idéalisation.

§37. La conception aprioriste et formaliste de la logique

Nous devons maintenant aborder la question de l’origine des lois de la logique des probabilités. Cette question est indissociable de la question de l’origine de la logique en général ; nous devons donc entrer dans une recherche sur la nature de la logique.

Dans l’histoire de la philosophie, il y a deux interprétations de la logique qui ont joué un rôle dominant, et qui ont perduré jusqu’à former le sujet principal des discussions sur la logique à notre époque.

Pour la première interprétation, que l’on peut qualifier d’aprioriste, la logique est une science qui a sa propre autorité, qu’elle soit fondée sur la nature a priori de la raison, sur la nature psychologique de la pensée, sur l’intuition intellectuelle ou sur l’évidence — les philosophes nous ont fourni de nombreuses expressions de ce type, dont le but est d’exprimer que nous devons simplement nous soumettre à la logique comme à une sorte de commandement supérieur.

Telle était la conception de Platon, à laquelle s’ajoutait une vision des idées ; telle était la doctrine de la plupart des scolastiques pour qui la logique révélait les lois et la nature de Dieu ; telle était la conception des rationalistes modernes, Descartes, Leibnitz et Kant, hommes qui doivent être considérés comme les fondateurs de l’apriorisme moderne en matière de logique et de mathématiques. Les fondateurs de la logique moderne des probabilités n’étaient d’ailleurs pas très éloignés d’une telle conception. Ils ont découvert que les lois de cette logique sont aussi évidentes que les lois de la logique plus ancienne ; ils ont donc conçu la logique des probabilités comme la logique de la « croyance rationnelle » en des événements dont la valeur de vérité n’est pas connue, et donc comme une continuation de la logique a priori. Boole concevait sa logique des probabilités comme une expression des « lois de la pensée », choisissant ce terme comme titre de son principal ouvrage ; Venn appelait la logique des probabilités « une branche de la science générale de la preuve » et Keynes, qui représente aujourd’hui cette conception de la logique des probabilités, renouvelle la théorie de la « croyance rationnelle ». La domination de l’apriorisme s’étend donc jusque dans les rangs des logisticiens.

La deuxième interprétation ne reconnaît pas la logique comme une science matérielle et peut être appelée l’interprétation formaliste de la logique. Les adeptes de cette interprétation ne croient pas au caractère a priori de la logique. Ils refusent même de parler de « lois » de la logique, ce terme suggérant qu’il existe quelque chose de l’ordre d’une autorité en logique à laquelle nous devons obéir. Pour eux, la logique est un système de règles qui ne détermine en rien le contenu de la science, et qui ne fait que fournir une transformation d’une proposition en une autre sans rien ajouter à son intension. Cette conception de la logique a sous-tendu la lutte des nominalistes au Moyen Age ; elle a été reconnue par les empiristes, tels que Hume, qui ont vu la nécessité d’une explication de l’affirmation de la nécessité par la logique ; et elle devait constituer la base du développement moderne de la logique associé aux noms de Hilbert, Russell, Wittgenstein et Carnap.[17] Wittgenstein a donné la définition importante du concept de tautologie : Une tautologie est une formule dont la vérité est indépendante des valeurs de vérité des propositions élémentaires qu’elle contient. La logique était ainsi définie comme le domaine des formules tautologiques ; le point de vue sur le vide matériel de la logique trouvait sa formulation stricte dans la définition de Wittgenstein.

Carnap a ajouté un point de vue qui était essentiel pour l’explication de l’affirmation de la nécessité par la logique. La logique, dit-il, dans le prolongement des idées de Wittgenstein, s’occupe de avec le langage uniquement, et non avec les objets du langage. Le langage est constitué de symboles dont l’utilisation est déterminée par certaines règles. La nécessité logique n’est donc rien d’autre qu’une relation entre symboles due aux règles du langage. Il n’y a pas de nécessité logique « inhérente aux choses », comme le soulignent les prophètes de toutes sortes d’« ontologie ». Le caractère de nécessité est entièrement du côté des symboles ; de telles nécessités, cependant, ne disent rien sur le monde parce que les règles du langage sont construites de telle manière qu’elles ne restreignent pas le domaine de l’expérience.

C’est pourquoi Carnap appelle la logique la syntaxe du langage. Il n’y a pas de lois logiques du monde, mais seulement des règles syntaxiques du langage. Ce que nous avons appelé un fait logique (§ 1), doit être appelé dans cette meilleure terminologie un fait syntaxique. Au lieu de parler du fait logique qu’une phrase ne peut être déduite d’une phrase , il vaut mieux parler d’un fait syntaxique : la structure des formules et est telle que la relation syntaxique de « déductibilité » n’existe pas entre elles.

La conception formaliste de la logique nous libère de tous les problèmes d’apriorisme, de toutes les questions de correspondance entre l’esprit et la réalité. Elle est pour cette raison la théorie logique naturelle de tout empirisme. Elle n’exige de nous aucune croyance en des lois non empiriques. Ce que nous savons de la nature est tiré de l’expérience ; la logique n’ajoute rien aux résultats de l’expérience car la logique est vide, elle n’est rien d’autre qu’un système de règles syntaxiques du langage.

Demandons-nous maintenant si nous pouvons insérer la logique des probabilités dans la conception formaliste de la logique. Il est évident qu’il s’agit là, pour toutes les variétés d’empirisme, d’une question fondamentale. Nous avons constaté que le concept de probabilité est indispensable à la connaissance, que la logique des probabilités détermine les méthodes d’investigation scientifique. Si nous ne pouvions pas donner une interprétation formaliste de la logique des probabilités, tous les efforts des anti-métaphysiciens auraient été vains ; bien qu’ils aient surmonté les difficultés de la logique à deux valeurs, ils échoueraient maintenant devant le concept qui forme l’essence même de la prédiction scientifique — devant le concept de probabilité. Un empirisme logistique serait intenable si nous ne parvenions pas à trouver une solution formaliste au problème des probabilités.

Cette solution existe. Pour la présenter, nous procéderons en deux étapes.

La première étape est marquée par l’interprétation des fréquences. Nous avons montré que la logique des probabilités peut être transformée en logique à deux valeurs par l’interprétation des fréquences. L’énoncé de cette transformation nécessite une remarque supplémentaire. Bien qu’il soit facile de voir qu’une telle transformation est obtenue par l’interprétation des fréquences, nous ne savons pas immédiatement si cette réduction nécessite ou non des axiomes d’un autre type pour lesquels nous n’avons peut-être aucune justification. On ne peut répondre à cette question que par un procédé axiomatique réduisant le calcul mathématique des probabilités à un système de présupposés simples suffisant pour la déduction de tout le système mathématique ; il faut alors s’interroger sur la nature de ces axiomes.

Cette procédure a été menée à bien ; elle aboutit à un résultat de la plus haute pertinence pour notre problème. Il s’avère que tous les théorèmes de probabilité se réduisent à un seul présupposé : il s’agit de l’interprétation fréquentielle. Si la probabilité est interprétée comme la limite de la fréquence relative dans une série infinie (ou finie), toutes les lois de probabilité se réduisent à des lois arithmétiques et, de ce fait, deviennent tautologiques. La démonstration de ce théorème implique quelques complications, car la théorie des probabilités mathématiques fait référence à un grand nombre de types de séries de probabilités, les séries normales, telles qu’elles se produisent dans les jeux de hasard, étant n’étant qu’un type particulier au sein de cet ensemble. Même une brève indication de cette démonstration allongerait indûment notre exposé, nous devons donc nous contenter d’un énoncé du résultat.[18]

Les conséquences de ce résultat pour l’insertion de la logique des probabilités dans l’interprétation formaliste de la logique sont évidentes : le problème de la justification des lois de la logique des probabilités disparaît. Ces lois sont justifiées, en tant que lois arithmétiques, dans le cadre de l’interprétation formaliste des mathématiques. Pour voir l’effet de ce résultat, rappelons les difficultés des anciens auteurs de la logique des probabilités. Ils ont vu que les lois de la probabilité, bien qu’admises par tous, ne peuvent pas être déduites logiquement du concept de probabilité si ce concept doit signifier quelque chose comme l’espérance raisonnable, ou la chance d’occurrence d’un seul événement ; les lois, alors, devaient être synthétiques et a priori. La conception des « lois de la croyance rationnelle » qui exprime cette idée est née du fait que la déductibilité de ces lois à partir de l’interprétation des fréquences n’était pas perçue. Nous n’avons pas besoin d’une « science de la preuve » pour prouver les lois de la probabilité si nous entendons par probabilité la limite d’une fréquence. D’autre part, c’est une des raisons pour lesquelles il faut insister sur la conception identitaire des deux concepts de probabilité : s’ils étaient disparates, s’il existait un concept non statistique de probabilité, la justification de ses lois par l’interprétation fréquentielle ne pourrait pas être donnée, et l’interprétation formaliste de la logique des probabilités ne pourrait pas être menée à bien.[19] Nous devrions être ramenés à la position aprioriste et être obligés de croire en des lois que nous ne pouvons pas justifier. Seule l’interprétation des fréquences nous libère des hypothèses métaphysiques et relie le problème des probabilités à la dissolution continue de l’a priori qui marque le développement de l’empirisme logistique moderne. La réduction des lois de probabilité à des tautologies par l’interprétation fréquentielle n’est cependant qu’un premier pas dans cette direction. Il reste un deuxième pas à faire.

§ 38. Le problème de l’induction

Jusqu’à présent, nous n’avons parlé que des qualités utiles de l’interprétation fréquentiste. Elle a aussi des qualités dangereuses.

L’interprétation des fréquences a deux fonctions dans la théorie des probabilités. Premièrement, une fréquence est utilisée comme justification de l’énoncé de probabilité ; elle fournit la raison pour laquelle nous croyons en cet énoncé. Deuxièmement, une fréquence est utilisée pour la vérification de l’énoncé de probabilité, c’est-à-dire qu’elle fournit le sens de l’énoncé. Ces deux fonctions ne sont pas identiques. La fréquence observée dont nous partons n’est que la base de l’inférence de probabilité ; nous avons l’intention d’énoncer une autre fréquence qui concerne les observations futures. L’inférence probabiliste part d’une fréquence connue pour aller vers une fréquence inconnue ; c’est de cette fonction qu’elle tire son importance. L’énoncé de la probabilité soutient une prédiction, et c’est pour cela que nous la voulons.

C’est le problème de l’induction qui apparaît avec cette formulation. La théorie de la probabilité implique le problème de l’induction, et une solution au problème de la probabilité ne peut être donnée sans une réponse à la question de l’induction. Le lien entre les deux problèmes est bien connu ; des philosophes comme Peirce ont exprimé l’idée qu’une solution du problème de l’induction se trouve dans la théorie des probabilités. Mais la relation inverse est également valable. Disons, prudemment, que la solution des deux problèmes se trouve dans la même théorie.

En unissant le problème de la probabilité à celui de l’induction, nous nous prononçons sans équivoque en faveur de la détermination du degré de probabilité que les mathématiciens appellent détermination a posteriori. Nous refusons de reconnaître toute détermination dite a priori telle que certains mathématiciens l’introduisent dans la théorie des jeux de hasard ; nous renvoyons sur ce point à nos remarques du § 33, où nous avons mentionné que la détermination dite a priori peut être ramenée à une détermination a posteriori. C’est donc cette dernière procédure qu’il nous faut maintenant analyser.

Par « détermination a posteriori », nous entendons une procédure dans laquelle la fréquence relative observée statistiquement est supposée se maintenir approximativement pour toute prolongation future de la série. Exprimons cette idée dans une formulation exacte. Nous supposons une série d’événements et (non-) ; soit le nombre d’événements, le nombre d’événements du type parmi eux. Nous avons alors la fréquence relative

L’hypothèse de la détermination a posteriori peut maintenant être exprimée :

Pour toute prolongation de la série jusqu’à événements , la fréquence relative restera dans un petit intervalle autour de  ; c’est-à-dire que nous supposons la relation suivante

est un petit nombre.

Cette hypothèse formule le principe d’induction. Nous pouvons ajouter que notre formulation énonce le principe sous une forme forme plus générale que celle utilisée dans la philosophie traditionnelle. La formulation habituelle est la suivante : l’induction est l’hypothèse qu’un événement qui s’est produit fois se produira à toutes les fois suivantes. Il est évident que cette formulation est un cas particulier de notre formulation, correspondant au cas . Nous ne pouvons pas limiter notre étude à ce cas particulier car le cas général se retrouve dans un grand nombre de problèmes.

La raison en est que la théorie des probabilités a besoin de la définition de la probabilité comme limite de la fréquence. Notre formulation est une condition nécessaire à l’existence d’une limite de la fréquence au voisinage de  ; ce qu’il faut encore ajouter, c’est qu’il existe un du type postulé pour chaque « aussi petit soit-il ». Si nous incluons cette idée dans notre hypothèse, notre postulat d’induction devient l’hypothèse qu’il existe une limite à la fréquence relative qui ne diffère pas beaucoup de la valeur observée.

Si nous entrons maintenant dans une analyse plus fine de cette hypothèse, une chose n’est plus à démontrer : la formule donnée n’est pas une tautologie. Il n’y a en effet aucune nécessité logique à ce que reste dans l’intervalle ; on peut facilement imaginer que cela n’ait pas lieu.

Le caractère non tautologique de l’induction est connu depuis longtemps ; Bacon avait déjà souligné que c’est justement à ce caractère que l’induction doit son importance. Si l’inférence inductive peut nous apprendre quelque chose de nouveau, par opposition à l’inférence déductive, c’est parce qu’elle n’est pas une tautologie. Cette qualité utile est cependant devenue le centre des difficultés épistémologiques de l’induction. C’est David Hume qui, le premier, a attaqué le principe de ce côté ; il a souligné que la contrainte apparente de l’inférence inductive, bien que soumise par tout le monde, ne pouvait être justifiée. Nous croyons à l’induction ; nous ne pouvons même pas nous en défaire lorsque nous connaissons l’impossibilité d’une démonstration logique de la validité de l’inférence inductive ; mais en tant que logiciens, nous devons admettre que cette croyance est une tromperie — tel est le résultat de la critique de Hume. Nous pouvons résumer ses objections en deux affirmations :

1. Nous n’avons aucune démonstration logique de la validité de l’inférence inductive.

2. Il n’y a pas de démonstration a posteriori de la déduction inductive ; toute démonstration de ce type présupposerait le principe même qu’elle est censée démontrer.

Ces deux piliers de la critique de Hume sur le principe d’induction sont restés inébranlables pendant deux siècles, et je pense qu’ils le resteront tant qu’il y aura une philosophie scientifique.

Malgré l’impression profonde que la découverte de Hume a faite sur ses contemporains, sa pertinence n’a pas été suffisamment remarquée dans le développement intellectuel ultérieur. Je ne parle pas ici des métaphysiciens spéculatifs que le dix-neuvième siècle nous a présentés si abondamment, surtout en Allemagne ; nous n’avons pas à nous étonner qu’ils n’aient prêté aucune attention à des objections qui démontraient si sobrement les limites de la raison humaine. Mais les empiristes, et même les logiciens mathématiciens, n’ont pas fait mieux à cet égard. Il est étonnant de voir comment des logiciens lucides, comme John Stuart Mill, Whewell, Boole, ou Venn, en écrivant sur le problème de l’induction, ont ignoré la portée des objections de Hume ; ils n’ont pas réalisé que toute logique de la science reste un échec tant que nous n’avons pas de théorie de l’induction qui ne soit pas exposée à la critique de Hume. C’est sans doute leur apriorisme logique qui les a empêchés d’admettre le caractère insatisfaisant de leurs propres théories de l’induction. Mais il reste incompréhensible que leurs principes empiristes ne les aient pas conduits à accorder un poids plus important à la critique de Hume.

C’est avec le succès de l’interprétation formaliste de la logique au cours des dernières décennies que le poids des objections de Hume s’est à nouveau fait sentir. Les exigences en matière de rigueur logique se sont accrues, et le vide dans la chaîne des déductions scientifiques, indiqué par Hume, ne pouvait plus être négligé. La tentative des positivistes modernes d’établir la connaissance comme un système de certitude absolue a trouvé un obstacle insurmontable dans le problème de l’induction. Dans cette situation, un expédient a été proposé, qui ne peut être considéré autrement que comme un acte de désespoir.

Le remède a été cherché dans le principe de la rétrogradation. On se souvient du rôle que ce principe a joué dans la théorie de la vérité du sens des phrases indirectes (§ 7) ; les positivistes qui avaient déjà essayé de mener à bien le principe dans ce domaine ont maintenant tenté de l’appliquer à la solution du problème de l’induction. Ils ont posé la question suivante : à quelles conditions applique-t-on le principe inductif pour déduire un nouvel énoncé ? Ils ont donné la réponse exacte : On l’applique lorsqu’on fait un certain nombre d’observations qui portent sur des événements d’un type homogène et qui fournissent une fréquence pour un type déterminé d’événements parmi eux. Qu’en déduit-on ? Vous supposez, disent-ils, pouvoir en déduire une prolongation future similaire de la série ; mais, selon le principe de la rétrogression, cette « prédiction de l’avenir » ne peut avoir un sens qui soit plus qu’une répétition des prémisses de l’inférence — elle ne signifie rien d’autre que l’affirmation : « Il y a eu une série d’observations de tel ou tel type ». Le sens d’un énoncé sur le futur est un énoncé sur le passé — c’est ce qui fournit l’application du principe de rétrogression à l’inférence inductive.

Je ne pense pas qu’un tel raisonnement puisse convaincre un intellect sain. Loin de la considérer comme une analyse de la science, je considérerais plutôt une telle interprétation de l’induction comme un acte de suicide intellectuel. Le décalage entre la pensée réelle et le résultat épistémologique ainsi obtenu est trop évident. La seule chose que l’on puisse déduire de cette démonstration est que le principe de rétrogradation ne tient pas si l’on veut que notre construction épistémologique corresponde à la procédure réelle de la science. Nous savons bien que la science veut prévoir l’avenir ; et si l’on nous dit que « prévoir l’avenir » signifie « rapporter le passé », nous ne pouvons que répondre que l’épistémologie doit être autre chose qu’un jeu de mots.

C’est le postulat d’utilisabilité qui exclut l’interprétation de l’inférence inductive en termes de principe de régression. Pour que les énoncés scientifiques soient utilisables pour l’action, il faut qu’ils dépassent les énoncés sur lesquels ils s’appuient, qu’ils concernent des événements futurs et non ceux du seul passé. La préparation de l’action suppose, outre une décision volitive sur le but de l’action, une connaissance de l’avenir. Si l’on donnait une forme correcte au raisonnement décrit, cela reviendrait à soutenir qu’il n’y a pas de connaissance démontrable de l’avenir. C’était certainement l’idée de Hume. Au lieu d’une pseudo-solution du problème de l’induction, nous devrions alors simplement nous limiter à la répétition du résultat de Hume et admettre que le postulat de l’utilisabilité ne peut être satisfait. La théorie de la vérité du sens conduit à un scepticisme humien, c’est ce qui découle du déroulement de l’argumentation.

L’intention du positivisme moderne était de ramener la connaissance à la certitude absolue ; ce qui a été proposé avec l’interprétation formaliste de la logique n’était rien d’autre qu’une reprise du programme de Descartes. Le grand fondateur du rationalisme voulait rejeter toute connaissance qui ne pouvait être considérée comme absolument fiable ; c’est le même principe qui a conduit les logiciens modernes à la négation des principes a priori. Il est vrai que ce principe a conduit Descartes lui-même à l’apriorisme ; mais cette différence peut être considérée comme une différence de stade dans le développement historique — son apriorisme rationaliste devait remplir la même fonction de balayer toutes les revendications scientifiques insoutenables que celle visée par la lutte ultérieure contre les principes a priori. Le refus d’admettre toute forme de logique matérielle — c’est-à-dire toute logique fournissant des informations sur une certaine « matière » — provient de la source cartésienne : c’est le désir inéluctable d’une connaissance absolument certaine qui sous-tend à la fois le rationalisme de Descartes et le logicisme des positivistes.

La réponse donnée à Descartes par Hume vaut également pour le positivisme moderne. Il n’y a pas de certitude dans la connaissance du monde parce que la connaissance du monde implique des prédictions sur l’avenir. L’idéal d’une connaissance absolument certaine conduit au scepticisme — il est préférable de l’admettre que de se laisser aller à des rêveries sur la connaissance a priori. Seul un manque de radicalité intellectuelle a pu empêcher les rationalistes de le voir ; les positivistes modernes devraient avoir le courage de tirer cette conclusion sceptique, de tracer l’idéal de la certitude absolue jusqu’à ses implications inéluctables.

Or, au lieu d’un désaveu aussi strict de la finalité prédictive de la science, le positivisme moderne a tendance à éluder cette alternative et à sous-estimer la pertinence des objections sceptiques de Hume. Il est vrai que Hume lui-même n’est pas exempt de tout reproche à cet égard. Il n’est pas prêt à réaliser les conséquences tragiques de sa critique ; sa théorie de la croyance inductive comme habitude — que l’on ne peut certainement pas qualifier de solution du problème — est avancée avec l’intention de masquer le fossé qu’il a mis en évidence entre l’expérience et la prédiction. Il n’est pas alarmé par sa découverte ; il ne se rend pas compte que, s’il n’y a pas d’issue au dilemme qu’il a signalé, la science pourrait tout aussi bien ne pas être poursuivie — il n’y a aucune utilité à un système de prédictions s’il n’est rien d’autre qu’une ridicule auto-illusion. Certains positivistes modernes n’en sont pas conscients non plus. Ils parlent de la formation de théories scientifiques, mais ils ne voient pas que, s’il n’y a pas de justification pour l’inférence inductive, la procédure de travail de la science tombe au niveau d’un jeu et ne peut plus être justifiée par l’applicabilité de ses résultats à des fins d’action. L’intention de l’a priori synthétique de Kant était de protéger cette procédure de travail contre les doutes de Hume ; nous savons aujourd’hui que la tentative de sauvetage de Kant a échoué. Nous devons ce résultat critique à l’établissement de la conception formaliste de la logique. Si, toutefois, nous ne parvenons pas à trouver une réponse aux objections de Hume dans le cadre du formalisme logistique, nous devrons admettre franchement que la version anti-métaphysique de la philosophie a conduit au renoncement à toute justification des méthodes prédictives de la science — à un échec définitif de la philosophie scientifique.

On ne peut pas se passer de l’inférence inductive parce qu’elle est nécessaire à l’action. Considérer l’hypothèse inductive comme indigne de l’assentiment d’un philosophe, garder une réserve distinguée et accueillir avec un sourire condescendant les tentatives d’autres personnes pour combler le fossé entre l’expérience et la prédiction, c’est se tromper à bon compte ; au moment même où les apôtres d’une telle philosophie supérieure quittent le champ de la discussion théorique pour passer aux actions les plus simples de la vie quotidienne, ils suivent le principe inductif aussi sûrement que le fait tout esprit terrien. Dans toute action, il y a plusieurs moyens de réaliser notre but ; nous devons faire un choix, et nous décidons conformément au principe d’induction. Bien qu’il n’y ait pas de moyen qui produise avec certitude l’effet désiré, nous ne laissons pas le choix au hasard mais préférons le moyen indiqué par le principe d’induction. Si nous sommes assis au volant d’une voiture et que nous voulons tourner la voiture vers la droite, pourquoi tournons-nous le volant vers la droite ? Il n’y a aucune certitude que la voiture suivra le volant ; il y a en effet des voitures qui ne se comportent pas toujours ainsi. Ces cas sont heureusement des exceptions. Mais si nous ne tenions pas compte de la prescription inductive et considérions l’effet d’un tour de roue comme totalement inconnu pour nous, nous pourrions également tourner le volant vers la gauche. Je ne dis pas cela pour suggérer une telle tentative ; les effets de la philosophie sceptique appliquée à la circulation automobile seraient plutôt désagréables. Mais je dirais qu’un philosophe qui doit mettre de côté ses principes chaque fois qu’il conduit une voiture est un mauvais philosophe.

Ce n’est pas justifier la croyance inductive que de montrer qu’il s’agit d’une habitude. C’est une habitude ; mais la question est de savoir s’il s’agit d’une bonne habitude, où « bonne » signifie « utile dans le but d’actions orientées vers des événements futurs ». Si quelqu’un me dit que Socrate est un homme et que tous les hommes sont mortels, j’ai l’habitude de croire que Socrate est mortel. Je sais cependant que c’est une bonne habitude. Si quelqu’un avait l’habitude de croire dans un tel cas que Socrate n’est pas mortel, on pourrait lui démontrer que c’est une mauvaise habitude. La question analogue doit être posée pour la déduction inductive. Si nous ne sommes pas en mesure de démontrer qu’il s’agit d’une bonne habitude, nous devrions soit cesser de l’utiliser, soit admettre franchement que notre philosophie est un échec.

La science procède par induction et non par des transformations tautologiques de rapports. Bacon a raison à propos d’Aristote ; mais le novum organon a besoin d’une justification aussi bonne que celle de l’organon. La critique de Hume a été le coup le plus dur porté à l’empirisme ; si nous ne voulons pas tromper notre conscience au moyen du narcotique du rationalisme aprioriste ou du soporifique du scepticisme, nous devons trouver une défense de l’inférence inductive qui tienne aussi bien que la justification formaliste de la logique déductive.

§ 39. La justification du principe d’induction

Nous allons maintenant commencer à donner la justification de l’induction que Hume pensait impossible. Dans la poursuite de cette enquête, demandons-nous d’abord ce qui a été prouvé, à proprement parler, par les objections de Hume.

Hume est parti de l’hypothèse qu’une justification de l’inférence inductive n’est donnée que si l’on peut montrer que l’inférence inductive doit mener au succès. En d’autres termes, Hume pensait que toute application justifiée de l’inférence inductive présuppose la démonstration que la conclusion est vraie. C’est sur cette hypothèse que repose la critique de Hume. Ses deux objections ne concernent directement que la question de la vérité de la conclusion ; elles prouvent que la vérité de la conclusion ne peut être démontrée. Les deux objections ne sont donc valables que dans la mesure où le présupposé humien est valable. C’est vers cette question qu’il faut se tourner : est-il nécessaire, pour justifier l’inférence inductive, de montrer que sa conclusion est vraie ? Une analyse assez simple nous montre que cette hypothèse ne tient pas. Certes, si l’on pouvait prouver la vérité de la conclusion, l’inférence inductive serait justifiée ; mais la réciproque n’est pas vraie : une justification de l’inférence inductive n’implique pas une preuve de la vérité de la conclusion. La preuve de la vérité de la conclusion n’est qu’une condition suffisante pour la justification de l’induction, et non une condition nécessaire.

La déduction inductive est une procédure qui doit nous fournir la meilleure hypothèse concernant l’avenir. Si nous ne connaissons pas la vérité sur l’avenir, il peut néanmoins y avoir une meilleure hypothèse à son sujet, c’est-à-dire une meilleure hypothèse par rapport à ce que nous savons. Nous devons nous demander si une telle caractérisation peut être donnée pour le principe d’induction. Si cela s’avère possible, le principe d’induction sera justifié.

Un exemple montrera la structure logique de notre raisonnement. Un homme peut être atteint d’une maladie grave ; le médecin nous dit : « Je ne sais pas si une opération sauvera cet homme, mais s’il y a un remède, c’est une opération ». Dans ce cas, l’opération serait justifiée. Bien sûr, il serait préférable de savoir que l’opération sauvera l’homme ; mais, si nous ne le savons pas, la connaissance formulée dans la déclaration du médecin est une justification suffisante. Si nous ne pouvons pas réaliser les conditions suffisantes du succès, nous réaliserons au moins les conditions nécessaires. Si nous pouvions montrer que l’inférence inductive est une condition nécessaire de succès, elle serait justifiée ; une telle preuve satisferait toutes les demandes qui peuvent être soulevées au sujet de la justification de l’induction.

Il est évident qu’il y a une grande différence entre notre exemple et l’induction. Le raisonnement du médecin présuppose des inductions ; sa connaissance d’une opération comme seul moyen possible de sauver une vie est basée sur des généralisations inductives, comme le sont tous les autres énoncés de caractère empirique. Mais nous voulions seulement illustrer la structure logique de notre raisonnement. Si nous voulons considérer un tel raisonnement comme une justification du principe d’induction, le caractère de l’induction comme condition nécessaire du succès doit être démontré d’une manière qui ne présuppose pas l’induction. Une telle preuve peut cependant être donnée

Si nous voulons construire cette preuve, nous devons commencer par déterminer le but de l’induction. On dit généralement que l’on fait des inductions dans le but de prévoir l’avenir. Cette détermination est vague ; remplaçons-la par une formulation à caractère plus précis :

Le but de l’induction est de trouver des séries d’événements dont la fréquence d’apparition converge vers une limite.

Nous choisissons cette formulation parce que nous avons constaté que nous avons besoin de probabilités et qu’une probabilité doit être définie comme la limite d’une fréquence ; ainsi notre détermination du but de l’induction est donnée de telle sorte qu’elle nous permet d’appliquer les méthodes probabilistes. Si nous comparons cette détermination du but de l’induction avec les déterminations habituellement données, il s’avère qu’il ne s’agit pas d’un confinement à un but plus étroit, mais d’un élargissement. Ce que nous appelons habituellement « prévoir l’avenir » est inclus dans notre formulation comme un cas particulier ; le cas où l’on connaîtrait avec certitude pour chaque événement l’événement qui le suit correspondrait dans notre formulation à un cas où la limite de la fréquence est de la valeur numérique . Hume n’a pensé qu’à ce cas. Notre enquête diffère donc de celle de Hume dans la mesure où elle conçoit le but de l’induction sous une forme généralisée. Mais nous n’omettons aucune application possible si nous déterminons le principe de l’induction comme le moyen d’obtenir la limite d’une fréquence. Si nous avons des limites de fréquence, nous avons tout ce que nous voulons, y compris le cas considéré par Hume ; nous avons alors les lois de la nature sous leur forme la plus générale, y compris les lois statistiques et les lois dites causales — ces dernières n’étant rien d’autre qu’un cas particulier de lois statistiques, correspondant à la valeur numérique de la limite de la fréquence. Nous sommes donc en droit de considérer la détermination de la limite d’une fréquence comme le but de l’inférence inductive.

Or, il est évident que nous n’avons aucune garantie que ce but puisse être atteint. Le monde peut être tellement désordonné qu’il nous est impossible de construire des séries avec une limite. Introduisons le terme « prévisible » pour un monde qui est suffisamment ordonné pour nous permettre de construire des séries avec une limite. Nous devons donc admettre que nous ne savons pas si le monde est prévisible.

Mais si le monde est prévisible, demandons-nous quelle sera la fonction logique du principe d’induction. Pour cela, nous devons nous pencher sur la définition de la limite. La fréquence a une limite , si pour tout donné il existe un tel que est compris dans et reste dans cet intervalle pour tout le reste de la série. En comparant notre formulation du principe d’induction (§ 38) avec celle-ci, nous pouvons déduire de la définition de la limite que, s’il y a une limite, il y a un élément de la série à partir duquel le principe d’induction conduit à la vraie valeur de la limite. En ce sens, le principe d’induction est une condition nécessaire à la détermination d’une limite.

Il est vrai que si nous nous trouvons devant la valeur de la fréquence fournie par nos statistiques, nous ne savons pas si ce est suffisamment grand pour être identique à, ou au-delà du du « lieu de convergence » pour . Il se peut que notre ne soit pas encore assez grand, qu’après il y ait un écart plus grand que par rapport à . À cela nous pouvons répondre : Nous ne sommes pas obligés de rester à  ; nous pouvons continuer notre procédure et nous considérerons toujours le dernier obtenu comme notre meilleure valeur. Cette procédure doit conduire un jour ou l’autre à la vraie valeur , si tant est qu’il y ait une limite ; l’applicabilité de cette procédure, dans son ensemble, est une condition nécessaire de l’existence d’une limite en .

Pour comprendre cela, imaginons un principe contraire. Imaginons un homme qui, si est atteint, fait toujours l’hypothèse que la limite de la fréquence est à , où est une constante fixe. Si cet homme continue sa procédure d’augmentation de , il est sûr de manquer la limite ; cette procédure doit un jour ou l’autre devenir fausse, si tant est qu’il y ait une limite.

Nous avons maintenant trouvé une meilleure formulation de la condition nécessaire. Nous ne devons pas considérer l’hypothèse individuelle pour un individuel ; nous devons tenir compte de la procédure des hypothèses continues de type inductif. L’applicabilité de cette procédure est la condition nécessaire recherchée.

Mais si c’est seulement l’ensemble de la procédure qui constitue la condition nécessaire, comment appliquer cette idée au cas individuel qui se présente à nous ? Nous voulons savoir si l’individu que nous observons s’écarte de moins de de la limite de convergence, ce qui ne peut être ni garanti ni appelé une condition nécessaire de l’existence d’une limite. Qu’implique donc notre idée de condition nécessaire pour le cas individuel ? Il semble que pour notre cas particulier, l’idée s’avère sans application.

Cette difficulté correspond dans un certain sens à la difficulté que nous avons trouvée dans l’application de l’interprétation fréquentielle au cas unique. Elle doit être éliminée par l’introduction d’un concept déjà utilisé pour l’autre problème : le concept de posit.

Si nous observons une fréquence et la supposons être la valeur approximative de la limite, cette supposition n’est pas maintenue sous la forme d’un énoncé vrai ; c’est un postulat tel que nous le faisons dans un pari. Nous posons comme valeur de la limite, c’est-à-dire que nous parions sur , tout comme nous parions sur le côté d’un dé. Nous savons que est notre meilleure mise, c’est pourquoi nous la posons. Il existe toutefois une différence entre le type de pari effectué ici et celui effectué lors d’un lancer de dé.

Dans le cas du dé, nous connaissons le poids de l’affirmation : il est donné par le degré de probabilité. Si l’on pose le cas « côté autre que celui numéroté  », le poids de ce posit est de . On parle dans ce cas d’un posit à poids évalué, ou, en bref, d’un posit évalué.

Dans le cas de notre proposition , nous ne connaissons pas son poids. Nous l’appelons donc un postulat aveugle. Nous savons qu’il s’agit de notre meilleur postulat, mais nous ne savons pas à quel point il est bon. Il se peut que, bien qu’elle soit notre meilleure, elle soit plutôt mauvaise.

L’hypothèse aveugle peut toutefois être corrigée. En continuant notre série, nous obtenons de nouvelles valeurs  ; nous choisissons toujours la dernière . Ainsi le posit aveugle est de type approximatif ; nous savons que la méthode pour faire et corriger de tels posits doit à terme conduire au succès, dans le cas où il y a une limite de fréquence. C’est cette idée qui fournit la justification de l’hypothèse aveugle. La procédure décrite peut être appelée méthode d’anticipation ; en choisissant comme posit, nous anticipons le cas où est le « lieu de convergence ». Il se peut que par cette anticipation nous obtenions une fausse valeur ; nous savons cependant qu’une anticipation continue doit conduire à la vraie valeur, si tant est qu’il y ait une limite.

Une objection peut être soulevée ici. Il est vrai que le principe d’induction a la qualité de conduire à la limite, s’il y a une limite. Mais est-ce le seul principe qui possède une telle propriété ? Il pourrait y avoir d’autres méthodes qui nous indiqueraient également la valeur de la limite.

En effet, il pourrait y en avoir. Il pourrait y avoir des méthodes encore meilleures, c’est-à-dire des méthodes nous donnant la bonne valeur de la limite, ou du moins une valeur meilleure que la nôtre, à un moment de la série où est encore assez éloigné de . Imaginez un voyant capable de prédire la valeur de la limite à un stade aussi précoce de la série ; nous serions bien sûr très heureux d’avoir un tel homme à notre disposition. Nous pouvons cependant, sans rien savoir des prédictions du voyant, faire deux déclarations générales à leur sujet : (1) Les indications du voyant ne peuvent différer, si elles sont vraies, qu’au début de la série, de celles données par le principe inductif. À la fin, il doit y avoir une convergence asymptotique entre les indications du voyant et celles du principe inductif. Cela découle de la définition de la limite. (2) Le voyant peut être un imposteur ; ses prophéties peuvent être fausses et ne jamais conduire à la vraie valeur de la limite.

La deuxième affirmation contient la raison pour laquelle nous ne pouvons pas admettre la voyance sans contrôle. Comment obtenir ce contrôle ? Il est évident que le contrôle doit consister en une application du principe d’induction : nous demandons la prévision du voyant et la comparons avec des observations ultérieures ; s’il y a alors une bonne correspondance entre les prévisions et les observations, nous en déduirons, par induction, que les prophéties de l’homme seront également vraies dans l’avenir. C’est donc le principe d’induction qui doit décider si l’homme est un bon voyant. Cette position distinctive du principe d’induction est due au fait que nous connaissons sa fonction de conduire finalement à la vraie valeur de la limite, alors que nous ne savons rien du voyant.

Ces considérations nous amènent à apporter une correction à nos formulations. Il existe bien sûr de nombreuses conditions nécessaires à l’existence d’une limite ; celle que nous utiliserons cependant doit être telle que son caractère de nécessité doit nous être connu. C’est pourquoi nous devons préférer le principe inductif aux indications du voyant et contrôler le second par le premier : nous contrôlons la méthode inconnue par une méthode connue.

Nous devons donc poursuivre notre analyse en limitant la recherche d’autres méthodes à celles dont nous pouvons savoir qu’elles doivent conduire à la vraie valeur de la limite. Il est maintenant facile de voir que non seulement le principe inductif conduira au succès, mais aussi que toute méthode fera de même si elle détermine comme notre pari la valeur de

est un nombre qui est une fonction de , ou aussi de , mais lié à la condition

En raison de cette condition supplémentaire, la méthode doit conduire à la vraie valeur de la limite ; cette condition indique que toutes les méthodes de ce type, y compris le principe inductif, doivent converger asymptotiquement. Le principe inductif est le cas particulier où

pour toutes les valeurs de .

Il est maintenant évident qu’un système de paris du type le plus général peut présenter des avantages. La « correction » peut être déterminée de telle sorte que le pari résultant fournisse, même à un stade précoce de la série, une bonne approximation de la limite . Les prophéties d’un bon voyant seraient de ce type. D’autre part, il peut arriver que soit mal déterminé, c’est-à-dire que la convergence soit retardée par la correction. Si le terme est formulé arbitrairement, nous ne savons rien des deux possibilités. La valeur — c’est-à-dire le principe inductif — est donc la valeur du plus petit risque ; toute autre détermination peut aggraver la convergence. C’est une raison pratique pour préférer le principe inductif.

Ces considérations conduisent cependant à une formulation plus précise de la structure logique de l’inférence inductive. Nous devons dire que, s’il existe une méthode qui conduit à la limite de la fréquence, le principe inductif fera de même ; s’il existe une limite de la fréquence, le principe inductif est une condition suffisante pour la trouver. Si nous omettons maintenant la prémisse qu’il existe une limite de la fréquence fréquence, on ne peut pas dire que le principe inductif est la condition nécessaire pour la trouver parce qu’il existe d’autres méthodes utilisant une correction . Il existe un ensemble de conditions équivalentes telles que le choix d’un des membres de l’ensemble est nécessaire si l’on veut trouver la limite ; et, s’il y a une limite, chacun des membres de l’ensemble est une méthode appropriée pour la trouver. On peut donc dire que l’applicabilité du principe inductif est une condition nécessaire à l’existence d’une limite de fréquence. La décision en faveur du principe inductif parmi les membres de l’ensemble des moyens équivalents peut être justifiée en soulignant sa qualité d’incarner le plus petit risque ; après tout, cette décision n’est pas d’une grande pertinence, puisque toutes ces méthodes doivent conduire à la même valeur de la limite si elles sont suffisamment poursuivies. Il ne faut cependant pas oublier que la méthode de voyance n’est pas, pour autant, membre de l’ensemble car nous ne savons pas si la correction intervenant ici est soumise à la condition de convergence vers zéro. Il faut d’abord le prouver, et on ne peut le faire qu’en utilisant le principe inductif, c’est-à-dire une méthode connue pour être membre de l’ensemble : c’est pourquoi la voyance, malgré toutes ses prétentions occultes, doit être soumise au contrôle des méthodes scientifiques, c’est-à-dire au principe d’induction.

C’est dans l’analyse exposée que nous voyons la solution du problème de Hume.[20] Hume en demandait trop lorsqu’il voulait pour justification de l’inférence inductive une preuve que sa conclusion est vraie. Ce que ses objections démontrent, c’est seulement qu’une telle preuve ne peut être donnée. Nous n’effectuons cependant pas une inférence inductive avec la prétention d’obtenir un énoncé vrai. Ce que nous obtenons, c’est un pari ; et c’est le meilleur pari que l’on puisse faire car il correspond à une procédure dont l’applicabilité est la condition nécessaire de la possibilité des prédictions. Il n’est pas en notre pouvoir de remplir les conditions suffisantes pour obtenir des prédictions vraies ; réjouissons-nous de pouvoir remplir au moins les conditions nécessaires à la réalisation de ce but intrinsèque de la science.

§ 40 Deux objections contre notre justification de l’induction

Notre analyse du problème de l’induction repose sur notre définition du but de l’induction comme l’évaluation d’une limite de la fréquence. Certaines objections peuvent être soulevées quant à cet énoncé du but de l’induction.

La première objection repose sur l’idée que notre formulation est trop exigeante, que le postulat de l’existence de la limite de la fréquence est un postulat trop fort. Il est avancé que le monde peut être prévisible même s’il n’y a pas de limites de fréquence, que notre définition de la prévisibilité restreindrait trop étroitement ce concept, excluant d’autres types de structures qui pourraient peut-être être accessibles aux prédictions sans impliquer des séries d’événements avec des limites de fréquence. Appliquée à notre théorie de l’induction, cette objection ébranlerait la cohérence de notre justification ; en s’en tenant strictement au principe d’induction, l’homme de science pourrait exclure d’autres possibilités de prévoir l’avenir qui pourraient fonctionner même si l’inférence inductive devait échouer.[21]

À cela nous devons répondre que notre postulat n’exige pas l’existence d’une limite de fréquence pour toutes les séries d’événements. Il suffit qu’il y ait un certain nombre de séries de ce type ; à l’aide de celles-ci, nous devrions alors pouvoir de déterminer l’autre série. On peut imaginer des séries qui oscillent entre deux valeurs numériques de la fréquence ; on peut montrer que la description de séries de ce type est réductible à l’indication de sous-séries déterminables ayant une limite de la fréquence. Introduisons le terme de série réductible pour les séries qui sont réductibles à d’autres séries ayant une limite de fréquence ; notre définition de la prévisibilité énonce alors seulement que le monde est constitué de séries réductibles. La procédure inductive, la méthode d’anticipation et de correction ultérieure, conduira automatiquement à distinguer les séries ayant une limite des autres séries et à décrire ces autres au moyen de la série ayant une limite. Nous ne pouvons entrer ici dans les détails mathématiques de ce problème ; pour un développement de celui-ci nous devons nous référer à une autre publication.[22]

Pour échapper à notre défense, l’objection pourrait être poursuivie par la construction d’un monde dans lequel il n’y a pas de série ayant une limite. Dans un tel monde, pourrait argumenter notre adversaire, il pourrait y avoir un clairvoyant qui connaîtrait chaque événement d’une série individuellement, qui pourrait prédire avec précision ce qui se passera d’un événement à l’autre — n’est-ce pas « prévoir l’avenir » sans avoir une limite de fréquence à sa disposition ?

Nous ne pouvons l’admettre. Appelons le cas où la prédiction du voyant correspond à l’événement observé ultérieurement, (non-) le cas contraire. Or si le voyant devait avoir la faculté supposée, la série d’événements du type et définirait une série avec une limite de fréquence. Si l’homme était un prophète parfait, cette limite serait le nombre  ; cependant on peut admettre des prophètes moins parfaits avec une limite inférieure. Quoi qu’il en soit, nous avons construit ici une série avec une limite. Nous devons avoir une telle série si nous voulons contrôler le prophète ; notre contrôle ne consisterait en rien d’autre que l’application du principe d’induction à la série d’événements et , c’est-à-dire en une déduction inductive quant à la fiabilité du prophète, sur la base de ses succès. Ce n’est que si la réduction à une telle série avec une limite est possible que nous pouvons savoir si l’homme est un bon prophète ou non, car seule cette réduction nous donne les moyens de contrôle.

On voit par cette considération que le cas imaginé n’est pas plus général mais moins général que notre monde de séries réductibles. Une prévision nous donnant une véritable détermination de chaque événement est un cas beaucoup plus particulier que l’indication de la limite de la fréquence et est donc incluse dans notre procédure inductive. Nous voyons en même temps que notre postulat de l’existence de limites de fréquences n’est pas une restriction du concept de prédictibilité. Toute méthode de prédiction définit par elle-même une série avec une limite de fréquence ; donc, si la prédiction est possible, il y a des séries avec des limites de fréquences.

On est donc en droit d’appeler l’applicabilité de la procédure inductive une condition nécessaire de la prédictibilité. Nous voyons en même temps pourquoi une telle relation existe : c’est une conséquence logique de la définition de la prédictibilité. C’est pourquoi nous ne pouvons démontrer la position unique du principe inductif qu’au moyen de relations tautologiques. Bien que l’inférence inductive ne soit pas une tautologie, la preuve qu’elle conduit à la meilleure proposition ne repose que sur des tautologies. La conception formelle de la logique a été placée, par le problème de l’induction, devant le paradoxe qu’une inférence qui conduit à quelque chose de nouveau doit être justifiée dans une conception de la logique qui ne permet que des transformations vides, c’est-à-dire tautologiques : ce paradoxe est résolu par la reconnaissance que le « quelque chose de nouveau » fourni par l’inférence n’est pas maintenu comme un énoncé vrai mais comme notre meilleur postulat, et que la démonstration n’est pas orientée vers la vérité de la conclusion, mais vers la relation logique de la procédure avec le but de la connaissance.

On pourrait soulever, instinctivement, une objection contre notre théorie de l’induction : qu’il y apparaisse quelque chose comme « une condition nécessaire de la connaissance » — un concept qui est accompagné, depuis la théorie de la connaissance de Kant, d’une saveur plutôt désagréable. Dans notre théorie, cependant, cette qualité du principe inductif ne découle pas d’une quelconque qualité a priori de la raison humaine, mais trouve son origine dans d’autres sources. Celui qui veut quelque chose doit dire ce qu’il veut ; celui qui veut prédire doit dire ce qu’il entend par prédire. Si nous essayons de trouver une définition de ce terme qui corresponde, au moins dans une certaine mesure, à la pratique habituelle du langage, la définition — indépendamment de toute autre détermination — s’avérera impliquer le postulat de l’existence de certaines séries ayant une limite de fréquence. C’est de cette composante de la définition que l’on déduit que le principe d’induction est une condition nécessaire de la prévisibilité. L’application du principe d’induction ne signifie donc pas une restriction ou une renonciation à la prévisibilité sous une autre forme — elle ne signifie rien d’autre que l’interprétation mathématique de ce que nous entendons par prévisibilité, à proprement parler.

Passons maintenant à une deuxième objection. La première objection prétendait que notre définition de la prévisibilité était trop exigeante ; la seconde objection, au contraire, soutient que cette définition est trop peu exigeante, que ce que nous appelons prévisibilité n’est pas une condition suffisante pour les prédictions réelles. Cette objection provient du fait que notre définition admet des séries infinies d’événements ; à cette conception s’oppose le point de vue selon lequel une série réellement observable est toujours finie, d’une longueur même assez restreinte, déterminée par la courte durée des vies humaines.

Nous ne nierons pas ce dernier fait. Nous devons admettre qu’il peut exister une série d’événements ayant une limite dont la convergence commence si tard que la petite partie de la série observée par les êtres humains ne révèle aucun indice de la convergence ultérieure. Une telle série aurait pour nous le caractère d’une série non convergente. En appliquant le principe d’induction, nous ne devrions jamais réussir nos déductions ; après un court laps de temps, nos postulats s’avéreraient toujours faux. Bien que, dans un tel cas, la condition de prévisibilité soit remplie, la procédure inductive ne serait pas un moyen pratiquement suffisant pour la découvrir.

Nous ne nierons pas non plus cette conséquence. Nous n’admettons cependant pas que le cas considéré soulève une quelconque objection à notre théorie. Nous ne sommes pas partis pour notre justification de l’induction d’un présupposé qu’il existe des séries ayant une limite ; malgré cela, nous avons réussi à donner la justification recherchée. Ceci a été rendu possible par l’utilisation du concept de condition nécessaire ; nous avons dit que, si nous ne sommes pas sûrs de la possibilité du succès, nous devons au moins réaliser ses conditions nécessaires. Le cas d’une convergence trop tardive revient au même que le cas d’une non-convergence, en ce qui concerne les capacités humaines. Cependant, si nous parvenons à justifier la procédure inductive même si ce pire des cas ne peut être exclu a priori, notre justification aura également pris en compte l’autre cas, celui d’une convergence trop tardive.

Introduisons le terme de limite pratique pour une série montrant une convergence suffisante dans un domaine accessible aux observations humaines ; ajoutons que nous pouvons couvrir par ce terme le cas d’une série qui, sans converger à l’infini, montre une convergence approximative dans un segment de la série, accessible en pratique et suffisamment long (une série dite « semi-convergente » ). Nous pouvons donc dire que notre théorie ne concerne pas une limite mathématique, mais une limite pratique. La prévisibilité doit être définie à l’aide de la limite pratique, et la procédure inductive n’est une condition suffisante de succès que si la série en question a une limite pratique. Avec ces concepts, cependant, nous pouvons tout aussi bien mener à bien notre argumentation. L’applicabilité de la procédure inductive peut être démontrée, même dans le domaine de ces concepts, comme étant la condition nécessaire de la prévisibilité.

C’est sur le concept de condition nécessaire que repose notre raisonnement. Il est vrai que si la série en question n’avait pas de limite pratique — y compris le cas d’une convergence trop tardive — cela impliquerait l’inefficacité de la procédure inductive. L’éventualité de ce cas ne doit cependant pas nous empêcher de parier au moins sur le succès. Ce n’est que si nous savions que le cas défavorable est réel que nous devrions renoncer aux tentatives de prédiction. Mais ce n’est évidemment pas notre cas. Nous ne savons pas si nous allons réussir, mais nous ne savons pas non plus le contraire. Hume pensait qu’une justification de l’induction ne pouvait être donnée parce que nous ne savions pas si nous allions réussir ; la formulation correcte, au contraire, serait qu’une justification de l’induction ne pouvait être donnée si nous savions que nous n’allions pas réussir. Nous ne sommes pas dans cette dernière situation, mais dans la première ; la question du succès est pour nous indéterminée, et nous pouvons donc au moins oser un pari. Le pari, cependant, ne doit pas être fixé arbitrairement mais choisi le plus favorablement possible ; nous devons au moins actualiser les conditions nécessaires au succès, si les conditions suffisantes ne sont pas à notre portée. L’applicabilité de la procédure inductive étant une condition nécessaire de la prévisibilité, cette procédure déterminera notre meilleur pari.

Nous pouvons comparer notre situation à celle d’un homme qui veut pêcher dans une partie inexplorée de la mer. Personne ne peut lui dire s’il y a ou non du poisson à cet endroit. Doit-il jeter son filet ? Eh bien, s’il veut pêcher à cet endroit, je lui conseille de jeter son filet, de tenter sa chance au moins. Il est préférable d’essayer même dans l’incertitude que de ne pas essayer et d’être certain de ne rien obtenir.

§ 41 — Inductions concaténées

Les considérations sur la possibilité d’une convergence trop lente de la série ne sauraient ébranler notre justification de la procédure inductive, comme signifiant au moins une tentative de trouver une série pratiquement convergente ; elles soulignent cependant l’utilité de méthodes qui conduiraient à une approximation plus rapide, c’est-à-dire qui indiqueraient la vraie valeur de la limite en un point de la série où la fréquence relative est encore assez éloignée de la valeur limite. On peut vouloir encore plus ; on peut vouloir des méthodes qui nous donnent la valeur numérique de la limite avant que l’actualisation physique de la série n’ait commencé — un problème qui peut être considéré comme un cas extrême du premier problème. L’élaboration de telles méthodes est en effet une question de la plus haute importance ; nous nous demanderons maintenant si elles existent ou non, et comment on peut les trouver.

Nous avons déjà rencontré un exemple qui peut être considéré comme la transition vers une méthode d’approximation plus rapide. Nous avons évoqué la possibilité d’un voyant et dit que ses capacités pourraient être contrôlées par le principe inductif ; nous avons dit que, si le contrôle confirmait les prédictions, le voyant devait être considéré comme un prophète fiable, et ses indications comme supérieures à celles du principe inductif. Cette idée montre une caractéristique importante des méthodes inductives. On peut parfois déduire du principe inductif qu’il est préférable d’appliquer une autre méthode de prédiction ; le principe inductif peut conduire à son propre dépassement. Ce n’est pas une contradiction ; au contraire, il n’y a aucune difficulté logique dans une telle procédure ; c’est même l’une des méthodes les plus utiles de l’enquête scientifique.

Si nous voulons étudier des déductions de ce type, nous n’avons pas besoin de faire appel à des voyants ou à des oracles de type mystique : la science elle-même a développé ces méthodes dans une large mesure. La méthode de recherche scientifique peut être considérée comme une concaténation de déductions inductives, dans le but de remplacer le principe inductif dans tous les cas où il conduirait à un résultat erroné, ou dans lesquels il nous mènerait trop tard au bon résultat. C’est à cette procédure d’inductions concaténées que l’on doit l’immense succès de la méthode scientifique. La complication de la procédure est devenue la raison pour laquelle elle a été mal interprétée par de nombreux philosophes ; la contradiction apparente à une application directe du principe inductif, dans des cas individuels, a été considérée comme une preuve de l’existence de méthodes non inductives qui devaient être supérieures à la méthode « primitive » de l’induction. Ainsi, le principe de la connexion causale a été conçu comme une méthode non inductive qui devait nous fournir une « connexion interne » des phénomènes au lieu de la « simple succession » fournie par l’induction. De telles interprétations révèlent une profonde incompréhension des méthodes scientifiques. Il n’y a pas de différence entre les lois causales et les lois inductives ; les premières ne sont rien d’autre qu’un cas particulier des secondes. C’est le cas d’une limite égale à , ou du moins approximativement égale à  ; si nous connaissons, dans un tel cas, la valeur de la limite, avant même que la série n’ait commencé, nous avons le cas de la prédiction individuelle d’événements futurs se produisant dans des conditions inédites, telle qu’elle est exigée dans le cadre de la conception causale de la connaissance. Ce cas est donc inclus dans notre théorie des inductions concaténées.

Le lien entre toutes les chaînes d’inférences conduisant à des prédictions est toujours l’inférence inductive. C’est parce que parmi toutes les déductions scientifiques, il n’y en a qu’une seule d’une portée considérable : c’est la déduction inductive. Toutes les autres déductions sont vides, tautologiques ; elles n’ajoutent rien de nouveau aux expériences dont elles partent. L’inférence inductive le fait ; c’est pourquoi elle est la forme élémentaire de la méthode de découverte scientifique. Cependant, c’est la seule forme ; il n’y a pas de cas de connexions de phénomènes supposés par la science qui ne s’intègrent pas dans le schéma inductif. Il suffit de construire ce schéma sous une forme suffisamment générale pour qu’il englobe toutes les méthodes scientifiques. Pour ce faire, nous devons nous tourner vers l’analyse des inductions concaténées.

Nous commençons par un cas assez simple qui montre déjà la structure logique par laquelle la déduction inductive peut être supplantée dans un cas individuel. Les chimistes ont découvert que presque toutes les substances fondent si elles sont suffisamment chauffées ; seul le carbone n’a pas été liquéfié. Les chimistes ne croient cependant pas que le carbone soit infusible ; ils sont convaincus qu’à une température plus élevée, le carbone fondra également et que ce n’est qu’en raison de l’imperfection de nos moyens techniques qu’une température suffisamment élevée n’a pas encore été atteinte. Pour interpréter la structure logique des déductions liées à ces expériences, désignons par l’état fondu de la substance, par l’état contraire, et rangeons les états dans une série de températures croissantes ; nous avons alors le schéma suivant

Cuivre :
Fer :

. . . . . . . .


. . . . . . . .

Carbone :
Page:Reichenbach - Experience and Prediction.djvu/380 Page:Reichenbach - Experience and Prediction.djvu/381 Page:Reichenbach - Experience and Prediction.djvu/382 Page:Reichenbach - Experience and Prediction.djvu/383 Page:Reichenbach - Experience and Prediction.djvu/384 Page:Reichenbach - Experience and Prediction.djvu/385 Page:Reichenbach - Experience and Prediction.djvu/386 Page:Reichenbach - Experience and Prediction.djvu/387 Page:Reichenbach - Experience and Prediction.djvu/388 Page:Reichenbach - Experience and Prediction.djvu/389 Page:Reichenbach - Experience and Prediction.djvu/390 Page:Reichenbach - Experience and Prediction.djvu/391 Page:Reichenbach - Experience and Prediction.djvu/392 Page:Reichenbach - Experience and Prediction.djvu/393 Page:Reichenbach - Experience and Prediction.djvu/394 Page:Reichenbach - Experience and Prediction.djvu/395 Page:Reichenbach - Experience and Prediction.djvu/396 Page:Reichenbach - Experience and Prediction.djvu/397 Page:Reichenbach - Experience and Prediction.djvu/398 Page:Reichenbach - Experience and Prediction.djvu/399 Page:Reichenbach - Experience and Prediction.djvu/400 Page:Reichenbach - Experience and Prediction.djvu/401 Page:Reichenbach - Experience and Prediction.djvu/402 Page:Reichenbach - Experience and Prediction.djvu/403 Page:Reichenbach - Experience and Prediction.djvu/404 Page:Reichenbach - Experience and Prediction.djvu/405 Page:Reichenbach - Experience and Prediction.djvu/406 Page:Reichenbach - Experience and Prediction.djvu/407 Page:Reichenbach - Experience and Prediction.djvu/408 Page:Reichenbach - Experience and Prediction.djvu/409 Page:Reichenbach - Experience and Prediction.djvu/410 Page:Reichenbach - Experience and Prediction.djvu/411 Page:Reichenbach - Experience and Prediction.djvu/412 Page:Reichenbach - Experience and Prediction.djvu/413 Page:Reichenbach - Experience and Prediction.djvu/414 Page:Reichenbach - Experience and Prediction.djvu/415 Page:Reichenbach - Experience and Prediction.djvu/416 Page:Reichenbach - Experience and Prediction.djvu/417 Page:Reichenbach - Experience and Prediction.djvu/418
  1. J. M. Keynes, A Treatise on Probability (Londres, 1921).
  2. K. Popper, Logik der Forschung (Berlin, 1935).
  3. Cet isomorphisme découle strictement de la construction axiomatique du calcul des probabilités qui montre que toutes les lois de probabilités peuvent être déduites de l’interprétation fréquentielle (cf. § 37).
  4. Cf. le rapport sur ce problème dans l’ouvrage de l’auteur Wahrscheinlichkeitslehre (Leiden, 1935), § 65. Pour tous les autres détails mathématiques omis dans les recherches qui suivent, on peut également se référer à ce livre.
  5. Cf. ibid., § 54.
  6. Le verbe « to posit » a déjà été utilisé occasionnellement ; je me risquerai à l’utiliser également comme substantif par analogie avec l’emploi correspondant du mot « dépôt ».
  7. L’apparition du produit arithmétique est ici due à l’interprétation de la fréquence. Si le pari est fréquemment répété, le produit mentionné détermine le montant total de l’argent qui revient au joueur.
  8. Le mot allemand Setzung utilisé dans la Wahrscheinlichkeitslehre de l’auteur a ces deux significations.
  9. Cette remarque mérite d’être nuancée. Le pari qui a le plus de poids n’est pas toujours le meilleur ; si les valeurs, ou les gains, coordonnés à des événements de probabilités différentes sont différents dans un rapport qui dépasse le rapport inverse des probabilités, le meilleur pari est celui sur l’événement le moins probable (cf. notre remarque à la fin du § 33). Des réflexions de ce type peuvent déterminer nos actions. Si nous appelons le pari ayant le poids le plus élevé notre meilleur pari, nous voulons dire « notre meilleur pari en ce qui concerne les prédictions ». Nous ne voulons pas prendre en compte dans de tels énoncés la valeur ou la pertinence des faits concernés. L’utilisation du mot « posit » permet d’éviter cette ambiguïté, puisque l’expression « meilleur posit » doit toujours signifier ce sens plus étroit.
  10. Imaginons une classe au sein de laquelle un événement du type est attendu avec une probabilité de  ; si nous parions, alors, toujours sur , nous obtenons de succès. Imaginons maintenant que la classe se divise en deux classes, et  ; dans , a une probabilité de , dans , a une probabilité de . Nous allons maintenant faire des mises différentes selon que l’événement du type appartient à , ou à  ; dans le premier cas, nous misons toujours sur non-, dans le second, sur . Nous aurons alors 75 pour cent de succès (cf. Wahrscheinlichkeitslehre de l’auteur, § 75).
  11. On a objecté à notre théorie que la probabilité dépend non seulement de la classe, mais aussi de l’ordre dans lequel les éléments de la classe sont disposés. Ce dernier point est vrai, mais il n’affaiblit pas notre théorie. Tout d’abord, c’est une caractéristique importante de nombreux phénomènes statistiques que la structure de fréquence est indépendante, dans une large mesure, des changements dans l’ordre. Deuxièmement, si l’ordre est pertinent pour la détermination du poids, il doit être inclus dans la prescription ; c’est le cas pour les maladies contagieuses (où la probabilité de survenue d’une maladie dépend de la maladie ou de l’absence de maladie des personnes dans l’environnement), ou pour les maladies ayant une tendance à se répéter (où la probabilité change si la maladie s’est déjà produite), etc. La théorie mathématique des probabilités a développé des méthodes pour ces cas. Elles n’impliquent aucune difficulté pratique quant à la définition du poids.
  12. Pour un exposé détaillé, voir l’article de l’auteur, « Wahrscheinlichkeitslogik », Berichte der Berliner Akademie der Wissenschaften (math.-phys. KI., 1932) ; et le livre de l’auteur, Wahrscheinlichkeitslehre. En ce qui concerne les autres publications de l’auteur, voir chap. i, n. 14. Pour un résumé de toutes les contributions au problème, cf. Z. Zawirski, « Über das Verhältnis der mehrwertigen Logik zur Wahrscheinlichkeitslogik », Studia philosophica, I (Varsovie, 1935), 407.
  13. Cf. la Wahrscheinlichkeitslehre de l'auteur, § 73. Au lieu de faire dépendre la « valeur de vérité » d’une combinaison de celle d’une autre combinaison, on peut introduire comme troisième paramètre indépendant la « probabilité de par rapport à  » que l’on écrit . C’est la voie suivie dans Wahrscheinlichkeitslehre. Les deux méthodes reviennent au même.
  14. Notons que nos formules générales ne sont pas limitées au cas d’événements indépendants mais s’appliquent à tous les événements quels qu’ils soient.
  15. On peut montrer que pour le cas particulier des valeurs de vérité restreintes à et , la valeur de vérité du produit logique n’est plus arbitraire mais déterminée par d’autres règles de la logique des probabilités (cf. Wahrscheinlichkeitslehre, § 73).
  16. Cf. la Wahrscheinlichkeitslehre de l’auteur, §§ 72 et 74.
  17. Il convient de noter ici que nous utilisons le terme « formaliste » dans un sens un peu plus large que le sens utilisé dans la discussion sur la logique moderne, où les formalistes sont représentés par le groupe plus étroit centré autour de Hilbert. Les différences entre ces groupes ne sont cependant pas essentielles pour notre étude.
  18. Cette réduction du calcul des probabilités à un axiome concernant l’existence d’une limite de la fréquence a été réalisée dans l’article de l’auteur, « Axiomatik der Wahrscheinlichkeitsrechnung », Mathematische Zeitschrift, XXXIV (1932), 568. Un exposé plus détaillé a été donné dans la Wahrscheinlichkeitslehre de l’auteur.
  19. Ce fait n’a pas été suffisamment remarqué par certains positivistes modernes qui ont essayé de défendre contre moi la conception de la disparité (cf. ma réponse à Popper et Carnap dans Erkenntnis, V [1935], 267).
  20. Cette théorie de l’induction a été publiée pour la première fois par l’auteur dans Erkenntnis, III (1933), 421-25. Un exposé plus détaillé a été donné dans la Wahrscheinlichkeitslehre de l’auteur, § 80.
  21. Cette objection a été soulevée par P. Hertz, Erkenntnis, VI (1936), 25 ; cf. aussi ma réponse, Ibid. p. 32.
  22. Cf. ibid. p. 36.