En poursuivant votre navigation sur ce site, vous acceptez l'utilisation de cookies pour la bonne gestion de votre compte et de vos abonnements.

Présentation des résultats des prothèses de hanche

Paru dans le numéro N°171 - Février 2008
Article consulté 2617 fois

Présentation des résultats des prothèses de hanche

Par J.A. Epinette, SFHG dans la catégorie MISE AU POINT
Centre de Recherche et Documentation des Arthroplasties - 62700 Bruay Labuissière - France

Il ne viendrait jamais à l’esprit de quiconque de comparer la production de carottes dans une petite ferme du nord de la France, avec les taux de croissance des lapins dans un élevage industriel en Ardèche, afin de définir le bien fondé des quotas de pêche au maquereau de l’Atlantique nord. C’est (presque) pourtant ce que nous trouvons régulièrement lors de la lecture des différents résultats prothétiques, publiés dans la littérature dite scientifique, à partir de séries différentes, regroupant des éléments variables, analysés selon des critères parfois divergents, et servant de surcroît de références pour les fameuses méta analyses, si chères à nos conférenciers…

Introduction

Il ne viendrait jamais à l’esprit de quiconque de comparer la production de carottes dans une petite ferme du nord de la France, avec les taux de croissance des lapins dans un élevage industriel en Ardèche, afin de définir le bien fondé des quotas de pêche au maquereau de l’Atlantique nord. C’est (presque) pourtant ce que nous trouvons régulièrement lors de la lecture des différents résultats prothétiques, publiés dans la littérature dite scientifique, à partir de séries différentes, regroupant des éléments variables, analysés selon des critères parfois divergents, et servant de surcroît de références pour les fameuses méta analyses, si chères à nos conférenciers…

En termes de production économique ou industrielle, les rapports d’analyses doivent être exprimés et diffusés selon des normes précises. Ne pourrait-on pas imaginer une norme de présentation des résultats de nos séries prothétiques? Ces résultats restent en effet trop souvent entachés de trois niveaux de subjectivité: (1) la réponse parfois inconsciemment biaisée de nos patients, (2) l’interprétation parfois (inconsciemment?) biaisée de l’évaluateur lors de la “manipulation” des chiffres et résultats, et enfin (3) la présentation des données selon un protocole éminemment variable selon les auteurs. La discussion des différents paramètres à fournir pour toute étude, et des modalités de leur présentation  aboutissant à un consensus faisant autorité, permettrait sûrement de limiter au moins ces deux derniers niveaux de subjectivité.

Il nous est apparu utile dans le cadre des travaux de la Société Française de la Hanche et du Genou (SFHG), de dresser un “état des lieux” des dispositions actuelles de présentation de nos résultats des prothèses articulaires,  et de pointer chemin faisant de très nombreuses zones relativement floues, ou des protocoles jamais vraiment validés. Cette démarche est d’autant plus licite que cette problématique de présentation des résultats devient un enjeu majeur, dès lors qu’elle interfère de manière directe avec l’évaluation des prothèses articulaires.

Ah ! Evaluation… Quel maître mot par les temps qui courent… Chacun se trouve en effet au final impliqué dans cette évaluation, le Chirurgien, le Politique, l’Administrateur, le Laboratoire Pharmaceutique et naturellement le Patient. (1) Le Chirurgien, au premier chef, a l’obligation morale sinon médico-légale de constamment s’auto-évaluer pour le bien fondé de ses choix et actions thérapeutiques. (2) Le Politique (et les services qui en dépendent) est celui qui rembourse les implants, et sur le thème bien connu du Payeur qui n’est pas le Prescripteur, réclame avec une insistance de plus en plus pressante de vérifier que ce qu’il rembourse est justifié. (3) L’Administrateur de l’Hôpital ou de la Clinique se trouve désormais en première ligne du choix des implants dans le cadre du remboursement global des GHS et autres « enveloppes », et doit avancer des arguments solides pour emporter sinon la conviction, du moins l’acceptation de ses choix par ses  chirurgiens implanteurs. (4) Le Laboratoire Pharmaceutique, lequel, comme chacun sait, propose le meilleur implant du marché, mais doit néanmoins de plus en plus fréquemment à l’appui des ses brochures monter au créneau avec les résultats de ses prothèses, volontiers mis en exergue dans telle ou telle publication. (5) Last but not least, le Patient est de plus en plus au fait de ce qu’il peut attendre de sa prothèse et se tient au courant via ses amis ou relations, via Internet, ou le cas échéant via des associations très efficaces, notamment dans le cas (malheureux) ou un sixième protagoniste entre en scène, l’Homme de Justice…

Les investigations rapportées dans le présent document à propos des prothèses de hanche en chirurgie primaire pour le compte de la SFHG, n’ont pour but que d’offrir un ensemble de réflexions sur la manière d’appréhender le problème d’une présentation “normalisée” de nos résultats, sous la forme d’un “état des lieux” de ce que nous avons à disposition, et de ce qui pourrait être décidé pour validation par telle ou telle autorité scientifique à l’échelon national ou international. Toutes les feuilles de scores prises en compte dans cet article sont disponibles de façon détaillée sur le site de la SFHG www.sfhg.fr …

 

1 - La série présentée : Méthodologie de l’étude

En pratique, le problème débute à la “casuistique”. L’auteur doit clairement exprimer (ce qui est loin d’être toujours le cas) le nombre de cas opérés, la période retenue pour la série étudiée, et tout un ensemble d’items indispensables au titre de cette présentation de la série :

• Préciser s’il s’agit d’une série continue ou non, avec des cas exclus ou non, et si l’analyse est prospective ou rétrospective.

• Sans oublier naturellement la description (sommaire!) des implants étudiés, non pour une présentation de type commercial, mais pour mettre en exergue les éléments descriptifs de la prothèse qui peuvent interférer ou expliquer les résultats obtenus (particularités éventuelles de dessin ou d’implantation, ou encore protocole spécifique post-opératoire)…

• Il faut conclure cette présentation de l’étude par le nombre de cas opérés chez n patients, car toutes les revues anglo-saxonnes ont la (parfois curieuse) habitude de parler en patients et non en prothèses... autant donc d’emblée indiquer les deux.

• Il faut indiquer la date effective de première implantation de la prothèse en cours, en évitant de biaiser en indiquant que “le concept machin de la prothèse bidule (ou le cahier des charges) date de x années”, en évitant de préciser que la première implantation n’a eu lieu que plusieurs années plus tard, ce que l’on pourrait en vérité appeler un effet d’annonce foireux…

• Ceci permet de conclure la “casuistique” par les délais minimum et maximum de revue clinique, en évitant soigneusement le terme de “révision” en parlant de la « revue » des patients!… Ce délai moyen ne doit pas être pour tous les cas une simple règle de trois entre date d’intervention et date de rédaction du manuscrit, mais bien le calcul réel des délais pour chaque prothèse entre sa dernière “revue” et sa mise en place…

Après la casuistique vient classiquement le chapitre des «méthodes d’études». Cette méthodologie regroupe en premier lieu l’énoncé plus ou moins détaillé des protocoles utilisés pour l’étude publiée, puis les modes d’évaluations clinique et radiologique, de même que les classifications prises en compte, que nous allons passer en revue pour l’arthroplastie de hanche. En matière de protocole d’étude, nos collègues anglo-saxons nous ont habitués en fait à beaucoup de rigueur dans la section “material and method”, parce que les moyens utilisés pour l’étude sont importants à définir. Si l’on parle d’usure du polyéthylène, il faut savoir quelle est la méthode de mesure employée. Si l’on présente des résultats de révision prothétique, il est inconvenant de ne pas préciser la classification des lésions selon des normes en vigueur. Si l’on décrit des résultats d’ostéolyse rétro-acétabulaire, on doit connaître la référence utilisée du mode de description des différents stades. Au passage, chaque référence listée en fin d’article “par ordre d’entrée en scène”, doit correspondre à un passage précis du texte, signalé par le numéro de référence.

Passons rapidement sur les protocoles de revue clinique des patients de la série (revues chaque année, ou tous les 2 ou 5 ans, etc…), avec le protocole radiographique utilisé, et si c’est le cas, l’accord du comité d’éthique de l’établissement, (c’est très tendance de nos jours…), passage obligé de toute présentation, tout comme autrefois certains “tiroirs” de nos fameuses “questions d’Internat”. En cas de comité d’éthique aux abonnés absents, le Comité Médical d’Etablissement (CME) est tout à fait compétent, et généralement bienveillant. Si un ou plusieurs logiciels informatiques sont utilisés, il est indispensable de citer la provenance de l’outil informatique et statistique. Par contre, concernant les différents modes d’évaluations clinique et radiologique, il serait sans doute capital d’obtenir un consensus pour que les auteurs français présentent leur série selon des classifications similaires, tant pour la hanche que pour le genou. De manière générale, il vaut certainement mieux utiliser la classification originale et officiellement publiée, pour éviter les multitudes de classifications modifiées plus ou moins “apocryphes”… Les paragraphes qui vont suivre ne sont qu’une interprétation complémentaire de l’utilisation que l’on pourrait préconiser à propos de ces scores et méthodes d’évaluation.

Ces résultats cliniques exprimés à 10 ans de recul pour 100 prothèses implantées ne pourront bien naturellement jamais intéresser les 100 cas, comme on voudrait parfois le faire croire dans certains papiers. Dans la mesure où la moyenne d’âge de nos opérés de prothèses articulaires est généralement aux alentours de 70 ans, il est capital de bien définir le «statut» des opérés. C’est ainsi que l’on pourrait pour une série « type » prise en exemple, définir la «cascade» suivante : (a) pour les 100 prothèses implantées 10 ans plus tôt, il y aura en moyenne 25 décédés, et donc (b) 75 prothèses appartenant à des patients encore en vie, dont (c) 65 non perdus de vue au moment de l’étude ou du délai minimum retenu. Pour ces 65 prothèses, (d)  seulement 45 pourraient être revus cliniquement, les autres, bien que non « perdus de vue » au sens strict du terme, ne peuvent pas ou ne veulent pas se déplacer. On sait que la prothèse est en place, mais aucune évaluation autre qu’un questionnaire n’est possible. Ces 45 hanches ou genoux appartiennent à des patients qui ont donc 80 ans de moyenne d’âge au moment de la revue clinique, et en étant optimiste, compte tenu des problèmes de lombo-discarthrose, handicaps cardiaque ou respiratoire, problèmes neurologiques ou autres, en étant optimiste, seulement (e) 25 d’entre eux pourront bénéficier d’une évaluation scorée complète et cohérente, type PMA, HHS ou autre. Pour ces 25 scores cliniques, une dizaine de dossiers radiologiques seront insuffisants, de mauvaise qualité ou ininterprétables, ou simplement non réalisés pour des questions de remboursement, avec donc au final (f) environ 20 bilans radiologiques utilisables. Il faut donc être très clair sur les nombres de cas et pourcentages s’y référant, et clairement afficher la « couleur » selon un tableau tel que le tableau ci-dessous.  A noter que l’on voit ainsi qu’à long terme, les scores cliniques ou radiologiques ne pourront raisonnablement porter que sur un quart des patients des prothèses implantées, tandis que les questionnaires pourraient intéresser les deux tiers des patients, et les courbes de survie la quasi totalité des implants, puisque même les perdus de vue participent à la fameuse marge de confidentialité à plus ou moins 5% «d’intervalle de confiance»…

Les «Caractéristiques générales» n’ont rien de particulier et correspondent aux “demographics” des anglo-saxons… Age, étiologie, sexe, côté, etc… en précisant à chaque fois les nombres et pourcentages, pour les cas opérés, et le nombre de patients correspondant le cas échéant… A signaler que, ainsi que précisé ci-dessus, pour des patients opérés à l’âge de 70 ans, l’évaluation clinique à la dixième année de recul clinique  interviendra à l’âge de 80 ans, ce qui tout de même est différent de l’évaluation de fringants quinquagénaires revus 2 à 5 ans après leur arthroplastie. Si donc l’âge de référence demeure l’âge à l’intervention, il ne faudra pas omettre de préciser cette notion d’âge moyen « à la revue clinique » lorsque l’on évalue nos patients... 

L’archivage est certainement l’un des éléments les plus importants d’information, à la fois pour définir toute série et surtout pour autoriser l’élaboration de courbes de survie fiables, en éliminant au maximum les biais qui peuvent générer au final des différentiels de plusieurs points …

Nous proposons de suivre les recommandations du Ministère de la Santé, émises à l’occasion des formulaires d’homologation des prothèses, en vigueur dans les années 90. Ces éléments, couplés avec le module de création des courbes de survie des logiciels informatiques, permettront de sérier au mieux les échecs soit d’un des deux composants, soit des deux.  Il est par ailleurs évident que plus le nombre des éléments répertoriés en “B” est faible, plus l’intervalle de confiance sera resserré… 

• On différencie en fait les patients appartenant à la classe “A”, c’est-à-dire “en vie” ou “en cours” lors de la revue.

• Tous les cas appartenant à la classe “B” ne sont plus “en cours” pour des raisons diverses mais avec le trait caractéristique de ne pas impliquer la causalité de la prothèse : Il peut s’agir (a) soit du décès, (b) soit d’une ablation de la prothèse due à un traumatisme intercurrent ou une infection à distance, migrée secondairement vers la prothèse, (c) soit d’un patient dit “perdu de vue”, c’est-à-dire que l’on ne sait pas si la prothèse est encore en place ou non, (d) soit enfin d’un patient exclu de l’étude, pour diverses raisons définies lors de la définition de la série (âge trop important, poids excessif, handicap annexe particulier, etc…). Il peut s’agir également d’une ablation d’un seul des deux composants du à un processus intercurrent (traumatisme ou infection) pour lequel la prothèse n’est pas en cause.

• Tous les cas définis en “C” correspondent à des échecs de la prothèse, avec ou sans révision. Il s’agira soit d’une ablation globale pour échec, soit d’un échec clinique ou radiologique non réopéré, soit enfin d’un échec partiel de l’un des composants…

 

 

 

2 - Résultats

Ce chapitre comprend traditionnellement et en premier l’analyse des complications, puis les résultats cliniques et radiologiques, pour terminer avec les courbes de survie.

2.1 – Complications

Le but de ce mémorandum n’est pas de dresser une liste exhaustive des complications, car les différents problèmes rencontrés, et surtout le rapport plus ou moins détaillé de ces complications, dépendent naturellement du type d’étude, et de la place disponible pour la publication. Il importe néanmoins, et quels que soient les “standards” retenus, de lister ces différents problèmes de façon claire pour différencier les complications dans leur ensemble, classées en plusieurs grands groupes, généralement sous l’appellation de complications per opératoires, précoces et enfin tardives, le «tardif» débutant de façon non systématisée après la première année…

Il est par ailleurs essentiel de lister tout aussi clairement les «réopérations» et les «révisions», en sachant que ces révisions peuvent être ou non imputables à la prothèse, ou au contraire dues à un facteur intercurrent, et que l’échec prothétique éventuel peut être en rapport avec la fixation de la prothèse ou tout autre faillite des éléments prothétiques. On peut rappeler que la distinction entre «réopération» et «révision» avait été énoncée dans le registre suédois voici quelques années lors d’une présentation à l’AAOS. En fait, une «réopération» doit consister en une nouvelle intervention chirurgicale de quelque nature que ce soit, pour un patient qui a été précédemment opéré avec mise en place d’une prothèse, tandis qu’une «révision» implique par principe l’ablation et l’échange de l’un ou des deux composants principaux. A ce titre, le simple échange d’un insert acétabulaire ou tibial, d’une tête fémorale ou d’un médaillon rotulien n’était pas considéré à  l’époque comme une révision. Depuis lors, les instances du registre suédois ont changé de définition, admettant maintenant deux variantes pour ce terme de révision pour les “révisions  mineures” (échange d’insert ou de tête isolément) et “révisions majeures” pour les révisions “classiques… Il est possible de remarquer effectivement qu’il existe une différence nette entre ablation de fils métalliques de trochantérotomie versus changement d’insert acétabulaire dans une cupule, où l’agression chirurgicale et le risque prothétique sont bien différents. Il en résulte que la prise en compte de toute ablation même partielle d’un des composants de la PTH sous le terme de révision et non plus de simple réopération paraît inéluctable et justifiée. On peut objecter toutefois qu’il existe aussi une différence toute aussi nette entre un simple échange de principe d’un insert acétabulaire lors d’une synovectomie pour calcifications ectopiques, et une ablation laborieuse de tige dans un contexte de descellement invétéré avec défects osseux majeurs. Il semblera donc “consensuel” de parler de “révisions mineures” et de “révisions majeures”… Les révisions majeures concernent en fait l’ablation d’un composant prothétique directement fixé à l’os, et impliquent sur le plan informatique la mise en archive de l’ancienne fiche prothétique, et la création d’une nouvelle, avec une “remise à zéro” du compteur pour l’appréciation du follow-up, ce qui n’est pas le cas des révisions mineures…

Quoi qu’il en soit, une distinction peut être proposée pour affiner l’étude de ces complications, tout en prenant en compte ces différentes options de révisions partielles ou totales, et autoriser ultérieurement une analyse plus précise des courbes de survie, selon 5 groupes, présentés avec nombre, pourcentages et quelques mots de commentaires :

1. Complications ou réopérations : Ces complications ont pu ou non nécessiter un geste opératoire itératif, qu’il s’agisse d’une arthrolyse avec maintien des implants en place, d’une évacuation d’hématome, ou de luxations récidivantes n’impliquant aucun échange de composants.

2. Révisions mineures : ces “révisions mineures” impliquent un geste opératoire itératif, obligeant à un échange de composants prothétiques de principe ou de nécessité, avec maintien en place des composants “principaux”, c’est-à-dire directement fixés à l’os. En pratique, cette dénomination de “révision mineure” intéressera un insert acétabulaire, ou une tête prothétique, ou encore la portion cervicale d’une prothèse modulaire… (NB : le terme “révision partielle” est réservé à une révision intéressant seulement l’un des deux composants dits majeurs).

3. Révisions majeures : certaines réopérations ont pu entraîner un échange d’un ou deux composants principaux, il s’agit alors de “révisions majeures” qui peuvent être ou non imputables à la prothèse elle-même. Il peut s’agir d’une fracture de fémur intercurrente sur prothèse fonctionnant parfaitement, ou à l’opposé un véritable descellement prothétique entraînant une fracture pathologique.

4. Echecs prothétiques : Dans ces révisions, certaines sont imputables aux implants, et dans les autres, la prothèse n’est que “l’innocente victime” d’un élément extra-prothétique. Il est donc essentiel de commenter les véritables échecs de la prothèse dans leur ensemble… A noter dans ce cadre les échecs patents cliniques ou radiologiques non réopérés, pour des raisons diverses… Il faut par ailleurs dans le groupe de ces échecs prothétiques différencier ceux qui ne sont pas en rapport avec un descellement (par exemple rupture d’une tête fémorale, d’un insert céramique, usure du couple de frottement, luxations récidivantes nécessitant l’échange de composants bien fixés à l’os, etc…) et à l’opposé ceux qui correspondent à une faillite du scellement ou plus généralement de la fixation de la prothèse à l’os (véritable échec mécanique par descellement aseptique), ce dernier groupe sera repris dans la catégorie suivante…

5. Descellements aseptiques : Il s’agit du fameux “mechanical failure”, repris en général pour toutes les courbes de survie, notamment dans les registres scandinaves. L’intérêt de différencier le descellement comme un “end point” particulier réside tout simplement dans le fait que la survie de toute prothèse est subordonnée d’une part à sa fixation à l’os, et d’autre part à toute une série d’éléments qui ne concernent pas la fixation à l’os… Qu’il s’agisse donc des modalités de fixation à l’os (type d’ancrage cimenté, HA ou autres), des différentes modalités de cimentage, ou encore des différents types d’ancrage “bio-actifs”, tous ces éléments doivent pouvoir être analysés sans biais extérieur au problème de fixation.

2.2 – Résultats cliniques

Les résultats seront ou non détaillés en fonction de la place disponible pour la rédaction de l’article ou la présentation des diapositives. On retrouve classiquement les résultats analytiques (paramètres isolés tels que douleur, marche, escaliers, cannes, mobilité, etc…), puis les résultats synthétiques selon les scores ou questionnaires retenus pour l’étude, et enfin les traditionnels “tris croisés”, permettant de comparer deux paramètres dans la même population. L’étude spécifique des mauvais cas peut naturellement toujours s’avérer pleine d’enseignement, avec simple mention ou analyse détaillée en fonction de la place disponible.

Il est par ailleurs de bon ton de confier ses résultats à un statisticien pour interpréter ces tris croisés selon les formules ad hoc. A noter que certaines règles de base pourraient se trouver incluses de façon systématique, à savoir les tests absolument nécessaires pour les différents tris croisés, notamment pour les tests non paramétriques, sous réserve des conditions correctes de tri de l’échantillonnage et du nombre minimum de cas, en particulier pour l’analyse des variances (ANOVA). Les travaux plus pointus doivent faire l’objet d’une supervision par un statisticien pour éviter les erreurs d’interprétation qui peuvent fausser à la fois les conclusions de l’article et des méta-analyses ultérieures. En toute logique le degré de signification selon la valeur de p (non significatif, significatif, très significatif et hautement significatif) doit être signalé. Pour la présentation des scores, il est essentiel de mentionner à la fois le nombre de patients retenus pour le calcul de ce score ainsi que les pourcentages, en fonction de l’état pré- et post-opératoire, en rappelant s’il s’agit du dernier recul, ou à un délai spécifique (10 ans, 15 ans, etc…)

Scores de Postel-Merle d’Aubigné (PMA) et de Harris(HHS)

Pour l’évaluation clinique de la hanche, les deux cotations habituelles sont bien naturellement les cotations PMA et Harris, qu’il était bien commode de mixer dans une seule feuille de saisie des résultats. Cette pratique doit être définitivement abandonnée, car les comités de lecture exigent, si l’on parle de Harris Hip Score, de se conformer à la version originale “pure et dure” de ce score, sous peine du risque d’un rejet pur et simple de l’article au motif de résultats biaisés…

La classification de Postel et Merle d’Aubigné apparaît donc «incontournable».  Incontournable certes… encore faut il effectivement se mettre d’accord sur une totalisation éventuelle des trois paramètres, non prévue à l’origine comme une simple addition des trois éléments Douleur, Mobilité, Marche, mais comme un calcul relativement complexe…

• si mobilité normale (5 ou 6) : on additionne les scores “douleur” et “marche” avec la qualification suivante : “très bon” (very good) = 11 ou 12 // “Bon” (good) = 10 // “Moyen” (medium) = 9 // “Assez bon” (fair) = 8 // “Mauvais” (poor) = 7 ou moins.

• si mobilité réduite à 4, descente d’une classe de résultat.

• si mobilité à 3 ou en dessous, on rétrograde de deux classes

Cette qualification des classes de résultats apparaît relativement malaisée, sauf si l’on utilise un mode de calcul computérisé informatique. Soit donc on renonce à “qualifier” les résultats, ce qui est frustrant pour la facilité de présentation, soit on décide une règle simple de calcul, et nous pouvons proposer un système à 4 classes, parce que plus aisé à manipuler : “excellent” = 18 // “bon” = 16-17 // “moyen” = 15-16 et “mauvais” = 14 et en dessous. Un dernier écueil concerne la référence à cette classification dans les journaux anglais, car si en France (et en Navarre), on parle de Postel-Merle d’Aubigné, ou PMA, chez nos voisins anglophones, ce sera MDA, ou MDP, ou autre…

 

 

Deux des références de cette cotation PMA en français sont : “Cotation chiffrée de la Hanche” Rev Chir Orthop 1970; 56:481-6 et 1990;76(6):371-4. Pour la référence anglaise, qu’il vaut mieux reprendre si l’on publie en anglais, elle date de 1954 sous le titre “Functional results of Hip Arthroplasty with Acrylic Prosthesis” – J. Bone Joint Surgery 36A : 451-75, 1954

Faut-il utiliser le Harris Hip Score (HHS) ?... On peut craindre que oui, parce que finalement c’est le seul qui fasse encore (relativement) autorité face aux questionnaires et autres évaluations de “Quality of Life”… Il s’agit pourtant d’un score inutilement alambiqué concernant la mobilité, et faisant une part trop belle à la cotation de la douleur, avec une différence de 10 points, soit 10% entre douleur “légère” (light: 40 pts) et … légère (mild : 30 pts) puisque la douleur modérée (moderate) est à 20 points… Bonjour l’objectivité! Quant aux calculs incroyablement compliqués pour un total possible de 5 points seulement sur 100, puisque 4 autres points sont attribués en fait à “l’absence de déformation” (deformity), on peut conseiller la prise préventive d’un ou deux comprimés d’un bon sédatif avant de s’attaquer à la conversion des calculs, sauf à utiliser un logiciel spécifique qui aura une fois pour toutes intégré tous les calculs de scores…

En pratique, la corrélation croisée des résultats des mêmes patients exprimés simultanément selon les deux scores ont pu montrer l’absence de distorsion selon les tests statistiques, et notamment le test t de Student pour les valeurs numériques, et le chi2 pour les corrélations des grades de résultats, en prenant pour le HHS les classes suivantes “excellent” >= 98 ; “bon” entre 80 et 98, “moyen” entre 60 et 80, et mauvais en dessous de 59. Cette estimation des “bornes” n’est toutefois pas reprise dans la littérature anglo-saxonne, mais pourrait être adoptée par les chirurgiens français pour leurs études communes…

La référence princeps du HHS date de 1969 sous l’appellation “Traumatic Arthitis of the Hip after Dislocation and Acetabular Fractures: Treatment by Mold Arthroplasty – An End-Result Study Using a New Method of Result Evaluation – William H. Harris – J Bone and Joint Surgery (Am) 51-A; 737-55, 1969

Les Questionnaires : SF36/12, Womac, Oxford et autres…

Les questionnaires ont la cote depuis de nombreuses années, car ils possèdent l’avantage incroyable sur les classifications cliniques d’être “self-administered”, ce qui signifie en pratique pas de visites systématiques, pas de frais de déplacement, pas de temps perdu, et au final un nombre nettement plus important de réponses utilisables pour l’étude, et (en principe) non biaisées par le chirurgien… Le problème des questionnaires, c’est justement qu’ils échappent  au contrôle d’un professionnel de l’évaluation compétent, et que le patient pourra qualifier au gré de son humeur tel ou tel paramètre selon la hauteur des ses escaliers, ou le moral des troupes… le caractère le plus frappant est le nombre de hanches qui vont bien, et le nombre de dos qui ne vont pas bien, avec des douleurs d’origine radiculaire irradiant selon un trajet L2-L3 ou L3-L4 qualifiées de douleurs de hanche… Ouille pour le résultat de la dite hanche opérée!...

 

 

Il nous appartient tout de même de citer deux questionnaires largement utilisés par nos voisins outre-atlantique, ainsi que plus généralement dans les pays anglophones, il s’agit des questionnaires SF 36 (et le petit frère SF12), ainsi que le questionnaire Womac.

• Le SF36, comme son nom l’indique, est un questionnaire de 36 questions, conçu à la fois par des statisticiens et par des psychiatres (mauvais début…) et devant dans leur principe de base autoriser une comparaison entre les résultats obtenus pour des patients opérés de prothèses de hanche (ou de genou), selon différents groupes de personnes, et les résultats des groupes similaires, mais sans opérations de la hanche (ou du genou). Ainsi les Américains seront donc cotés différemment des Européens ou des Asiatiques. Par ailleurs, les antécédents ou morbidités associées sont prises en compte selon l’existence ou non de problèmes par exemple cardiaques ou autres (diabète, etc..). D’où l’intérêt d’associer les statisticiens… Le malheur, c’est lorsque vous êtes à la fois diabétique et cardiaque, avec la double nationalité US et Française… crash assuré !

Comme on trouvait tout de même que 36 questions, cela demandait beaucoup de temps pour remplir les feuillets, avec à la clé des questions aussi pertinentes que l’activité sexuelle hebdomadaire, pour ne citer que celle là, nos statisticiens, qui ont réponse à tout, ont tout simplement effectué une règle de trois pour se retrouver avec des résultats statistiques à propos de 12 questions au lieu de 36!... Sauf que du coup, à partir d’une vingtaine de réponses au départ pour valider le tout, on se retrouve avec des réponses “excellentes” avec le maximum de points, ce qui est logique, mais avec par exemple une réponse “bonne” moins cotée qu’une réponse “moyenne”. On passera aimablement sur les 5 décimales derrière la virgule qui accompagnent les scores dont le total est de (faisons simple, soit donc pour un Européen sans antécédents particuliers) 56,58 points pour le score “physique” et 60,76 points pour le score “mental”. Parce que c’est là que les psychiatres entrent en scène… Si l’on a le blues, c’est bien connu, on voit tout en noir, donc on va minorer ses résultats. Alors les questions sont de trois types, certaines définissent le “physique”, d’autres le “mental”, et le troisième groupe les deux à la fois. Moralité : pour une même hanche opérée, si vous êtes algique et incapable de grimper un escalier, mais que votre moral est au plus bas parce que vous venez de perdre votre job, votre femme vous a quitté, et vos ados ont un fâcheux penchant pour l’herbe, vous serez gratifié au final du même score que si vous grimpez les escaliers quatre à quatre sans douleur, mais avec un moral au zénith… Je passe sur la subtile différence entre les réponses « a good bit of the time », « some of the time » et « a little of the time », gratifiées de plusieurs points de différence entre elles (sans oublier les 5 décimales !!!). Dernière gâterie, la version dite “HSQ-12 version 1.0” n’est pas compatible avec la version 2 sortie quelques  années après…

“SF-12: How to Score the SF-12 Physical and Mental Health Summary Scales” – John Ware, Ph.D, Mark Kosinski, M.A. and Susan Keller, Ph.D. The Health Institute, New England Medical Center, Boston, Massachussets - 1995

• Pour le WOMAC, l’affaire est a priori plus simple, puisque ce score a été défini par le Docteur Bellamy, rhumatologue, actuellement résident en Australie, après avoir accouché de son score au Canada, en Ontario, pour être précis (d’où le O de Womac). Il s’agissait à l’origine de tester non pas les résultats de prothèses, mais l’efficacité de traitements médicamenteux sur des articulations non opérées. Par la suite, le Docteur Bellamy a validé son système avec seulement 20 prothèses de hanche opérées, et 20 prothèses de genou opérées, en préopératoire et à 3 mois de recul dans son article original. Nous avons ainsi 24 questions (5 pour la douleur, 2 pour la raideur, et 17 pour la fonction), lesquelles comportent 5 degrés, de “none” à “extreme”. Le problème réside dans le fait que chacune d’entre elles pèse le même poids dans le décompte final.  Ainsi par exemple la montée des escaliers (ascending stairs) est sur le même plan que “rester étendu sur son lit” (lying in a bed). On passera sur le détail horripilant que la meilleure réponse est cotée 0, et la plus mauvaise 4, ce qui donne le meilleur résultat global à 0 et le plus mauvais à 96 points!... Saluons tout de même la démarche de quelques scientifiques qui ont crée le “Reduced Womac” en conservant seulement les 7 questions fonctionnelles les plus pertinentes, en ayant pu valider statistiquement des réponses corrélées avec les mêmes patients ayant au préalable répondu à la totalité des 24 questions… 

On peut naturellement conseiller la lecture attentive des différents écrits du Docteur Bellamy à propos de son score, mais pour tenter d’y comprendre quelque chose à propos des différents modes de conversion des items vers les versions plus récentes, ce ne sont pas deux comprimés de sédatifs que l’on recommande, c’est le tube entier ! Pour vous détendre au final, on vous recommande la version française officiellement validée par l’Auteur de son score, en vous laissant la surprise du français “validé”, façon sauce canadienne…

“Original Womac Score (LK30): Validation study of WOMAC: a health status instrument for measuring clinically important patient relevant outcomes to antirheumatic drug therapy in patients with osteoarthritis of the hip and knee” Bellamy N., Buchanan WW, Goldsmith CH, Campbell J, Stiff LW – J. Rheumatol, 1988; 15:1833-40

“Development and testing of a reduced Womac Function scale – S.L. Whitehouse, E.A. Lingard, J.N. Katz, I.D. Learmonth – J Bone Joint Surg (Br) 2003;85-B:706-12

A partir de ces considérations, le score Oxford apparaît comme nettement plus favorable, peut-être tout simplement parce qu’il a été élaboré par des chirurgiens orthopédistes. Il a le mérite de la simplicité, présentant 12 questions seulement, claires et précises, toutes en 5 niveaux de réponse, de “none”(1 point) à “severe” (5 points), en passant par “very mild”, “mild”, et “moderate”. On regrettera bien sur que la cotation soit inversée, comme le Womac, avec un minimum à 12 et un maximum à 60 points. Résultat : la moitié des auteurs a déjà inversé le score dans les publications (joyeuse pagaille...), mais ceci n’est pas encore validé officiellement par une publication des concepteurs, actuellement en cours de rédaction… un peu de patience… Le score “Hanche” est différent du score “Genou”, ce qui est intéressant, et l’on regrettera simplement que des questions identiques ne soient pas à la même place… Un travail est actuellement en cours dans le cadre des travaux de la SFHG pour validation « officielle » de la version française de ce questionnaire Oxford, à paraître dans la RCO.

“Original Oxford Hip Questionnaire: Questionnaire on the perceptions of Patients about Total Hip Replacement” J. Dawson, R. Fitzpatrick, A.Carr et D. Murray- J Bone and Joint Surg (Br) 1996; 78-B: 185-90

Un dernier mot à propos des questionnaires dits “de satisfaction”, lesquels ont la cote ici et là, au motif que c’est finalement “l’opinion des patients qui importe le plus après leur arthroplastie”… Certes, mais outre le caractère outrageusement subjectif de ce “questionnaire”, la question au final reste l’ambiguïté : le patient est-il content de l’intervention, de la Clinique, ou du sourire du chirurgien (ou de l’infirmière …) ???... Néanmoins, Vox Populi, Vox Dei !... A ce propos du reste, l’échelle visuelle analogique (EVA, ce sigle n’ayant au demeurant n’a strictement rien à voir avec l’éphémère projet socialiste “Entrée dans la Vie Active” de notre Martine nationale, pour contrer le non moins éphémère CPE…) peut avoir sa place dans le cadre des questionnaires de satisfaction, en tant qu’outil d’évaluation pratique et finalement beaucoup moins subjectif que la simplicité du système (l’échelle visuelle, pas le projet socialiste ! NDLR) pourrait le laisser craindre…

Il ne faudrait pas oublier le handicap global selon Charnley, parce que ce score de Charnley, à dire vrai, fait “partie des meubles”… Mais s’il est communément employé et reconnu, on ne lui donne peut-être pas l’importance qu’il mérite lors de la présentation des résultats. Ce qui est important en fait, ce n’est pas son score fonctionnel, lequel n’est pas très utilisé en pratique, mais une “extension” décrite à cette occasion. Dans la publication originale de ce score en 1972, Sir John prévoit en effet une “extension importante de son score de base”, indiquée en trois lettres A, B et C, “pour faciliter l’appréciation des fonctions de marche”. Sans trahir l’esprit du score initial, il sera en fait commode et logique de considérer :

• en “A” les patients présentant un problème isolée de hanche du côté opéré, sans aucun autre facteur limitant l’activité, que les autres articulations, et notamment la hanche contro-latérale, soit opérée ou non, (c’est à dire qu’un patient initialement B peut devenir A si la première hanche opérée a un résultat à 18 !!!),

• en “B” les patients présentant en plus du problème de la hanche étudiée, un facteur de handicap significatif au niveau de la hanche contro-latérale, opérée ou non,

• et en “C” les patients dont un ou plusieurs facteurs de handicap significatif peuvent être mis en évidence, en dehors des hanches.

A noter que ce score est évolutif et devra être remis à jour lors de chaque revue clinique. En effet, il ne s’agit pas d’une estimation définitive, mais d’un correctif à appliquer en fonction de circonstances pouvant évoluer dans un sens ou un autre (simple vieillissement, ou aggravation d’une affection rhumatismale ou cardiaque, mais aussi au contraire possibilité d’amélioration pour une arthrose de genou invalidante, finalement traitée par prothèse avec un excellent résultat, voire traitement d’une fracture intercurrente, etc…)

Original Charnley Scoring System: “The long-term results of a low-friction arthroplasty of the Hip performed as a primary intervention” John Charnley – J.Bone Joint Surgery 54-B: 61-76, 19972

Un dernier mot concernant le « score d’activité » selon Devane… Décrit en 1997 par Peter Devane à propos de l’usure du polyéthylène en fonction du degré d’activité des patients, ce “score” peut être utile pour qualifier l’état préopératoire de nos patients, et donc d’apprécier le bénéfice apporté par l’intervention. Ceci est particulièrement indiqué pour les arthroplasties des sujets jeunes qui retourneront ou non à leurs activités antérieures (avant l’affection qui a motivé le geste opératoire, pas immédiatement en pré-opératoire, naturellement)… Il est évident que depuis deux ou trois décennies, on n’opère plus uniquement des dames âgées pour qu’elles puissent aller chercher leur lait le matin à la boutique située 300 m en contrebas de leur maison… Au contraire, le caractère social des arthroplasties, et le retour à l’activité antérieure sont devenus des  indicateurs majeurs pour le patient, le thérapeute, et accessoirement le politique…

Il est donc intéressant de chiffrer ce bénéfice “social” par un index approprié, surtout chez le jeune, d’autant plus qu’accessoirement, les corrélations croisées entre activité et toute une série de paramètres, dont l’usure, peuvent être un utile complément à l’étude. Donc si auparavant nous avions l’habitude d’un index “bricolé” du style très actif / actif/ sédentaire/ casanier/ grabataire, voici à présent un score “officiel” avec une gradation de 5 (sportif haut niveau / travailleur en force) à 1 (dépendant) en passant par “Travail léger/sportif de loisir” (4), “Activités loisirs, jardinage, natation” (3), et enfin “semi-sédentaire / travaux ménagers” (2). Comme pour le score de Charnley, ce score peut évoluer, notamment en fonction de l’âge,  et devra être réactualisé lors des différentes évaluations au fil des années…

Score activité de Devane: “ Three-dimensional polyethylene wear of a press-fit titanium prosthesis. Factors influencing generation of polyethylene debris.” -  Devane PA, Horne JG, Martin K, Coldham G, Krause B.  - J Arthroplasty. 1997 Apr;12(3):256-66.

 

 

2.3 - Evaluation radiographique

Les évaluations radiographiques des prothèses totales de hanche sont diversement utilisées en fonction du mode de fixation.  A noter pourtant que l’évaluation de l’usure du cotyle se pose dans les mêmes conditions pour les prothèses cimentées ou non, à ceci près que les cupules cimentées en polyéthylène se prêtent plus volontiers au calcul de l’usure “équatoriale” décrite par Charnley et Cupic, ou Livermore, tandis que les cupules vissées avec filetage, surtout non hémisphériques sont parfois malaisées à étudier. Les lectures digitalisées avec traitement informatique (Devane, Martell,…) sont à présent bien décrites, avec le problème d’une usure qui n’est pas forcément homogène dans toutes les directions de l’espace, ce qui rend aléatoire le calcul simple en 2D. Par ailleurs, dans la mesure où si les radios de face du bassin peuvent être reproductibles, ce n’est pas le cas du profil à partir duquel sont calculées les usures dites “volumétriques” dont les erreurs d’interprétation parfois énormes doivent rendre circonspect à l’annonce de résultats au dixième de millimètre…

Classifications topographiques : Gruen,  Charnley

Les classifications de Gruen/ Callaghan pour le fémur et De Lee & Charnley pour le cotyle demeurent elles aussi des “incontournables”…

• Gruen/ Callaghan : Cette classification “découpe” le fémur en 14 portions dont 7 pour la face et 7 pour le profil. Grosso modo, il s’agit tant pour la face que pour le profil d’un découpage par trois tiers, délimitant 6 zones, la pointe de la tige et la partie du fémur immédiatement en dessous délimitant la septième. On part d’abord du cliché de face du grand trochanter qui correspond à la zone 1, et on tourne jusqu’au petit trochanter, représentant le zone 7, puis sur le profil, on part cette fois du petite trochanter, soit la zone 8 et on termine par le grand trochanter en zone 14…  Le problème est que ce découpage, décrit pour la première fois en 1979, n’a pas été conçu pour s’adapter de façon précise aux différents types de prothèses fémorales. Il est évident que l’on ne peut pas parler de hauteurs de zones en centimètres, car ces distances sont variables selon les individus. Par ailleurs certaines tiges sont courtes, d’autres longues, ce qui rend difficile un découpage opportun universel.

Il faudrait préciser deux points importants pour cette topographie de face de Gruen, avec en premier lieu le découpage par tiers des tiges cimentées et non cimentées à revêtement complet, tandis que la démarcation entre zones 1 et 7 d’une part, 8 et 14 d’autre part et les zones sous jacentes des tiges à revêtement proximal correspondrait à la limite du revêtement, avec pour les parties distales division par deux de la hauteur non revêtue… En deuxième lieu, l’existence de modifications proximales telles par exemple que les ostéolyses de la région du calcar, ou sous trochantériennes, rend souhaitable une précision complémentaire pour ces régions “sensibles”, avec sous division de ces zones en trois parties (sauf pour la zone 7, pour laquelle on ne trouvera que 2 sous-zones), soit respectivement zones 1a, 1b et 1c, 7a et 7b, 8a,b,c et 14a,b,c. A noter que l’attribution des sous zones est effectuée de manière logique, c’est-à-dire “en tournant”, c’est ainsi que les zones 1a et 8a sont les plus proximales, tandis que les zones 7a et 14a sont au contraire “en dessous”… On appréciera une cartographie idoine proposée par son logiciel informatique avec «pointage» direct des zones considérées…

• DeLee et Charnley : la classification des zones entourant la cupule est beaucoup plus simple, puisque limitée à trois zones dessinées à partir de la ligne équatoriale de la cupule de face (à noter qu’il existe aussi une répartition zonale en 3 de profil mais qui n’est semble-t-il attribuée à personne…). A partir du milieu de ce segment, correspondant au centre de la cupule,  sont tracées deux lignes à 60° et 120° par rapport à la ligne équatoriale de la cupule, délimitant trois sections numérotées 1, 2 et 3 en commençant par la portion supérieure. Dans la mesure où certaines modifications telles que notamment les ostéolyses peuvent être retrouvées à distance du dôme acétabulaire, par exemple autour des vis additionnelles de certaines cupules non cimentées, il est commode d’adjoindre une zone 4 correspondant à toute la région surplombant les zones 1 et 2, correspondant aux vis ascendantes.

Femur: “Modes of failure” of cemented stem-type femoral components : a radiographic analysis of loosening” - Gruen TA, McNeice GM, Amstutz HC. - Clin Orthop Relat Res. 1979 Jun;(141):17-27. “The uncemented Porous-Coated Anatomic total hip prosthesis. Two-year results of a prospective consecutive series”. Callaghan JJ, Dysart SH, Savory CG (1988) J Bone Joint Surg 70-A : 337-346

Cotyle : Radiological demarcation of cemented sockets in total hip replacement” DeLee JG, Charnley J. - Clin Orthop Relat Res. 1976 Nov-Dec;(121):20-32.

Evaluation des prothèses cimentées 

Il n’existe que peu de score des prothèses cimentées, hormis pour les cotyles, la classification de Hodgkinson, élève de Charnley, publiée pour la 1ère fois en 1988.

Hodgkinson JP, Shelley P, Wroblewski BM (1988) The correlation between the roentgenographic appearance and operative findings at the bone-cement junction of the socket in Charnley low friction arthroplasties. Clin Orthop 228 : 105-10.

On doit néanmoins généralement se contenter d’une estimation
des lisérés dits “complets” ou “incomplets” de grades 1, 2 ou 3 dont la définition varie quelque peu selon les auteurs. Il est commode d’attribuer le grade 1 aux lisérés inférieurs au millimètre, grade 2 aux lisérés situés entre 1 et 3 mm, et grade 3 au-delà… La difficulté est alors de faire la différence entre un “vrai” grade 3 (liséré continu, d’épaisseur constante), et une ostéolyse…  La description radiographique des cupules et des tiges cimentées est donc purement descriptive, en fonction du caractère du liséré
et des zones correspondantes. Certaines écoles, telles que par exemple celle d’Exeter, utilisent une classification spécifique du cimentage en fonction de la répartition homogène ou non, ainsi que de l’épaisseur du ciment, mais il s’agit davantage d’évaluer le cimentage que de classifier un résultat radiologique.

Evaluation des prothèses non cimentées : Engh et Massin, ARA

La signification radiographique est très souvent en avance sur les données cliniques et constitue certainement le facteur pronostique le plus probant. Encore doit-on décrypter correctement les signes radiographiques et différencier les simples réactions osseuses résultant d’une adaptation biomécanique réussie conduisant à une fixation durable, par rapport aux signes avant-coureurs d’une prochaine faillite prothétique. Les deux scores radiologiques à disposition, le score de Engh et Massin d’une part, le score ARA d’autre part, se basent grosso modo sur les mêmes signes radiologiques, mais dans une logique d’interprétation différente.

1. Charles Engh et Philippe Massin ont eu le grand mérite de différencier pour la première fois les implants «sans ciment» des prothèses cimentées au ciment acrylique, quant à leur expression radiographique. Il s’agissait essentiellement de prouver la réalité d’une réhabitation osseuse, et leurs travaux sont essentiellement une confrontation systématisée entre les données histologiques de prothèses explantées et leur traduction radiographique. Ils ont pu ainsi définir pour les composants fémoraux un certain nombre de critères correspondant à des modifications directes ou indirectes liées au comportement du couple os-­prothèse. D’où l’élaboration d’un double score chiffré de « fixation » (sur 10 points) et de « stabilité » (sur 17 points), en associant des valeurs négatives ou positives pour chacun des paramètres : le total sur 27 points constitue un diagnostic anatomopathologique de réhabitation osseuse confirmée » (+ 10 pts et plus), « suspectée » (entre 0 et + 10 pts), ou d’une « encapsulation fibreuse » (entre - 10 et 0 pts), voire d’une prothèse « instable » (en dessous de - 10 pts). Ces travaux fondamentaux ont ouvert la voie d’une nouvelle connaissance des signes radiographiques d’implants directement implantés dans le fourreau osseux, permettant une meilleure compréhension de cette implantation prothétique.

Ce double score chiffré appelle pourtant plusieurs remarques. L’étude initiale concernait 12 modèles prothétiques différents, comportant un revêtement poreux soit exclusivement métaphysaire, soit le plus souvent complet. La tige AML - totalisant à elle seule 66% des cas - présentait un microbillage sur toute la surface de l’implant, induisant donc une fixation distale par revêtement de type titane poreux. Les implants à revêtement dit «bio-actif» de type hydroxyapatite, uniquement en région proximale, pourront avoir un comportement foncièrement différent. Par ailleurs, les critères pris en compte sont effectivement représentatifs des modifications retrouvées, mais leur sectorisation est parfois difficile pour certaines images, et l’attribution directe de points négatifs ou positifs selon des questions de type binaire « oui-non » conduit parfois à une évaluation très schématique. Certains de ces signes ne sont par ailleurs représentatifs que d’un type de prothèse (notamment la « libération de particules métalliques »), d’autres gagneraient à être différenciés (différence pronostique entre « ligne bordante réactive » et liséré) car de signification différente. Certains autres paramètres radiologiques sont absents, tels les épaississements corticaux ou surtout la prise en compte de l’ostéolyse. Le total compris entre -31 à +27 points est en outre parfois difficile à appréhender. En dernier lieu, ce score ne s’adresse qu’à la tige et ne prend pas en compte l’analyse radiographique des cupules non cimentées.

Engh C.A., Massin P., Suthers K.E. : Roentgenographic assessment of the biologic fixation of porous-surfaced femoral components. Clinical Orthopaedics, 1990 ; 257 : 107-127.

2. Score ARA : ce score a été défini dès 1994, et demeure souvent employé, notamment en France pour les prothèses à revêtement HA, bien qu’il n’ait fait l’objet à ce jour d’aucune publication “officielle”, hormis sa présentation initiale dans les Cahiers d’Enseignement de la SoFCOT. Ce score est en fait très différent dans son esprit de celui de Engh et Massin, pour lesquels leur cotation constitue un essai de diagnostic anatomo-pathologique au travers d’images radiographiques. L’approche est complémentaire mais différente avec le score ARA pour tenter, au vu d’une radiographie de contrôle de n’importe quel type prothétique sans ciment (avec ou sans HA), de définir les critères d’adaptation, péjoratifs ou non, de l’os vis-à-vis de la tige prothétique. En effet, si l’évaluation clinique dite PMA selon Merle d’Aubigné et Postel, attribuant un niveau de résultat de 0 à 6 points pour chaque paramètre, est une méthode précieuse tant pour le recueil des données cliniques que pour leur expression, le score ARA propose un système similaire d’évaluation des données radiographiques.

En fait, selon les principes de ce score, le but de toute analyse des clichés radiographiques des prothèses est d’observer quelles peuvent être les différentes modifications survenues depuis les premiers clichés postopératoires, et d’estimer s’il s’agit de modifications dans le temps qualifiées de « normales », ou au contraire de signes d’alerte, voire de faillite avérée. Ainsi, une prothèse qui n’entraînera aucune modification des structures osseuses avoisinantes, dans des conditions normales d’activité fonctionnelle, peut apparaître comme parfaitement adaptée à son environnement, de par sa fixation et son respect du transfert harmonieux des lignes de contrainte. Si des signes surviennent, ils pourront être considérés soit comme « neutres », témoignant d’une simple adaptation et ne minorant pas le résultat, soit comme « négatifs » à des degrés divers.  Il est commode de partir d’une situation de départ à 6 points, et d’attribuer des points négatifs de 1 à 4 pour chacun de ces signes dits «négatifs ». La sommation arithmétique de ces « facteurs de risque » conduira à un “score”  final, définissant l’adaptation de la prothèse au fourreau osseux lors de la prise de clichés, et pouvant naturellement varier avec le temps, soit de façon positive, si la fixation un moment précaire se stabilise (ostéo-induction secondaire par l’ HA de zones de fibrose initiale par exemple), soit négative en présence d’une déstabilisation évolutive (Il n’y a évidemment pas de score négatif…). La démarche est similaire pour le fémur et pour le cotyle. On pourra dès lors parler par exemple d’une prothèse dont l’évaluation clinique serait par exemple PMA 664 ARA F5C4…

Epinette JA, Geesink RGT : Radiographic assessment of cementless hip prostheses: ARA, a proposed new scoring scoring system – in Cahiers d’Enseignement de la SO.F.C.O.T: “Hydroxyapatite Coated Hip and Knee Arthroplasty”, L’Expansion scientifique Ed. Paris, France,n°50, 1994: 107-19 (version française) n°51, 1995: 114-26 (version anglaise)

Ces deux cotations radiographiques utilisent les mêmes paramètres radiographiques, définis initialement par Engh/Massin et simplement “upgradés” par la suite, autorisant donc une saisie simultanée des deux scores. Les premières constatations et corrélations systématisées avec le score de Engh sont encourageantes et ce score ARA, facile d’utilisation, pourrait apporter des renseignements fiables sur la corrélation radio-clinique de toutes les prothèses de hanche hydroxyapatite ou à métal poreux. Dans notre expérience, le score ARA a toujours été corrélé de façon plus significative (vs. Engh/Massin) avec les résultats cliniques des patients correspondants, du fait de sa sensibilité plus fine, et de sa prise en compte de facteurs péjoratifs absents du score de Engh, et en particulier l’ostéolyse.

Classification de Brooker (ossifications péri-articulaires)

La classification de Brooker décrivant les ossifications ectopiques péri-articulaires ne pose a priori aucun problème particulier d’interprétation, entre les images discrètes “floconneuse” (grade 1) jusqu’au “pont osseux” (grade 4). L’estimation des différentes formes intermédiaires peut naturellement entraîner des “biais intra ou inter-opérateurs”, mais en pratique, cette description des ossifications ectopiques n’est pas au premier plan des résultats radiographiques, surtout si l’on se souvient qu’il n’existe pas de corrélation franche systématique entre degré d’ossifications et raideur articulaire. C’est bien la rétraction de la capsule dans le cadre d’une péri-arthitre de hanche, calcificante ou non, qui entraîne la raideur douloureuse et non le simple dépôt de cristaux de calcium…

Brooker A.F., Bowerman J.W., Robinson R.A., Riley R.H. : Ectopic ossification following total hip replacement : incidence and a method of  classification. - J Bone and Joint Surg, 1973 ; 55-A : 1629-1631.

 

 

2.4 - Analyse de survie cumulée

L’analyse de survie selon la méthode de Kaplan-Meier, souvent préférée à la méthode dite actuarielle, est un élément absolument indispensable de toute présentation des résultats. Initialement créés pour la survie de patients atteints de maladies potentiellement mortelles, d’où leur nom, et pour juger de l’efficacité des thérapeutiques reculant plus ou moins l’échéance fatale, elles ont été adaptées à la “survie” des prothèses, avec deux éléments de difficulté lors de leur interprétation:  En premier lieu, contrairement aux études des séries pharmaceutiques, tous les patients ne sont pas revus de façon homogène, avec un point de départ et de revue clinique identique en fin d’étude, surtout pour les séries prospectives. Il existe par ailleurs de nombreux paramètres qui interfèrent, et notamment les décès des patients, ou autre sortie de l’étude, sans que la prothèse soit en cause… ce sont les fameux “exclus vivants”… En second lieu, le “end point” peut être sujet à de très nombreuses interprétations qui doivent conduire à sa définition stricte pour ne pas induire de fausses conclusions en réponse à une fausse question…

Mises à l’honneur par les registres scandinaves, et à l’instar de la langue d’Esope, les courbes de survie cumulée peuvent être la meilleure ou la pire des choses. Tout dépend du choix judicieux des paramètres pris en compte. On peut parfaitement par exemple présenter 10 courbes de survie avec des taux cumulés différents allant de 85% à 100% de probabilité de survie pour la même série au même recul, simplement en faisant varier le critère de sortie (end point), la population retenue, et les modalités d’interprétation statistique. Il faut en fait pour chaque construction de courbe obtenir trois éléments : Tout d’abord un critère forcément “binaire” correspondant à la “mort” soit en fait de façon moins macabre le “critère de sortie”. Puis une date d’intervention correspondant à la mise en place de la prothèse, ou du composant étudié. Et enfin une date de “clôture” d’examen de la fiche, qui peut être la date de survenue du critère de sortie, ou de sortie de l’étude du patient décédé ou “perdu de vue”, ou encore la date de la dernière revue clinique pour le cas restant “en vie”. La différence entre les deux dates définit le “délai”.

Il peut être intéressant de faire le point sur l’appellation “worst case scenario” ou “courbe au pire”… On peut comprendre qu’il s’agit effectivement de la construction de la courbe la plus sévère, destinée à récompenser les séries comportant un nombre suffisant de cas suivis assez longtemps et dont peu ont été perdus de vue… Néanmoins cette appellation répond à différents modes de calcul, et sans doute une claire définition serait-elle souhaitable :

1. Ce «worst case» a été défini pour la 1ère fois par David Murray [Murray DW, Britton AR, Bulstrode CJK (1997) Loss to follow-up matters. J Bone Joint Surg 79-B, 2 : 254-257] : il consiste à considérer comme «échec» ou «end-point choisi» tout patient perdu de vue (pas les DCD bien entendu): c’est une méthode terrible que pratiquement personne n’a le courage d’utiliser, car elle fait descendre la courbe «au pire» bien plus bas que l’habituelle courbe inférieure des intervalles de confiance mesurés selon Green ou Peto. C’est pourquoi la méthode quadratique de Wilson pour calculer l’intervalle de confiance est bien plus fiable, et est proposée comme la meilleure par Dorey, le pape des statistiques en matière d’arthroplastie : dans ce cas, la courbe au pire selon Murray est régulièrement au-dessus de la courbe inférieure de l’intervalle de survie selon Wilson, ce qui est la preuve de la validité de ce mode de calcul. La méthode de Wilson est beaucoup plus difficile à élaborer que la Peto ou Green, mais une fois qu’elle a été incluse dans la base de calcul du programme informatique, elle se calcule automatiquement comme les autres …

2. Une deuxième méthode d’expression de ce “worst case scenario”, relativement compréhensible et du reste régulièrement utilisée dans les publications, consiste à prendre la valeur finale de la courbe au plus fort délai, à laquelle on soustrait l’intervalle de confiance correspondant, Cette dénomination est intéressante car elle donne une prime aux “bonnes séries” avec peu de perdus de vue, et donc peu de cas classés en “B”, c’est-à-dire sortis de l’étude.

3. Cette appellation est malheureusement galvaudée et l’on voit de temps à autres des définitions de courbes de survie totalement fantaisistes sur cette appellation, comme récemment cette courbe de survie prenant en compte uniquement les descellements, et en tant que “worst case scenario”, la prise en compte des ablations de toutes causes… En bref, il faut sur ce point comme sur d’autres que l’on reste clair sur nos définitions, et comme l’a régulièrement rappelé Christian Delaunay : “… il serait bon que disparaissent ces prétendues «courbes de survie» françaises, qui sont en fait la division du nombre d’échecs connus par rapport au nombre de prothèses posées dont on ne sait pas combien ont été suivies et que certains de nos chers fabricants annoncent dans leurs publicités avec la bénédiction des opérateurs peu regardants… car si peu regardés !...”  Le délai maximum de l’étude est également capital, et l’on doit obligatoirement envisager un nombre minimum de cas restant “en vie” à la clôture de la courbe, sous peine d’accepter des intervalles de survie monstrueux qui enlèvent toute validité à l’analyse. On statue généralement sur le nombre de 20 à 30 cas restant “en vie” à la clôture, nombre qui doit être précisé lors de la présentation de toute analyse de survie. Rappelons en outre que des comparaisons de courbes peuvent être d’une grande utilité, à condition que la différence entre les deux populations corresponde à une question binaire (survie comparée hommes vs.femmes, ou telle prothèse vs. telle autre prothèse, etc…). Le test statistique est le test du log rank. On aura avantage pour les interprétations plus “pointues”, à faire appel à un statisticien “chevronné” (mais y en a-t-il d’autres ?).

Au total chaque analyse de survie cumulée devra clairement préciser : 1) le critère de sortie, 2) la population étudiée, 3) les nombres de cas en entrée et sortie de courbe, et enfin 4) le pourcentage de survie “cumulée” au délai maximum (qui doit être précisé) comprenant les intervalles de confiance à 0,05, en ajoutant éventuellement 5) le “WCS: Worst Case Scenario”…

Trois types de courbes de survie peuvent en fait être proposés :

1. Les courbes de survie “classiques” : Ces courbes sont les plus connues, et sont couramment utilisées en prenant en compte soit la révision prothétique (à la “scandinave”), c’est-à-dire son ablation quelle qu’en soit la cause, soit l’échec de la prothèse, qu’elle ait été enlevée ou non (méthode préconisée par Bill Capello voici déjà une dizaine d’années). Le problème de la méthode scandinave est de prendre en compte tout autant les faux positifs (ablation de prothèse pour cause intercurrente, telle que fracture accidentelle ou sepsis secondaire de cause distante) que les faux négatifs (descellement patent douloureux non réopéré pour cause anesthésique, ou refus du patient par exemple…). Par ailleurs, la limitation du critère d’échec comme “end point” selon Capello revient à laisser à l’évaluateur, “en son âme et conscience”, la charge (subjective ?) de statuer sur le caractère causal, et la responsabilité ou non de l’implant dans l’ablation, ou de l’échec en cas de non révision chirurgicale…

En outre, si l’on établit la courbe de survie d’un seul des composants, il faudra prendre soin de ne comptabiliser que les ablations globales (deux composants), et les ablations isolées du composant en question, en excluant les échecs et ablations isolées de l’autre composant. Reste donc à résoudre lors de l’utilisation de tout système informatique le problème de ces révisions partielles (portant seulement sur l’un des composants), pour lesquelles le délai de revue clinique de la prothèse varie selon le composant étudié, ce qui suppose en principe non plus une fiche par prothèse, mais une fiche par composant, chacun de ses composants possédant son délai propre de revue clinique…

2. Les courbes de survie “dissociées” : On qualifiera ainsi les analyses de survie cumulées exprimées en fonction des différentes questions posées en matière de « sortie » des résultats, en sachant qu’une même analyse peut définir au moins quatre résultats très dissemblables :

- Résultat de l’intervention ? “end point” défini comme toute réopération de toutes causes (ex: calcifications périprothétiques, hématome,…)

- Résultat de l’arthroplastie ? “end point” défini par toute ablation de prothèse de toutes causes (ex : ablation pour cause traumatique intercurrente, localisation septique secondaire sur septicémie, …).

- Résultat de l’implant ? “end point” défini par toute ablation de prothèse pour toute cause due à l’implant (ex : rupture de bille céramique)

- Résultat de la fixation ? “end point” défini par tout descellement dit “mécanique” pour les PTH cimentées, «non ancrage ou échec d’ostéointégration» pour les PTH non cimentées (ex : analyse comparée HA vs. ciment).

Les différents éléments de cette analyse de survie “en cascade” (réopération +/- reprise +/- échec imputable à la prothèse +/- descellement) devraient être systématiques pour éviter les querelles de décimales pour la comparaison de courbes de survie ne s’adressant pas aux mêmes évènements. 

Il va sans dire que les intervalles de confiance doivent apparaître sur la courbe, et que le nombre de cas restants “en vie” au délai annoncé doit être égal ou supérieur à 20 pour posséder une valeur statistiquement interprétable. Le système de recueil informatique des données cliniques lors de l’étude doit permettre de qualifier lors de la saisie des complications ces différentes valeurs d’implication opératoire, de la simple réopération à la révision pour descellement aseptique, avec naturellement pour chacun de ces évènements une date qui sera utilisée pour le calcul du délai.

3. Les courbes de survie “personnalisées” : Le mode de survie cumulée peut ne pas se limiter aux ablations d’implants, mais peut utilement être étendu à toutes sortes de critères d’analyse utilisés en “end points” en fonction du “fine tuning” recherché. Il pourra s’agir d’un « résultats clinique PMA total en dessous de 12 points », ou de l’ « apparition d’une fracture proximale » sur prothèse de hanche, d’une « complication rotulienne » en cas de prothèse de genou, voire d’une « ostéolyse » sur prothèse de hanche, ou tout autre élément défini à l’aide de la recherche multi-critères du logiciel informatique.  Il suffira pour chaque fiche correspondant au critère de sortie sélectionné, d’indiquer la date de survenue de “l’évènement”, conduisant automatiquement au calcul du délai indispensable à la construction de la courbe. Ce mode précis d’analyse est à développer en priorité car constituant certainement, avec l’analyse radiographique, le moyen le plus fiable, et sans doute le moins subjectif d’évaluation et de comparaison des séries entre elles, surtout à long terme.

Kaplan EL, Meier P – Non parametric estimation from incomplete observations – J Am Stat Assoc 457-481, 1958
Dobbs HS (1980) Survivorship  of total hip replacements. J Bone Joint Surg 62-B : 168-173

 

 

3 - Discussion

Le moment capital de la “discussion” est arrivé. Cette section de la “discussion” est en effet décisive, car souvent la seule qui sera lue par les lecteurs (pressés ou non…).

La tradition française voulait que l’on interprète les résultats au fur et à mesure. C’était logique et efficace. Malheureusement, les comités de lecture des revues anglophones se sont chargés de nous faire comprendre voilà déjà bien longtemps que cette logique là n’est pas du tout la leur : la section des résultats ne doit comporter que des résultats, et rien d’autre… pour la discussion, se reporter à la section “discussion” ! Le formatage obéit du reste à quelque chose de strict : il faut (en théorie) pour chaque paragraphe de cette discussion (1) une idée spécifique et une seule, (2) soutenue par un élément correspondant ou un point particulier de l’étude, (3) et confortée par une (ou plusieurs) référence bibliographique.

Le premier paragraphe reprend en général le résumé de la casuistique et des résultats, et le dernier servira de conclusion. Entre les deux, on peut aborder tous les sujets, à condition de ne pas “fourguer” un résultat complémentaire non explicité dans l’étude, et non soutenu par une référence indiscutable. Rappelons au passage qu’en général les références bibliographiques sont répertoriées en fonction de leur “ordre d’entrée en scène”…

 

Au total…

Voici bien des années, un article paru dans le “Lille Chirurgical” avait pour titre accrocheur “Résultats des prothèses de hanche”. Cet article concluait en substance : “Nous avons pris 100 prothèses au hasard, nous avons éliminé les complications, les résultats sont excellents…”. On comprend ce qu’avait voulu dire cet éminent auteur, mais il faut reconnaître que la méthodologie était pour le moins ambiguë !  Puissent les efforts de notre Communauté Orthopédique  déboucher sur un consensus de “bonne pratique” (le terme serait-il à la mode ?) concernant la publication de nos résultats.

Il est sans doute important (et peut être urgent) que l’évaluation de ces résultats prothétiques bénéficie d’un processus clarifié, défini et contrôlé par un organisme faisant autorité en la matière. Les conclusions de cette mise au point concernant l’évaluation des prothèses articulaires pourraient alors être proposées pour validation au niveau national, impliquant une publication “officielle” de ces règles de présentation dans la RCO, ou ailleurs… Il faut signaler en outre que la plupart des scores ont été définis voilà de nombreuses années, à une époque où les résultats n’étaient pas aussi performants chez des sujets bien moins jeunes et moins actifs, et que des scores plus “pointus” et discriminatifs devraient être progressivement mis en avant… Dans la mesure où cette démarche n’a, à notre connaissance, jamais été conduite de façon aussi exhaustive, on peut imaginer que ces normes de présentations puissent être ensuite présentées dans le cadre de l’EFORT à noscollègues Orthopédistes Européens pour discussion et consensus global… Vaste chantier !