処置の効果を評価する原点としての粗点と標準知能得点:精神薄弱児にとっての意味

処置の効果を評価する原点としての粗点と標準知能得点:精神薄弱児にとっての意味

Raw Versus Standardized Intelligence Test Scores as Baselines for Assessing Effectiveness of Treatment : Implications for the Mentally Retarded

 標準知能テスト得点は、処置(指導または訓練)の効果を評価するための妥当な原点となり得るか。もしなり得なければ、標準テスト得点を求めるための粗点がそれに代わる確かなものとして役立つか。

John M. Throne*

倉田正義**

原点としての標準知能テスト

 原点とは行動段階を向上させるために行われる処置に先立って、現時点の遂行段階を測定するものである。すなわち、処置後原点の変化はその処置が成功したか失敗したかを示すものである。被験者の行動に対する処置のあり方は原点の概念の中に含まれている。しかし標準テスト得点は被験者の行動を反映するばかりでなく、標準化に用いたサンプルの行動をもかなり反映している。換言すれば、サンプルと被験者の行動がからみあっている。それ故に、サンプルと被験者の両方の行動を反映している標準知能テスト得点、あるいは他の標準テスト得点が、被験者の行動のみの処置の効果を評価するための妥当な原点として役立つことは不可能である。処置を受けないサンプルの行動も同様に標準テスト得点に反映しているからである。

 実際いかなる標準テスト得点に関しても原点ということばを用いることは自己矛盾である。標準テストではサンプルと被験者のテスト環境を同様にしなければならないので、いかなる条件における処置後の標準テスト得点も、処置の効果を測定することは論理的に成り立たない。標準テスト得点は、それが反映している行動が標準化に用いたサンプルに対して、テスト前及びテスト中の平均的な状況での機能であるときにのみ妥当である(Throne, 1972c)。

 すなわち、サンプルと被験者にとってのテスト前及びテスト中の平均的な環境は一致しなければならない。さもなければその基礎的な標準テスト得点は彼らのそれぞれの行動を比較する場合、標準化のためのテストを行う状況に内在する要因よりも、他の要因によって片寄りをもたせられる。そういう片寄りの要因が得られるものとして、標準テスト得点を、論理上、たとえば被験者の行動を予測する指標として解釈することはできない。

 サンプルと被験者がひとつの同質な母集団を代表するときにのみ、そのすべての構成員の行動が処置によって等しく影響を受けることが論理的に予想でき、標準テスト得点を算出するために彼らの行動を比較することができる。処置を受けないサンプルと受けた被験者がひとつの同質な母集団を代表することはとてもできない。もちろん処置はテストを受けないサンプルよりも受けた被験者に対しておそらく効果をなすであろう。そのため、処置後においては被験者の標準テスト得点は、標準化に用いたサンプルの標準テスト得点よりもいつも潜在的に高くなるであろう(「等しい」に代わって)。さらに処置が効果的である限り、標準テスト得点は実際に(単に潜在性としてでなく)高くなるであろう。

 処置に先立って標準化された状況の下で得られたテスト得点に比べて、肯定的方向に不当にゆがめられることになる。要するに、標準テスト得点は、実際には根拠の不確かな妥当性のないものである。その結果、処置後のテストの行動から算出されたテスト得点にち基づいて、被験者のテスト以外の行動を予測することは論理上決してできない。ところが、普通、標準テストの際の行動が標準テスト得点に換算される(処置の前後に)のは、テスト以外の行動を、予測しようとする目的のためにだけ行われるのである(Lindquist 1953, pp.323-325, 328-330 参照。for a related discussion of the issue of equipotentiality implied by population pool homogeneity in testing for treatment effects in analysis of coveriance)。

 もし宝石細工人が、カットし磨いたダイヤモンドから反射する光の量と、まだ磨きをかけていないダイヤモンドの光の量を比較するとしたら、もちろん前者の方が後者よりもより輝くであろう。カットし磨かれたダイヤモンドの光輝の程度は、まだ磨きをかけていないダイヤモンドの光輝よりもいつもまさっているだろう。例をあげるならば、カットし磨きをかけないダイヤモンド、すなわち標準化に用いたサンプルと比較することによって算出された「光輝指数(L.Q.)」は不当に高くなる。また全く逆のこともいえるわけである。

 いずれの場合においても得点の不当制は、サンプルの「行動」に対する「被験者」の行動が、もし「被験者」がカットされ磨きのかけられたものであり、それに対しサンプルが磨きのかけられないものであるならば、高い方に片寄るだろうし、もしそれが逆であったら、低い方に片寄ることは当然である。

 ダイヤモンドの「LQ」はおそらく標準テスト得点が算出されるのと同じ理由、すなわち予測的な目的、この場合ダイヤモンドの輝きと関連した結果(例えば販売性)を予測するために算出されるのであろう。しかしカットされ磨きをかけられたダイヤモンドは「処理」を受けなければならなかったし、その結果「LQ」を算出するためにカットされ磨きをかけたダイヤモンドを、「処理を受けていない」、つまりまだ磨きをかけられていないダイヤモンドのサンプルと比較するための、いかなる論理的な妥当性も「処理」という行為によって無意味となろう。もし「処理を受けた」ダイヤモンドの輝きに関して予測するとしたら、その予測は「処理を受けた」ダイヤモンドとそれと同様の、すなわち「処置を受けた」サンプルとの比較に基づいて算出されたLQによってなされなければならない。

 処理されていないダイヤモンドの場合も同様である。片寄りがあるとわかっている測定基準に基づいて、ダイヤモンドの輝きに関した「予測的な」結果を論ずることは、もっともらしく、高LQとか低LQとか言っても意味がない。そのような「予測」は、たとえもっともらしく粉飾されていようとも、理にかなった基礎をもたないであろう。

 たとえとしてのこの宝石は、処置の後にテストされた被験者の場合も同様に考えられる。そしてその被験者が、普通、標準化に用いるサンプルが、テスト前に処置を受けることのない平均的な環境の下で行動している場合と同じとは決して言うことはできない。(この点について筆者は標準化に用いるサンプルが異常児であるような標準テストを知らない。その場合なら彼らはテストに先立って処置を受けているそのようなテストはもちろん理論的にはその出現を妨げられるものではない。)そのような環境の下では、テストそれ自体についての被験者の行動によって、テスト以外の(たとえば教科的な)被験者の行動を仮定的に予測することは論理上期待できない。

 このように、処置の効果を実際にあるいは潜在的に反映している行動から引き出された被験者の処置後の標準テスト得点は、そうでないサンプルの標準テスト得点とは違って、かなり意味の薄弱なものである。もし標準テスト得点が本当に予測的な目的のために得られており、標準テスト得点の向上がテスト以外の行動にも反映されていると仮定されているが、標準テスト得点が処置後は本当に妥当性のないものであるならば、予測に妥当性をもたせる意味は減少し、それが全く可能であるかのようにふるまうのは無責任なことになってしまう。処置した後に算出された標準テスト得点に基づいてなされた研究は、えせ科学的なものに近く、一方、同様の得点に基づいてなされた臨床的、教育的、社会的な実践は不正行為に近いということが、上に述べたことの結果として生ずるように思われる。

 もちろん被験者とサンプルに対して課せられている環境は、理論上は常に一致しなければならないが、一方ではその二つが実際に常にあるいはたまにさえ、一致することは期待できない。しかしその二つが一致しない限り、処置に先立って得られる標準テスト得点でさえ不適切なものになるであろう。しかしながら処置の後では、標準テスト得点の不適切さについては、単なる傾向というほどのあいまいさもあってはならない。処置後に被験者に対し標準テストを課す際の環境は、サンプルにテストを課す際の環境とは当然一致しないので、処置後に算出された典型的な標準テスト得点もまた当然妥当性のないものに違いない。妥当な標準テスト得点はより高い妥当な解釈をもたらすであろうし、不確かな妥当性のない標準テストはより妥当でない解釈をもたらすであろう。妥当でない標準テスト得点に基づいた解釈に対して言うことができる最善のことは、その解釈が砂の上での安定ということである。

原点としての粗点

 もし仮に標準化されていないテスト状況の下で得られた標準知能テスト得点やその他の標準テスト得点が、処置の効果を測定するのに妥当性のある測定基準を構成しないとしても、それらの標準テスト得点が算出される元となる粗点は全く別問題である。粗点は、それが得られる状況がどうあれ、被験者の行動を反映するものである。テスト前及びテスト中に被験者とサンプルに対する状況を一致させなければならないという条件は、粗点が標準テスト得点に換算されるときにのみ適用される。標準化されていない状況の下においてさえ被験者の行動を反映している粗点は、教育の効果を評価するための申し分のない確実な原点として役立ちうる。

 粗点はこのように合理的なものであろうか。そうでないとしたら理由は何であろうか。標準知能テストという特定の例に関して言えば、粗点が反映している行動は全体として考えれば、標準知能テストを構成している個々のカテゴリーを、行動上の面のみを代表していると考えていいのではないか。たとえば記憶という行動は、記憶というカテゴリーを例示するのではないのか。言語理解に関する行動は言語理解のカテゴリーを、また算数の推理に関する行動は算数の推理のカテゴリーを例示するのではないのか。その他も同様ではないのか。これらと同様の行動は標準知能テストに含まれているのではないのか。なぜならば、それらは良かれ悪しかれカテゴリーの集まったもの、すなわち知能と名づけられた(行動的に解釈された)ものから成る客観的な構成要素と認められるからである、テストを作った人々が標準知能テスト(例えばスタンフォードビネーやウェクスラー)に長い間それを合意の上で含め続けてきたのではなかったのか。そのため被験者のうちに知的形成を目的とする重要な計画が合理的にくみ立てられる核を用意していないのだろうか。

 ここでは意図的に核という用語を用いる。粗点は標準テスト上に使用されれば意味がなく、標準化されない状況下で意味がある。粗点が反映する特殊な行動は、その行動の代表する個人と集団というカテゴリーの、あるいはそのカテゴリーを目的とした処置の効果の完全な又は最終の指標を与えるものとみなされるときに意味をなす、と解釈されるべきだからである。処置によって生じた行動の向上が、一転して最初の行動が関連していると考えられる他の行動(同じカテゴリーを代表しようと違ったカテゴリーを代表しようと)における向上をもたらすかどうかは、経験的な問題である。標準化されていないテスト状況の下で得られた粗点に適用される核の概念は、以下の場合のみ意味があるにすぎない、すなわち反映された行動と、あるいはその行動から論理的におし出された他の行動が妥当であり、かつ意味のある出発点としての、被験者の知能を向上させようとして行われる処置計画を準備することができる場合である。

 もちろん、そのような計画の範囲はあくまでも便宜的なものである。確かに、カテゴリーそのものと同じく、行動は標準知能テスト及びその他の標準テストのカテゴリーの客観性を仮定的に示すが、以下の方法を、あますところなく汲み尽くすものではない。その方法とは、これらの行動及びカテゴリーが代表する内容が測定されるかもしれない、あるいは測定されなければならない方法である。さらに、「副次的な効果と同様に目標とした効果の大きさ、長さ、および(あるいは)一般化する能力もあくまでも便宜的なものである(一般にすべての有効な基準はあくまでも便宜的なものである)。

 結局、標準テストの粗点によって反映された行動は、いわゆる標準テストの先駆者といわれる人々によって常に無視されてきた。すなわち、もし粗点が定量化されるならば、たとえば、ピアジェや彼の支持者たちによって、前もって仮定された知能の予測を表す行動は、確実にまた合理的に原点として用いることができる(たとえばPiaget and Inhelder,1969参照)。同様にしていわゆる階乗的な知能構造がギルフォードによって仮定された(1956)。

 確かに、処置によってもたらされた行動の向上が、一様にすなわちすべての被験者にわたって生ずることを期待することはできない。処置の効果は影響を及ぼす多くの他の要因によって、きわめてさまざまであろうことは疑いない、しかし粗点を標準テスト得点に換算しようとして誤って用いない限り、粗点を原点として採用することは、論理的に引き出そうとして処理される被験者よりも、被験者自身の処置の効果を予測することを少なくとも可能にするであろう。しかしそのような予測は、それでもなお、経験的に確かめられなければならない。

 ついでながら、テスト前及びテスト中に被験者とサンプルの状況の一致の必要性は、実験群に対する処置が終わった後に、実験群と統制群あるいは二つの実験群の行動を、比較のできるときにはすることを意味する。それらの比較が粗点に基づく限り、テスト環境にかかわらず、処置後にグループを比較することは、おそらく他の領域にも手がかりとなり、妥当なことである。しかしながら、標準テスト得点がそのような比較に基づくならば、それは妥当性のないものに違いない。これは先に強調したように、処置後の標準テスト得点の変化に基づく研究や実践で、二つのグループを比較するのは、当然のこととして科学的に言ってたいへんいかがわしいものであることを示しているからである。一致させることは処置を行うことや実験的な被験者に対する処置を妨げるものではない。つまり、その一致の必要性は古典的な実験群と統制群とによる研究の意図の妥当性を無効にするものではない。それはただそのような意図に従って処置の効果を測定する基準として標準テストを採用することを排するものである。一致の必要性は、テスト環境にかかわらず、この目的のために標準テスト得点に換算しない粗点を含めて、他の指標を用いることを排するものではないのである。

標準知能テスト得点と粗点を導き出す過程

 もし被験者の標準知能テスト得点及びその他の標準テスト得点が、被験者のみに関連した行動レベルを測定するものとして用いられるならば、被験者のその標準知能テスト得点とその他の標準テスト得点は、処置の効果を評価する妥当な測定基準として役立ちうるだろうと思われるかもしれない。標準化に用いるサンプルの行動レベルがテスト前及びテスト中にどのようなものであろうと。言い換えれば、被験者は彼自身のための標準化に用いるサンプルとして役立つであろう。しかしながら結局は、そのような見方は誤っているということが明らかである。

 標準テストによる得点を含んでいようといまいと、テスト前及びテスト中にサンプルと被験者に対して課している平均的な状況が一致することが、必要とされる。たとえサンプルと被験者が同一のものであろうとなかろうと。処置に先立って所与の被験者がサンプルであろうと被測定者であろうと、テスト環境を一致させることは論理的には可能である。しかし処置後では論理的に不可能である、標準テスト得点に換算されない粗点の場合においてのみ、サンプルと被験者に対する必要な一致が同一の被験者から成ろうと異なった被験者から成ろうと、有効な起伏がえられる。

 標準化に用いるサンプルの行動が得られるテスト状況のこの独立性が、まさに、すべての粗点に妥当性を与えるのである。たとえ、処理後のテスト状況が標準化されていない下での行動を反映してもである。いずれにせよ一定の例において、粗点は処置効果の一定の証拠つまり最小限のチェックに基づくときに論理的に解釈されうる。本質的に、これらのチェックは処置の修正に帰するので、原点に対する目標とした行動の勾配の度合いは、結果として高められたり低められたりする(Baer、Wolf and Risley,1968)。原点の変化は処置の効果を示すが、それに変化のないことは、処置の効果に関する疑問を残すことになる。効果がないことは効果をひき起こす要因が知られていないときにのみ説明されうる、そのため、失敗した処置の修正(効果のない処置)は成功した修正(効果のあった処置)を知ることができるという点でのみ理解されうる(Throne,1970)。

処置状況以外に対するテストの平均

 標準テストを課すときの平均的な環境と処置の環境とを区別することは、処置の効果を測るための標準テストでは不当であるが粗品では妥当となる。このことは標準知能テストやその他の標準テストで、知的遅滞児や他の行動異常児を測る意味を十分に理解するに致命的なものである(Anastasi,1968)。そのため、もし環境が例外的な、すなわち標準化されていない状況であるなら、標準テストを課す前の平均的な環境の下で遅滞行動をとる被験者は、理論的には正常に機能しているかあるいはそれに近いかもしれない。もっと一般的に言って、一定の状況下でのある反応がないからと言って、他の状況でもその反応がないだろうとは言えない。この原則は推理統計学の理論においては絶対的であり、その推理統計学では、価値のない仮説をしりぞけ実験仮説を受けいれるのに失敗することは、もう一方の実験状況の下で反対の結果が得られる可能性を否定するものではない(Throne,1970)。

 それ故に、標準テスト得点に基づいて行動を予測しようと意図するなら、テスト前の被験者に対する処置の特別な状況を与えることを排除し、サンプルと同じテスト前とテスト中の状況の平均的なものが強制的に与えられなければならない。しかし、もし行動の生産を意図するならば、標準テスト得点は不適当である。その際はテスト前及びテスト中にサンプルに対して課せられる平均的な環境を得る必要はない(Throne,1972 c)。実際、標準テストを課す際に基準に達していないのが典型的に見られるような被験者のために(そのような彼らに行動遅滞児という名をつけているように)、これらの行動を改善しようと意図するならば、そのような環境を用意してはならない。もちろん、処置という例外的な環境は彼らのためによりよく改善される必要がある。

 標準化を行うために用いるサンプルに対して課せられる、テスト前及びテスト中の平均的な環境が与えられない行動遅滞の被験者のために、処置は環境を合理的に模写したものを、配置あるいは再配置することを含む、ということが主張されるかもしれない。換言すればこれは、処置は被験者に対する平均的でないテスト環境を、標準化するために用いるサンプルが課せられる。平均的なレベルに近づける(上昇させたりあるいは下降させたりすることによって)ことを意味する。処置後の標準知能テスト得点や他の標準テスト得点は結局妥当であるかもしれないということになるように思われる。これは、被験者のあるものが標準知能テストにおいて典型的に低い行動を示すのを観察してこれらの被験者が知的に劣っているばかりでなく、遺伝子的な面においても劣っていることを仮定するJensen(1969)その他によって当然のわかりきったこととして考えられている見解である。

 もちろんJensenは、最近黒人に関してこの仮説を発展させたことで有名である。しかし過去も現在も多くの心理学者は同じ理由で知的遅滞の被験者についての同一の仮説を発展させて名声をはせるかあるいは悪名をはせるか(個人の選択だが)している。もちろん説明として、彼らはしばしば脳損傷、精神内部の葛藤との両方あるいはその一方を付け加えている。しかしながら否定的な出来事から引き出された結論に基づいて仮定することの非論理性はさておき(Throne,1971 b)、処置後に、サンプルと被験者のテスト環境が一致しないことによらずに、幾人かの被験者が低く反応したことの原因を仮定することは、控えめに言ってもむだなことである。

 標準テストが関係する場合、いずれもテストの平均的な環境は、標準化に用いるサンプルのテスト前及びテスト中の、これらの環境に正確に関連している。被験者のテスト前及びテスト中の環境は、これらの特定の平均的な環境(一般に平均的環境ではなく、サンプルの環境)に一致しなければならない。今や、処置の前やあるいは後で、だれが以下のことを主張しようとするだろうか。つまり標準テストを行うときの環境の下で、典型的に低く反応する幾つかの被験者群のテスト中の環境が、標準化に用いるサンプルのテスト前及びテスト中の環境とおそらく一致するだろうということを。だれがこれを遅滞児の場合に主張するであろうか。そして社会的に隔離されたものや失語症児や失読症児に対して同様に仮定するだろうか。だれがこれを黒人の場合に主張するであろうか。処置に先だって、比較的低い行動(サンプルの行動に比べて)を説明するのにテスト環境の不一致以外に、どういう理由で、また何に基づいて見通しを立てるか。処置の後に、不当に高い標準テスト得点がサンプルに比べて得られ、処置が成功したように思える場合も同様である。どちらの場合も、そういうテスト以外の被験者の行動を予測するのに、標準テストの当てにならないことに困惑させられる。

 標準化に用いるサンプルとは異なる標準テストの環境の下で、典型的に低く反応する被験者のある集団に関する第二に強調されることは(テスト前及びテスト中の両方のテスト環境に関して)、以下のことの重要さを減じない。その重要さとは、処置を受けないサンプルのテスト前及びテスト中の環境と比較して、処置後におけるすべての被験者のテスト前及びテスト中の環境が一致しないこと(平均以下はとりもなおさず、平均と平均以上に得点を示すものを含めてさえ)である。以下の二つの事実は多くの人々によって過去も現在も指摘されている。

 つまりその第一は、被験者のある集団は標準テストのサンプルに比較して明らかに不利(あるいは有利)にされていること、第二にその結果として処置前の行動とその後の標準テスト得点の比較は妥当ではないこと。また以下の事実は一般に見落とされている。すなわち、幾人かのあるいはすべての被験者の処置後の標準テスト得点の幾つか、あるいはすべては、たとえ処置前のサンプルに比較して、被験者が同等に有利にされているとしても、妥当ではないということである。論理的には第一点は第二点に対して包含的な関係にある。その結果、前にすでに触れたように、いかがわしい研究やほとんどいかさまに近い臨床的、教育的、社会的な実施をもたらすものが多くなる。

 明らかに低い行動を示す被験者の標準テストの環境は処置によって、標準化に用いたサンプルの環境と同じぐらい平均的なものとすることができるという考えは、以下の二つの区別をすることからくる。つまり被験者がよりよく機能するかもしなれい状況と、そのことを可能にするために状況を用意することの区別である。後者はほとんど例外的である。例外的な環境とは「高めること」や「刺激」といった統制の下に帰せられる計画が大部分共通にもっているものである。最近ミルオォーキーでRick Heberら(Strickland,1971)よって行われた長期間の研究は、ひとつの適切な例であろう。その研究は、標準知能テストやその他の標準テストに基づいて、疫学的に予想された社会的に不利な被験者の行動遅滞を改善しようとしたものであった。確かにその結果は、このような研究において被験者が処置後にテストする前に(すなわち処置の過程において)、課せられる環境には平均的なものはない。もちろん、一定の「高めるための」あるいは「刺激を与えるための」環境は、標準テスト得点の変化の中に反映された指標よりも他の指標によって判断されなければならない。その標準テスト得点の変化は、研究者(Heberらを含め)が実験に用いる被験者に対して影響を与えようとして行う処置の特定の環境を、有意味にしようとして援用するものである。

 幸いにも、標準化されていない測定基準における変化もいろいろ報告されている。たとえば、投影法、臨床的評価、自己報告など。実際により妥当な(あるいは少なくともより妥当でありうる)標準化されていない測定基準よりも、妥当でない(そして妥当でありえない)標準テスト得点が治療の効果を評価することにより多くの信用を得ているのは皮肉である。

 時折標準テスト得点は、テスト前及びテスト中にサンプルの平均的な環境の下に得られたものとして概念化されている。正確にはそうでないとしてもである。もし標準テストを行う際の必要条件が満たされなければ、必要条件が満たされているということが故意に主張されていることが多い。しかし他の方法によって正当化され得ないような得点を正当化するために、そのようなよそおいを用いるのは不当ではないだろうか、。標準テスト得点を正当化するために、そのようなよそおいを用いるのは不当ではないだろうか。標準テスト得点は理論的な手続きに基づいてではなく、経験的な手続きに基づいて引き出される。経験的な手続きが標準テスト得点の妥当性を決定している。少なくとも標準テスト得点を解釈する際に、理論的な仮定を経験的な事実に代えることは非専門的ではないのか。事実、被験者に対する効果は別にしても、テスト者の目的が研究や実践の有効性の自己妥当性にあるとき、科学的なものが含まれえようか。

結論

 標準知能テストあるいはその他の標準テスト得点の代わりに粗点が原点として用いられるときのみ、標準テスト過程は容易であり処置の過程は抑制的であるような条件の幾つかあるいは全部がしりぞけられるであろう。言い換えるならば、標準テスト得点に代わって粗点を尺度として用いるときにのみ、処置の効果を評価する目的に有効に用いることができる。確かに標準テスト得点の代わりに粗点に基づく手続きは、処置の制限の代わりに制限緩和の手続きであるが、研究者にも実践者にもあるいは被験者にも犠牲を課さない。それとは全く反対に粗点に基づく評価方法は彼らの最も主要な目的が完全に達成されるという可能性を高める(B. F. Skinnerの経験的な行動モデル。すなわち、オペラント条件づけをそのような評価方法に正確に適用することに対する幾つかの角度からの討論はThrone1970,1971a. b,1972a. b. cを見よ)。これらの論文は独立変数の有効性と依存変数の有効性はオペラント条件づけに基づく研究と実践における一連の作用によって経験的に決定されるという論点を共通してもっている、すなわち、オペラント条件づけの技法の適用によって与えられる刺激によって、反応の有効性を生じさせられ、刺激の有効性の測定が同時に生ずる。処置とその評価のすべての機能的な区別はそれによって不要となる。しかし区別を維持するとき、その相入れない矛盾によって生じるすべての問題が無視されてしまう。

参考文献 略

*米国カンサス大学
**秋田大学教育学部助教授


(財)日本障害者リハビリテーション協会発行
「リハビリテーション研究」
1975年10月(第19号)25頁~31頁

menu