粗点か、標準化された知能テスト得点か

粗点か、標準化された知能テスト得点か

Raw Versus Standardized Intelligence Test Scores

倉田正義*

 1972年6月の“British Journal of Mental Subnormality”に載ったJ. M. Throne教授の論文は、Bialer博士から反論を受けた。Bialer博士の主張する点とそれに対するThrone教授の応答は、多くの人々にとって関心のあるものであり、またそれらの討論は以下のごとくである。―編集部

Ⅰ-Throne教授の見解は根拠の確かなものか

Is Throne's Position Valid?

Irv Bialer**

 Throne(1972)教授は以下のような相互に補足的な結論を下している。(a)標準化された知能テスト得点は、遅滞児に課せられた学習の効果を評価する確かな基準を構成することはできない。(b)標準得点が導き出されるもととなる粗点のみがそのような評価を行うための完全で確かな基準として役立ちうる。Throne(1972)がこの結論を引き出した大前提は以下のものであった。

 第1にテストを行っているときの状況は、標準化群と遅滞児群では異なっている。なぜなら後者は加えられた処置の後に評価されており、しかも「……いかなる正常な標準化群のサンプルでもテスト前に学習を課されたことはなかったろうし、これからもないであろう。」。第2に「粗点は彼らが置かれている状況の影響を受けることなしに、被験者の実力をそのまま反映している。」

 Throne教授の論拠の主たる誤りは、標準化するために用いるサンプルが、与えられたテストによって測定された結果に関して、テストを課していないサンプルをも代表するという彼の主張である。しかし事実に照らしてみると、いかなる標準化されたテスト得点においても(たとえばそれが学習の効果を測定するテストや知的レベルを測るテストであろうと、また他のどんなテストであろうと)それを標準化するために用いるサンプルが、テストされるときまでに与えられた経験から利益を得た平均的な程度を反映するという仮説は盲目的である。たとえば、第4学年のアチーブメントテストの標準化を行う場合には、そのサンプルは第1学年、第2学年、第3学年でのその教科領域における訓練を受けていることを前提としている。言い換えるならば、標準化するために用いるデータが集められる前に、処置や訓練あるいは教授が、形のいかんを問わず、行われていることが必要である。さもなければ、標準化するに用いるサンプルは、ジョン・ロックの「タブラ・ラサ」の類の精神についてのテスト場面と同じになってしまうであろう。

 もし標準化することの主たる目的が、与えられたグループの平均的な行動を評価する基準を設定することであるならば、そのような検査器具で、ある種の精神的に遅滞した被験者を(ある処遇を決めるに先立って)テストすることは、彼らが一定の基準からどの程度逸脱しているかを知ることである。そのような逸脱がどこで起こるかということは、以下の二つの条件のうちのいずれかの場台である。すなわち、(a)被験者は標準化群と同じ種類の経験に前もって出会い、そして少なくとも平均的な標準化群の被験者が受けたと同じ経験からは何ら利益を得なかったこと。(b)被験者は適切に反応するに必要な経験を持たなかったこと。

 これらの条件のそれぞれは、処置や訓練や教授において異なった追跡研究を必要とすることを示すものである。ある遅滞児が一定の経験に出会ったことがあるか否かという疑問は、その遅滞児の過去に照らしあわせることによってはじめて確かめられるものである。

 上に述べた状態(a)の下で、被験者が標準化群に代表される総集団に課せられた経験(教育的、社会的、知的)から利益を得ることができないということの裏の意味は、これを考慮したプログラムが必要なことを示している。そのような条件は、通常一定のプログラムの効果を評価するために標準化された検査器具でもって、前後にテストすることを必要とするものではない。しかしながら、条件(b)の下では-標準的な被験者に匹敵する訓練を欠いていることを表している-意図的な働きかけは、外見上遅滞児の行動のレベルを「標準的状態」に効果的に向かわせるように計画されるであろう。これは知的遅滞児の処置に関する「標準化」の最近の考え方に一致している。その一定のプログラムが効果的であったか否かを我々がその後に決定できる唯一の方法は、その被験者の処遇(テスト)後の行動をその基準と比較することである。もしその標準に関して遅滞児被験者の機能のレベルを確定したならば、そのような(テスト後の)子供のテスト以外の成績を予測することが、やがてそれらのテストが予測的に用いられる他の子供たちにとっても、同様に論理的になしうるということが考えられる。

 Throne教授の言うダイヤモンドの光輝指数(Luminosity Quotient(LQ))のアナロジー(1972)を用いれば、磨きをまだかけていないダイヤモンド(「遅滞児」と読みかえる)は、磨く(「処置」と読みかえる)前にそれが標準のどれぐらい下にあるかを決定するために、商品としての販売(「効果的な行動」と読みかえる)に必要な標準的な価値を持っているかどうかを調べ、その後で、いろいろな大きさや形など(「標準化に用いるサンプル」と読みかえる)を持ったものに磨きをかけられたダイヤモンドのLQの基準にたとえられる。

 その場合、そのようにして出来上がったダイヤモンドを、すでに販売に適しているダイヤモンドと比較することによって、そのダイヤモンドの販売性を予測することを可能にするのである。加工していない宝石を、加工した宝石にくらべることは、すでに販売性のある宝石と同じようにするにはどれだけの加工を必要とするかを決定する場合には、有効である。このようにして処置後のテストによる被験者の成績は、他の被験者の今後の到達可能な成績を予測する場合に役立つのである。(すなわち、いかにして標準性というものが遅滞を持つ被験者に対し満足な一定の処置や訓練や教育を示しうるか)。

 Throne教授(1972)の主張の第2の誤りは粗点が常に処置の効果を評価する確実な基準であるという彼の主張である。

 まず第一に粗点と標準得点の妥当性をそれらが得られた状況に関して比較したとき、Throne教授は粗点が標準化するのに用いるサンプルのテスト項目への反応から引き出されるという事実に明らかに気づいてはいたが、無視する態度をとっているということである。実際標準得点はしばしば標準的なサンプルの異なったレベルでの平均粗点の機能をはたしている。それほど粗点は標準得点と同じくらいに標準化された得点なのである

 上で述べたように、教育的な目的および他の処置のために、その子供のある基準からのへだたりや、あるいはそのグループにおける彼の相対的な位置の程度を知ることが必要な場合が多い。これらの変化しやすいものは粗点のみからは評価され得ない。加えて、ある子供の前のテストと後のテストの粗点を比較することは、課せられた処置により、機能に増加が起こったか否かを明らかにするが、一方その増加の絶対的な大きさやあるいは後の方のテストの粗点それ自身は、何らその二つのテストの間に行われたプログラムが正常な子供に近い精神遅滞児において成功したかどうかを意味するものではない。これは、標準から逸脱した子供の標準得点とその標準とを比較すること、すなわち彼のテスト後の結果をその年齢の平均的な子供の典型的な結果と比較することによってのみなされうる。

 Throne教授(1972)はまた標準得点と対照して以下のように論じている。もし人が被験者自身に関しての成績のレベルを測定したいと望むならば、粗点がその処置の効果を評価するための唯一の確かな測定方法であると。精神遅滞児に対するWISCの臨床的な有用性に関する討論で、筆者(Bialer)は以下のように述べた。

 得られた粗点の大きさは、その人の属性に関する個人の相対的な立場を正確には反映しないので、与えられた標準に関してもまた彼の全体的な成績に関しても、粗点の属性を無視して直接的に比較することはできない。しかしながら標準得点は直接的に比較できる単位、たとえば標準偏差などによって基準グループに対するその個人の位置を表す。従って、いろいろな知能テストの下位尺度あるいは下位テストの部分の標準得点は、標準的なサンプルに対するその個人の位置を決定する手段を提供する。そのような得点はまたテストを受けた個人の長所と短所を分析するのに役立つ。それは与えられた下位テストによってひき出された心理学的過程あるいは教育的過程によってである(Bialer,1971)。

 一般に粗点は特別な項目に対する正しい反応の数や、あるいは大きさを単に反映しているに過ぎないので.それらは下位テストの得点やアチーブメント・テストの得点が、他の下位テストやアチーブメント・テストの得点よりも「よい」か「悪い」かというようなテスト間の関係が一見してわかるようなものではない。しかしながら、標準得点は特定の年齢や学年のレベルを知るための下位テストやアチーブメント・テストの平均的な粗点を考慮に入れているので、得られた粗点がどの程度標準からへだたっているかを、直接的に知ることができる。これはある種の心理学的な過程や学問的な主題のいずれかに関する個人内の相対的な長所と短所をみい出すのに役立ち、また特定の働きかけの必要な領域をも示している。

 その論点をさらに追求することはこの論文の目的とするところではない。しかしながら標準テスト得点の当を得ない「科学的・倫理的」な使用に関するThrone教授の警告にもかかわらず、以下のように結論づけることは避けられないように思われる。

 すなわち、標準化のデータから得られた標準得点は、その評価が臨床的なものであろうと研究目的のためであろうと、精神的に遅滞した子供たちに対する被験者と被験者以外の相互の評価の両方の確かな基準を提供するものであると。 

Ⅱ-Ⅰ.Bialer博士への反論

Reply to I. Bialer

John M. Throne

 Bialer博士が私に指適した第一の主な誤りは、標準化に用いるサンプルが、テストによって測定された成績に関して、テストを受けていないサンプルを代表するという私の主張である。Bialer博士はそれとは全く反対に、標準化に用いるサンプルは実際に処置を経験していると主張する。すなわち彼らは「生活の経験」が課されたと。もちろん彼らはそれを課されはしたが、これらは処置の概念におけるこれらの盲目的なものとは全く異なる種類の論議である。生活の経験は、その「処置」がいかなる形や強さを持とうとも、標準化のためのサンプルに影響を与えることはないのである。

 Bialer博士のあげている4学年の児童も、1学年から3学年までを経験していると仮定されているのだが、また処置(すなわち、施設収容、特殊教育、個人指導など)の意味における訓練やあるいは教授に関して行うべきものを何も持たない環境の下で、同じように経験したと仮定されているのである。

 標準化されたアチーブメント・テストのサンプルにはそうしたことはない。そのため、第4学年のアチーブメント・テストを受験することは次の場合だけ科学的、倫理的に妥当である。つまり、その得点が評価されるためにサンプルの得点と合致させられ、処置の効果を測る基点として用いるための、処置による混同が起こっていない場合である。

 我々はここで標準化されたテスト得点について述べている。その得点はそれらが同一のテスト項目で実施されるときの、前や途中やまた後で標準化に用いるサンプルのために広く行われている、同一の条件の下で得られたテスト項目についての行動尺度である。テストを行う以前や途中の、標準化の条件が、サンプルや被験者のテスト項目に表れた成績を互いに比較できることをいうのである(内在的な妥当性)。

 テストを行った後で、標準化された条件はそれによって測定された行動がテスト項目について機能的な関係を生む課題に関して、テスト以外の行動の比較可能なレベルを示しているということができる。すなわち、予測性(外部的な妥当性)である。それらだけでは、標準化されたテストの被験者の行動のレベルが測定された条件は大して重要ではない。なぜなら、それらの条件は被験者の行動レベルがそのサンプルのレベルと同様な条件の下で測定されるだろうということを保証するためにのみ標準化されなければならないからである。もしそうでなければ、いわゆる被験者の「標準テスト得点」は全く上の意味をなさない。標準化された条件では内部的意味と外部的な意味の双方における妥当性が欠けていると言ってよい。要するに、それらが人間の知能指数であろうとあるいはダイヤモンドの光輝指数であろうと、内部的あるいは外部的あるいはその両方において、妥当性があるためには、標準テスト得点はテストが標準化された条件の下で得られなければならない。さもなければ、それらは誤った得点であり、またそれらが低い知能や鈍いダイヤモンドをキラキラと輝くものにするために必要な処置の量を示す方法として、当を得たものにはならないであろう。

 Bialer博士によれば、私の第二の誤りは標準テスト得点の代わりに標準テストの粗点を擁護した点にあるとしている。Bialer博士は私が標準テスト得点は粗点から引きだされることに気づいてはいたが、しかしそれを無視していると言っている。私はこれに対して強く異議を唱えなければならない。私の意識は顕在的でありかつ注意深いものである。そのため、たとえば、標準テストの粗点に反映される被験者の行動は、標準化されない条件で得られるが、これらの行動によって代表される純粋に行動学上の用語で解釈される知的発達が、あらゆる行動を発達させるために用いられるのと同様のプログラム化する技術によって、とりくまれる際の原点あるいは核として使用されることを私は勧めているのである。

 いずれの場合においても、それらの成績を反映している粗点は、それにもかかわらず知能の指標なのである。なぜならば、それらは標準化されていない条件のもとで得られたからである。そのような得点はその後比較する目的や、また予測的な目的には役に立たないが、もし粗点がこれらの成績(まさにその蕃礎概念において絶対的であるものとして)の改善を目ざした処置の前や後で被験者の行動を反映するように期待されるのならばそれは見当違いのものである。もちろん改善の産物は標準化された教科のテストを経ての比較と予測を可能にする。

 核ということばは標準化されたテストの項目に反映された行動の全部の性質ではなく、暗示的な性質を含むことを意味する。例えば、WAISに関して言えば、そこには12項目からなる11の下位テストがあるのだが、それらの項目はたとえ標準化されていない条件の下で得点が得られても、知能を測定する心理学者によって得られた成績の総数を表している。WAISの下位テストや項目あるいは他の標準化された知能テストの項目は、科学者や臨床家や教育者にとって、知的に遅滞している被験者やその他の被験者か評価するテストとして役立っているだけでなく、項目それ自体が、一つのカリキュラムとしてもっと検討されてもよいように思われる。すなわち、これらのWAISの下位テストと項目は、専門家が検討して(もしそうする必要があるならば)、基礎的な教育や訓練を行う場合のプログラムを作る一つの知的な指標の意味を持つのである。

 個々の被験者(知的遅滞児であろうと平均的なレベルの子であろうとまた進んだ子であろうと)にとって、これは確かに主要なそして実際に唯一の考慮すべき事柄である。

参考文献 略

* 秋田大学教育学部助教授
**米国ニューヨーク州精神衞生・児童精神医学評価リサーチ・ユニット


(財)日本障害者リハビリテーション協会発行
「リハビリテーション研究」
1975年10月(第19号)33頁~37頁

menu