측정 타당도에 대한 위협

행동 측정의 타당도는 측정이 간접적일 때, 잘못된 범주의 목표 행동이 측정될 때, 또는 산출된 자료가 실제 사건이 아니라 사건의 인위적 산물일 때 위협받는다.

간접 측정

직접 측정(direct measurement)은 '실험의 초점이 되는 현상이 측정하고 있는 현상과 정확히 동일할 때'를 말한다. 반대로 간접 측정(indirect reasurement)은 실제 측정하고 있는 것이 관심이 되는 목표 행동과 다소 다를 때를 지칭한다. 행동의 직접 측정은 간접 측정에 비해 좀 더 타당한 자료를 산출한다. 간접 측정은 2차적, 혹은 '걸러진 (filtered)' 자료를 제공하여 연구자 혹은 임상가가 측정한 사건과 실제 관심이 되는 행동 간의 관계를 유추해야 하기 때문이다(Komaki, 1998).

간접 측정은 연구자 혹은 임상가가 실제 관심이 되는 행동의 부산물을 측정할 때 발생한다. 간접 측정의 예로 아이가 친구들과 얼마나 자주, 그리고 잘 어울리는지를 측정하기 위하여 아이에게 질문을 하고 그 답을 이용하는 방법이 있다. 직접 측정치인 아이들 간의 정적, 부적 상호작용의 횟수를 이용하는 것이 더 좋을 것이다. 학교의 커리큘럼에 포함되어 있는 수학 능력 성취 정도를 평가하기 위한 지표로 표준화된 수학 성취 시험을 사용하는 것 역시 간접 측정의 또 다른 예이다. 학생의 성취 시험 점수가 학교 커리큘럼에 대한 능력을 타당하게 반영한 것이라고 받아들이기 위해서는 추론이 필요하다. 반대로, 최근 수업과정의 내용에서 발췌한 수학 문제로 만들어진 시험에서 얻은 점수는 학생의 커리큘럼 내 수행에 대해 추론할 필요가 없는 직접 측정치이다.

일반적으로 응용행동분석가는 간접 측정치를 사용하지 않는데, 이는 응용행동분석에서 사회적으로 중요한 행동을 목표로 설정하고 의미 있게, 즉 타당하게 측정하려는 ABA의 응용 차원을 지키려 하기 때문이다. 그러나 때때로 목표 행동에 접근할 수 있는 직접적이고 신뢰하는 방법이 없는 경우에는 간접 측정치를 사용하여야만 한다. 예를 들어 의학 절차에 대한 순응을 연구하는 연구자는 내담자가 집에서 어떻게 행동하는지를 직접적으로 관찰할 수 없기 때문에, 자기 보고 자료에 의존하게 된다.

간접 측정은 때때로 사적 사건 혹은 감정 상태에 대한 추론을 하기 위해 사용된다. 예를 들어 Green과 Reid(1996)는 중도 복합장애를 가진 사람들의 '행복'을 측정하기 위해 미소 짓는 횟수를 사용하였다. 그러나 반드시 간접 측정치를 이용해 사적 사건을 측정해 야 하는 것은 아니다. 자기 자신의 사적 사건을 관찰하도록 훈련받은 연구의 참가자는 관심의 초점이 되는 행동을 직접적으로 측정할 수 있다. 간접 측정 사용 시 연구자는 간접적으로 측정된 사건이 신뢰하고 의미 있는 방식으로 연구자가 결론을 내리고 싶어하는 행동을 대표한다는 증거를 제공해야 하는 책임이 있다. 다시 말해서, 자료의 타당도를 확신하는 자료 제공은 연구자의 몫이다. 타당도는 단순히 실제로 측정하려고 한 것을 측정했다고 해서 획득되는 것이 아니다.

이 점에 대하여 Marr(2003)는 에이브러햄 링컨의 일화를 살펴본다.

"이 당나귀는 몇 개의 다리가 있나요?"

"4개입니다. 링컨 씨."

"꼬리는 몇 개인가요?

"1개입니다. 링컨 씨."

"그렇다면, 우리가 꼬리를 다리라고 부르기로 한다면, 당나귀의 다리는 몇 개인가요?"

"5개입니다."

"아닙니다, 당신이 꼬리를 다리라고 부른다고 꼬리가 다리가 되는 것은 아닙니다."

목표 행동의 차원 잘못 측정하기

행동 측정의 타당도에 대한 문제는 간접적인 측정보다는 관심이 되는 행동 차원을 잘못 측정하여 발생하는 경우가 많다. 타당한 측정은 측정을 통해 관심 있는 행동에 대한 자료를 산출한다. 타당도는 행동을 측정하는 목적과 관련 없는 차원의 값을 측정할 때 문제 가 된다.

Johnston과 Pennypacker(1980)는 측정하려는 목적에 맞는 차원을 측정하는 것의 중요함을 강조하며 다음의 예시를 제시하였다. "항아리에 담긴 물의 온도를 측정하려고 자를 꽂아두는 것은 물의 깊이에 대한 신뢰하는 측정치를 제공하지만 온도의 변화에 대해서는 거의 알려 주는 바가 없다" 자의 측정 단위는 길이, 혹은 이 경우에 깊이를 측정할 때에는 적절하지만 온도를 측정하는 척도로 전혀 타당하지 않다. 물을 측정하는 목적이 차를 끓이기에 적절한 온도에 도달하는지를 파악하기 위한 것이라면, 온도계가 알맞은 측정도구일 것이다.

학생이 독립적으로 오랫동안 소리 내어 읽는 능력인 읽기 지구력을 측정하는 것에 관심이 있다면, 총 읽은 시간을 측정하지 않고, 1분당 바르게 읽는 단어와 수를 세는 것은 타당한 자료를 제공하지 못한다.

분당 읽은 단어의 수는 읽기 지구력 측정에 적합하지 않다. 읽기 지구력을 측정하기 위해서 임상가는 총 읽은 시간(예 : 30분)을 보고해야만 한다. 유사하게 능숙도 발달을 측정하고자 학생이 한 회기 동안 정반응을 한 회기의 백분율을 측정하는 것은 타당한 자료를 제공하지 못하는데, 이 경우 1분당 정반응의 수와 반응의 변화 비율(가속 속도)을 보고하는 것이 적절할 것이다.

측정의 인위적 산물

사회적으로 중요한 목표 행동과 관련 있는 차원을 직접 측정하는 것이 측정의 타당도를 보장해 주지는 않는다. 자료가 얼마나 정확하든 간에 행동을 의미 있게 (즉 타당하게) 대표하지 않는다면 타당도는 감소한다.

자료의 측정 방식 때문에 행동에 대한 부정확한 정보를 제공한다면 타당도는 감소하며, 이렇게 얻어진 정보를 인위적 산물(artfact)이라고 한다. 이전에 소개된 바와 같이, 측정의 인위적 산물은 측정 방식 때문에 생긴다. 측정의 인위적 산물을 일으키는 보편적인 원인으로는 비연속적 측정, 잘못 선택된 측정 기간과 민감하지 않거나 제한된 측정도구의 사용 등이 있다.

불연속 측정

행동은 시간에 따라 발생하고 변화하는 역동적이며 연속적인 현상이기 때문에, 지속 측정은 행동 연구에서 황금률이다. 지속 측정은 관찰 기간 동안 관심이 되는 반응군의 모든 행동의 사례를 측정하는 방법이다 (ohnston & Pennypacker, 1993a). 반면 불연속 측정은 관심이 되는 반응군의 일부만 측정하는 방식을 말한다. 불연속 측정은 비록 정확하고 신뢰한다 하더라도 인위적 산물을 산출할 수 있다.

Thonson, Homber와 Baer(1974)의 연구는 불연속 측정에 의해 나타날 수 있는 자료의 인위적 산물로 인한 가변성의 정도를 잘 보여 준다. 경험이 많은 한 명의 관찰자가 64분의 회기 동안 유치원에서 4명 참가자(2명의 교사, 2명의 학생)의 행동을 측정하기 위해 3개의 각기 다른 시간 표집법 관찰 절차를 사용하였다.

Thonson과 동료들은 3개의 시간 표집법 절차를 근접 절차, 대체 절차, 순서 절차로 지칭하였다. 각각의 시간 표집 절차를 이용해 관찰 시간의 1/4(16분) 동안 4명의 참가자를 관찰하였다.

근접 절차 사용 시 관찰자는 회기의 첫 16분 동안 참 가자 1의 행동을 기록하였으며, 다음 16분 동안 참가자 2의 행동을 기록하는 방식으로 4명의 모든 참가자의 행동을 관찰 측정하였다. 대체 절차에서는 회기의 처음 절반 동안 참가자 1과 2가 번갈아 관찰하였으며, 같은 방식으로 남은 절반의 시간 동안 참가자 3, 4를 관찰하였다. 구체적으로 참가자 1은 처음 4분 동안 관찰되었으며, 참가자 2는 다음 4분 동안, 참가자 1은 다시, 그다음 4분 동안 관찰되는 등 32분 동안 같은 방식을 이용하였다. 다음 32분 동안 참가자 3, 4에게도 동일한 절차를 사용하였다. 순서 절차에서는 4명의 참가자를 순서대로 4분씩 관찰하였다. 참가자 1은 처음 4분 동안 관찰되며, 참가자 2는 그다음 4분, 참가자 3은 그 다음 4분, 그리고 참가자 4는 그다음 4분 동안 관찰되었다. 이러한 순서가 64분의 관찰 기간 동안 4번 반복되었다.

각 시간 표집법 절차와 관련하여 자료의 인위적인 가변성의 백분율을 알아보기 위해 Thomson과 동료들(1974)은 동일한 64분 동안 관찰자의 자료를 각 참가자를 연속적으로 측정하여 구해진 '실제 비율'과 비교하였다. 연구 결과 근접과 대체 절차가 목표 행동 측정 치와 가장 다른 결과(그러므로 타당하지 않은)를 산출하였으며(지속 측정과 50% 이상의 가변성을 보임), 순서 절차는 지속 기록에서 얻어진 자료와 가장 유사한 자료를 산출했다(지속 절차와 4~11%의 가변성을 보임). 이러한 한계점에도 불구하고 단일 관찰자가 한 회기 내에 다수 참가자의 행동을 측정해야만 하는 많은 응용행동분석의 연구에서 불연속 측정을 사용한다. 불연속 측정에 의해 생길 수 있는 타당도의 위협을 최소화하기 위해 관찰과 측정 기간을 주의 깊게 계획해야 한다. 빈번하지 않은 측정은 그것이 정확하고 신뢰하여도 인위적 산물인 자료를 산출한다. 단일 측정으로 목표 행동의 발생 여부를 알아낼 수 있을지라도, 이는 전형적인 행동 값을 대표하지 않을 수 있다. 일반적으로 간단한 보고서에 쓰일지라도 관찰은 매일, 혹은 자주 이루어져야만 한다.

이상적으로 관심이 되는 모든 행동은 발생할 때마다 기록해야 한다. 그러나 관찰 기간 동안 지속 측정이 가능하지 않다면, 표집 절차를 사용해야 한다. 표본이 관심이 되는 행동의 실제 값을 타당하게 추정한다면 의사결정이나 분석시 표집만으로도 충분할 수 있다.

관찰기간 동안 지속적으로 측정할 수 없을 때, 일반적으로 길고 덜 빈번한 간격보다는 회기에 균등하게 분포되어 있는 다수의 짧은 간격으로 목표 행동의 발생을 표집 하는 것이 좋다(Thonson et al, 1974; Thompson, symons, & Felce, 2000). 예를 들어 참가자의 행동을 30분 회기 동안 30개의 균등하게 분포된 10초의 간격으로 측정하는 것이 단 한 번 5분 측정하는 것보다 대표적인 자료를 산출할 수 있다.

너무 짧거나 너무 긴 관찰 간격으로 행동을 측정하는 것은 실제 행동의 발생을 과대 혹은 과소 추정하는 결과를 가져올 수 있다. 예를 들어 10분의 부분 동간 기록법에 의해 과제 이탈 행동을 측정하는 것은 매우 성실한 학생조차 과제에서 과제 수행이 적은 것으로 나타나는 자료를 만들 수 있다.

잘못 선택된 측정 기간

회기 간 환경 조건이 동일하며, 동시에 여러 회기 동안 행동이 발생한 확률과 발생하지 않은 확률이 비슷하도록 관찰 계획을 세워야 한다. 이러한 조건들이 충족되지 않을 경우 결과 자료는 대표적이지 않고 타당하지 않을 수 있다. 행동이 잘 나타나지 않는 시간과 장소에서 관찰을 시행한다면, 자료는 실제보다 높거나 낮아 행동의 실제 발생 정도를 대표하지 못할 것이다. 예를 들어 매일 20분 동안 진행되는 협동 학습 집단 활동에서 처음 5분 동안만 학생의 과제 수행 행동을 측정하게 되면, 실제 전체 활동에서의 과제수행 행동보다 훨씬 높은 비율을 가진 자료를 만들어 낼 수 있다.

자료가 치료 효과를 측정하기 위해 사용될 때, 관찰 시간을 가장 보수적으로 선택해야 한다. 즉 목표 행동의 발생 빈도는 치료 효과가 가장 나타나지 않을 것 같은 시간에 측정되어야만 한다. 감소를 목표로 하는 행동의 측정은 행동이 높은 반응 비율로 일어날 기간에 측정되어야 한다. 반대로, 행동을 증가시키는 것이 목적이라면 반응이 가장 적게 나타날 것 같은 시간에 측정되어야 한다. 만약 치료, 목적이 아니라면, 행동을 가장 잘 대표하는 관찰 시간을 선택하는 것이 중요하다.

민감하지 않거나 제한된 측정도구

인위적 산물은 관련된 값이 전체 범위를 탐지하지 못하거나 의미 있는 행동의 변화를 민감하게 탐지하지 못하는 측정도구를 사용할 때 생긴다. 도구가 최고나 최저점을 가지고 있어 수행 전체를 탐지할 수 있는 것처럼 보이는 경우, 행동이 그 범위 이상 혹은 이하로 발생할 수 없다고 생각하게 만들 수 있다. 예를 들어 학생의 읽기 유창성을 평가하기 위해 100단어의 문장을 주며 1분 안에 읽으라고 하는 것은 이 학생의 최대 수행이 100단어/분이라는 것을 보여 주는 자료를 산출하게 된다.

행동 변화를 너무 민감하게, 혹은 감지하지 못하는 도구는 발생한(혹은 발생하지 않은) 변화를 잘 반영하지 못한다. 예를 들어 제조 공장의 질을 향상시키기 위한 개입의 효과를 평가할 때 생산성 평가를 10% 단 위로 측정하게 되면, 생산한 직물의 생산성이 기초 선 인 92%에서 만족스러운 수준인 97~98%로 변화하였을 때 이러한 변화를 반영하지 못한다.

저작자표시 비영리 변경금지 (새창열림)

알아두면 쓸데있는 유용한 정보