목표 행동의 타당하고 대표적인 자료를 얻을 수 있는 측정 체계를 고안하고, 정확하고 신뢰하는 자료를 산출할 수 있게 관찰자를 훈련시킨 다음에는, 자료가 실제로 얼마나 정확하고 신뢰하는지를 평가한다. 행동 자료의 정확도와 신뢰도를 평가하는 모든 절차에는 어떤 형태로든 측정 체계를 평가하는 절차가 필수적으로 포함되어야 한다.
측정의 정확도 평가하기
측정은 사건의 관찰 값(사건을 측정하여 얻어진 숫자) 과 참값이 일치할 때 정확하다. 자료의 정확도를 평가하는 이유는 명백하다. 누구도 문제가 있는 자료에 근거하여 연구 결과나 치료 결정을 내리고 싶어 하지 않는다. 구체적인 정확도 평가는 서로 연관된 네 가지 목적을 충족시킨다. 첫째로, 이는 분석 초기에 자료가 실험 혹은 치료 결정을 내리기에 충분한지 결정하는데 중요하다. 연구자 혹은 임상가가 자료의 정확도를 증명해야 하는 첫 번째 대상은 바로 자기 자신이다.
둘째로, 정확도 평가는 특정한 측정 오류를 발견하고 교정할 수 있게 한다. 이 장의 뒤에서 논의될 자료의 질을 평가하는 두 가지 방법은 신뢰도 평가와 관찰자 간 일치도- 연구자에게 측정 오류가 발생할 가능성을 알려 주지만, 이 두 접근 방식은 오류를 탐지하지는 못한다. 자료의 오류는 오로지 측정의 정확도에 대한 직접적인 평가로만 확인과 교정이 가능하다.
정확한 평가를 실시하는 세 번째 이유는 측정 오류의 양상을 밝혀 측정 체계를 향상시키고 수정하려는 것, 즉 측정 체계의 오류가 방향이 있고 수치로 표시되면, 자료의 오류를 조정할 수 있기 때문이다. 예를 들어 존의 자전거 컴퓨터가 실제 값이 58마일인 거리를 68마일로 반복적으로 측정한 경우, 자료를 손으로 수정할 수 있으며(이 경우 친구인 리에게 달린 거리가 잘못되었다고 말하기), 이후 측정이 좀 더 정확할 수 있도록 측정도구를 고칠 수 있다(이 경우 존의 자전거 컴퓨터에 설정되어 있는 바퀴의 원주 조정하기).
기계이든 관찰자이든 측정도구를 고치기 위해서는 도구로 얻어진 값과 참값을 비교해야 한다. 교통국의 주행기록계로 얻어진 측정치가 존의 자전거 컴퓨터를 고치기 위한 참값으로 사용될 수 있다. 스톱워치나 카운트다운 타이머와 같은 시간 기록 장치가 기준인 원자시계 9)와 차이가 없다면, 혹은 차이가 미미하다면 잘 고쳐졌다고 볼 수 있다. 측정의 목적상 유의미한 차이가 발견되면, 시간 기록 장치는 기준에 맞춰 재조정해야 한다. 분석의 초기엔 정확도를 자주 평가해야 한다. 정확도가 높다면 기록장치의 수정을 위한 평가를 반복하지 않아도 될 것이다.
정확도 평가를 시행하는 네 번째 이유는 자료가 정확하다는 것을 소비자에게 확인시키기 위해서이다.
연구에서 정확도 평가는 독자가 해석에서 제시된 자료를 신뢰할 수 있는지를 판단하게 해준다.
참값 구하기
"측정의 정확도를 평가하는 유일한 방법은 참값과 관찰 값을 비교하는 것이다. 비교는 상대적으로 쉽다. 문제는 적합하게 행동의 참값을 구하는 것이다." 앞서 정의한 것과 같이, 참값은 독립적인 방법에 의해 얻어지는 측정치로, 자료 산출 방법이나 오류를 줄이기 위한 연구자의 노력에 영향을 받지 않는다. 어떤 행동의 참값은 분명하고 전 세계적으로 받아들여진다. 예를 들어 수학이나 철자 외우기와 같은 학업 영역에서 참값을 얻는 것은 간단하다. 수학 문제 2+2=?는 4라는 참값을 지니며, 영어 단어 철자의 정확도를 평가할 때에는 옥스퍼드 영어사전에서 참값을 구할 수 있다. 5) 응용 연구자와 임상가의 관심이 되는 많은 사회적으로 중요한 행동의 참값은 각각의 맥락에서 상황적으로 정해진다. 예를 들어 요리학교의 학생에게 하는 "육즙을 농축시키는 데에 적당한 3개의 전분 이름을 대라."와 같은 질문에 대한 전 세계적인 참값은 존재하지 않지만 교사의 수업자료에서 이에 대한 참값을 찾을 수 있다.
앞선 예의 각 참값은 측정과는 독립적인 절차로 얻어진 것이다. 응용행동분석에서 연구되는 많은 행동의 참값을 확립하는 것은 어려운데, 참값을 결정하는 절차는 참값을 비교하고자 하는 자료가 얻어진 측정 절차와 달라야만 하기 때문이다. 예를 들어, 아이들의 협동놀이와 같은 행동의 참값을 결정하기는 어려운데, 행동에 어떠한 값을 부여하는 유일한 방법은 처음 자료를 얻기 위해 사용된 절차와 동일한 절차로 측정하는 것이기 때문이다. 참값으로 보이는 값을 참값으로 오해하기가 쉽다.
예를 들어, 4명의 잘 훈련되고 숙달된 관찰자가 교사와 학생의 상호작용이 담긴 비디오테이프를 보았다고 가정해 보자. 이들의 작업은 교사가 학업 성취에 대해 칭찬하는 모든 경우에 대한 참값을 구하는 것이다. 각 관찰자는 테이프를 독립적으로 보고 교사의 칭찬의 수를 센다. 관찰한 것을 기록한 후, 4명의 관찰자는 자신들의 측정치를 비교하면서 불일치의 원인에 대해 토의한다. 관찰자는 다시 독립적으로 칭찬의 수를 기록한 후 다시 모여서 결과를 논의한다. 기록과 논의 과정을 여러 번 반복한 후, 모든 관찰자는 교사의 칭 찬에 대한 모든 경우를 다 기록하였다고 말할 수 있다. 그러나 연구자는 다음의 두 가지 이유에서 교사의 칭찬에 대한 참값을 구했다고 말할 수 없다. (a) 관찰 자의 측정이 교사의 칭찬에 대한 기준이라 할 수 없다. (b) 교사의 칭찬에 대한 측정 과정이 편향되었을 수 있다(예 : 관찰자 중 1명은 다른 사람이 제시한 측정이 참값이라고 확신했을 수 있다). 참값이 확립되지 않았을 때, 연구자는 자료의 질을 평가하기 위해 신뢰도 평가와 관찰자 간 일치도 측정에 의존해야만 한다.
정확도 평가 절차
측정의 정확도는 참값과 측정한 각 측정치 혹은 자료가 얼마나 일치하는지를 계산하여 확인한다. 예를 들어 30단어 철자 시험에서 학생의 수행점수에 대한 평가자의 정확도는 평가자가 매긴 각 단어의 점수를 실제 사전에서 찾아진 단어의 참값과 비교하여 얻을 수 있다. 평가자가 정답이라고 채점한 단어가 사전의 바른 철자 배열(바른 철자법)과 일치하거나 사전과 일치하지 않는 배열을 평가자가 틀렸다고 채점하였다면 평가자의 측정은 정확한 것이라고 할 수 있다. 평가자의 평가가 총 30단어 중 29단어에서 참값과 일치하였다면, 평가자의 측정치는 96.7% 정확하다.
한 명의 연구자나 임상가가 자신이 모은 자료의 정확도를 평가할 수 있으나, 보통은 다수의 독립적인 관찰자가 평가하는 것이 일반적이다. BrowD, Dunne과 Cooper(1996)는 독해 능력을 조사한 연구에서 측정의 정확도를 평가하는 과정을 다음과 같이 설명하였다.
독립된 관찰자가 측정도구의 정확도를 평가하기 위해 학생의 1분 후에 다시 말하기 과제가 기록된 녹음을 평가하였다. 이는 1분 후 다시 말하기 과제에 대한 우리의 기록이 실제 정오 반응과 맞는지 확인하기 위해서였다.
관찰자는 학생 이름이 적힌 모자에서 한 학생의 테이프를 무선으로 골랐고, 테이프를 듣고 교사가 사용한 기준과 동일한 기준을 이용해 정오 반응을 기록하였다. 관찰자의 점수를 교사의 점수와 비교하였는데, 이 점수 사이에 차이가 있는 경우 관찰자와 교사는 테이프(즉 참값)를 함께 검토하여 차이가 난 이유를 알아내고 자료 용지와 표준 교정 도표의 오류를 수정하였다. 관찰자는 또한 관찰 시작 시간을 동일하게 하기 위해 테이프의 지속시간을 스톱워치로 측정하였다. 5초 이상 차이가 난 구간은 교사가 말하는 시간을 다시 설정하거나 분당 빈도를 다시 계산하도록 하였다. 그러나 모든 시간 단위는 5초 이내의 차이가 나타나 정확한 것으로 나타났다.
정확도 평가 보고하기
연구자는 자료의 정확도 평가에 사용되었던 절차뿐 아니라 정확도를 확인하기 위해 사용되었던 측정치의 숫자나 백분율, 정확도 정도, 측정 오류의 범위, 측정 오류가 자료에서 교정되었는지를 보고하여야만 한다. Brown과 동료들(1996)은 정확도 평가의 결과를 다음과 같은 서술로 보고하였다.
각 관찰자와 교사는 37개의 회기 중 23개의 회기에서 100%의 일치도를 보였다. 교사와 관찰자는 측정 차이를 보였던 14개의 회기에서 측정 오류의 원인을 찾기 위해 테이프를 함께 재검토하였으며, 이를 수정하였다. 다시 검토한 37개 회기에서 나온 정확도 자료는 표준 셀러레이션 차트에 제시되어 있다. 측정 오류의 정도는 1~3으로 매우 작았다.
정확도 평가에 대한 전체적인 설명과 결과를 보고 하는 것은 독자에게 모든 자료의 정확도를 평가하도록 도와준다. 예를 들어 연구자가 자료의 20%를 무선적으로 선택하여 정확도 평가를 했으며, 측정치의 97%는 정확하고 3%의 자료는 편향되지 않은 오류가 있었으며, 필요한 경우 측정된 자료를 교정하였다고 보고했다고 가정해 보자. 연구의 독자는 자료의 20%는 100% 정확하다는 것을 알 수 있으며 나머지 80%의 자료(정확도를 확인하지 않은 모든 측정치) 역시 97% 정확하다는 것을 확신할 수 있을 것이다.
측정의 신뢰도 평가하기
동일 사건을 반복적으로 측정하여 동일한 값을 산출하였을 때 측정이 신뢰한다고 말한다. 같은 관찰자가 동일한 시청각적 자료나 다른 형태로 보관된 영속적 행동 결과물에 대한 자료를 반복적으로 측정하였을 때 신뢰도가 수립된다. 관찰이 일관될 경우 측정은 더욱 신뢰한다. 반대로 반복적으로 관찰하여 비슷한 관찰 값을 구하지 못한다면 자료는 신뢰하지 않은 것으로 간주된다. 이는 측정 질의 일차적 지표인 정확도에 대한 우려로 이어진다.
그러나 앞서 반복적으로 지적한 바와 같이 신뢰하는 자료가 항상 정확한 것은 아니다. 앞서 세 친구에게서 나타났듯이 완벽하게 신뢰하는 (즉 일관된) 측정치도 완전히 틀릴 수 있다. 측정의 정확도를 결정하기 위해 측정의 신뢰도에 의존하는 것에 대해 철학자 Witgenstein(1953)은 다음과 같이 언급하였다. "이는 마치 신문기사가 사실인 것을 확인하기 위해 아침에 신문을 여러 부 사는 것과 같다." 그러나 많은 연구와 임상적 적용에서 모든 측정치의 정확도를 확인하는 것은 불가능하다. 어떤 경우 목표 행동의 참값을 측정하는 것은 어려울 수 있다. 각 자료의 정확도를 확인하는 것이 가능하지 않거나 실용적이지 않을 때, 혹은 참값을 구할 수 없을 때 측정 체계가 상당히 일관적이라는 것을 아는 것은 자료의 전반적인 신뢰도를 높이는 데에 기여한다. 비록 높은 신뢰도가 높은 정확도를 보장하지는 않지만, 낮은 수준의 신뢰도는 측정 체계의 문제를 규명하고 보완할 때까지는 자료가 의심스럽다는 것을 알려 준다.
행동 측정의 신뢰도를 평가하려면 관찰자가 같은 사건을 다시 측정할 수 있도록 자연적 혹은 유발된 영속적 행동 결과물을 필요로 한다. 예를 들어 학생의 글에서 형용사나 행위 동사의 수와 같은 변인의 측정치 신뢰도는 관찰자가 글을 다시 채점하여 확인할 수 있다. 부모가 아이에게 가족 저녁식사에서 보이는 반응 촉구(response prompts)와 피드백의 수와 유형에 대한 측정의 신뢰도는 관찰자가 가족의 식사 시간 비디오테이프를 다시 보고 재채점하여 앞선 두 측정치에서 얻어진 자료를 비교하여 구할 수 있다.
관찰자는 동일한 영속적 행동 결과물을 첫 번째 측정한 후 곧바로 재측정하지 말아야 한다. 이는 두 번째 채점에서 얻어진 측정치가 일차 채점에 대한 기억으로 영향을 받을 수 있기 때문이다. 이렇게 원하지 않은 영향을 피하기 위해 연구자는 관찰될 자료에 무선적으로 이전에 채점한 글이나 비디오를 삽입할 수 있다.