이슈2024-08-01 15:23

‘무시할 수 있는’ & ‘무시할 수 없는’ 무응답

실제 사전 투표율 30% 대 여론조사 사전 투표율 50% 포함 오차로 인해 데이터 일반화에 심각한 오류 초래

김소현

KBS MBC SBS 3사의 2024년 총선 KEP 예측조사 평가 보고서를 본 적이 있다. 출구조사를 기본으로 하고 있지만, 수도권을 비롯해 전국의 55개 경합 지역구를 대상으로 사전 투표 득표율 예측을 위한 여론조사 결과가 포함되어 있었다.

놀라운 건 사전 투표했다는 응답자가 50%대였는데 반해 실제 사전 투표율은 30%대에 불과했다는 점이다. 지역구별 편차가 있지만, 여론조사와 실제 투표율 차이가 20% 내외였다. 윤리적으로 권장되는 일이기 때문에 실제보다 더 많은 사람들이 투표했다고 응답하는, 소위 ‘사회적 바람직성(Social Desirability)’ 탓으로 간주하기엔 너무 큰 격차를 보여주고 있다.

결국 여론조사에 답하는 응답자가 전체 국민을 대표하지 못하고 있는, 즉 ‘포함 혹은 범위 오차(Coverage Error)’가 적지 않다는 것이다. 어떤 이유에 의해서든 응답하는 사람들과 응답하지 않는 사람들, 가령 접촉 실패자 및 응답 거절자 간에 명백한 차이가 있음을 보여주고 있다. 특정 의견이나 인식이든 실제 행동이건 상관없이 말이다.

원론적 얘기지만, ‘무응답(Nonresponse)’은 여론조사에 참여하지 않는 응답자를 말한다. 응답하지 않는 이유가 관찰된 변수와 무관하다는 가정에 기반해 나타나는 무응답은 ‘무시할 수 있는(Ignorable)’ 수준이다. 응답하지 않는 사람들의 특성이 조사결과에 크게 영향을 미치지 않는다고 보고, 또 여러 가지 통계적 방식으로 무응답 대체를 할 수도 있다.

문제는 ‘무시할 수 없는(Nonignorable)’ 무응답이다. 응답하지 않는 이유가 관찰되지 않는 변수들과 관련되어 있고, 이들 변수들이 조사결과에 심각한 편향을 일으킬 수 있다고 가정한다. 접촉 실패자와 응답 거절자가 여기에 해당한다. 참고로 중앙선거여론조사심의위원회 접촉률 자료에 의하면, 이들의 비율이 90%를 넘는 것으로 알려져 있다(김영원 교수 페이스북 21년 3월 12일자 재인용).

이들의 특성이 조사결과에 크게 영향을 미칠 경우 우리가 얻은 데이터에 기초한 일반화가 심각한 오류를 초래할 수 있다. 사전 투표율 여론조사에 기반한 방송 3사의 2024 총선 출구조사 실패를 예로 들 수 있다. 시간과 비용 등이 뒷받침되어야 하겠지만, 당장은 접촉 실패자를 줄이기 위해 ‘재접촉(Call Back)’ 횟수를 늘려야 하고, 인센티브 등 응답 거절자를 줄이기 위한 다양한 방안이 모색되어야 할 것이다.

관련 태그:
공유하기:

관련 기사