도구적 조건형성

학습
행동학습				인지학습			기계학습 ⊃ 심층학습
비연합학습		연합학습		사회학습	잠재학습	통찰학습	지도학습	비지도학습	강화학습
습관화	민감화	고전적 조건형성	도구적 조건형성

스키너 상자[1]

1. 개요2. 설명3. 관련개념

3.1. 조성(shaping)3.2. 연쇄(chaining)3.3. 향본능 표류(instinctive drift)3.4. 소거(extinction)3.5. 프리맥의 원리(Premack Principle)3.6. 청교도적 윤리 효과(protestant ethic effect)3.7. 미신행동(superstitious behavior)3.8. 학습된 무기력(learned helplessness)3.9. 간헐적 강화계획(intermittent reinforcement schedule)

3.9.1. 고정 간격 계획 (FI schedule)3.9.2. 변동 간격 계획 (VI schedule)3.9.3. 고정 비율 계획 (FR schedule)3.9.4. 변동 비율 계획(VR schedule)

3.10. 강화(reinforcement)

4. 관련 문서

[clearfix]

1. 개요

道具的條件形成 / Instrumental conditioning

도구적 조건형성은 조건형성을 일으키는 유기체 학습의 한 종류로 행동주의 심리학의 이론이다. 벌허스 프레더릭 스키너의 주도로 이론이 정립되었다. '작동적 조건화' 혹은 '도구적 조건화' 그리고 '조작적 조건화'으로도 불린다. 행동주의의 필수요소라고 해도 될 정도의 위치에 있는 이론이다.

2. 설명

조작적(operant) 조건형성과 도구적(instrumental) 조건형성은 비슷해 보이지만 살짝 다른 개념이다. 조작적 조건형성은 스키너에 의해 정립된 개념인 반면, 도구적 조건형성은 스키너뿐 아니라 손다이크 등의 다른 학자들의 연구까지도 포괄하는 개념이다.

손다이크(E. L. Thorndike)라는 연구자가 이미 쥐에게 미로를 달리게 하거나 고양이를 특수한 상자인 퍼즐박스(puzzle box)에 집어넣어서 빠져나오게 하는 실험은 많이 행한 바 있지만, 그것이 구체적으로 어떤 학습(learning)을 불러일으키는지에 대해서는 아직 불분명하고 미진한 점이 많았다. 또한 방법론적으로 손다이크의 디자인은 너무 손이 많이 가서, 동물이 미로를 빠져나가거나 퍼즐박스에서 뛰쳐나오면 그 동물을 도로 잡아서 미로나 상자에 집어넣어야 했다. 이 때문에 지속적이고 관찰하기에 용이하고 학습의 효과가 극적으로 나타날 수 있는 잘 통제된 실험이 요구되고 있었으며, 스키너가 실험 박스를 디자인하자 비로소 행동과학은 황금기를 맞이하게 되었다.

다른 행동주의 학자들은 연계 학습, 다시 말해 내용을 학습하는 과정이 이루는 유기적인 구조에 초점을 맞추었지만, 스키너는 결과가 어떻게 행동에 영향을 주는지에 더욱 관심을 기울였다.

스키너는 강화(reinforcement)와 처벌(punishment)을 통해서 유기체의 행동을 조절할 수 있음을 밝혔으며, 그 구체적 방식에 따라서 정적(positive)인 것과 부적(negative)인 것으로 나누어질 수 있음을 보였다. 여기서 혼동하면 안 될 것 한 가지는, 정적인 방법과 부적인 방법이라는 분류는 결코 가치 판단적인 것이 아니다. 정적인 방법은 주거나 더하는 것이고, 부적인 방법은 빼앗거나 줄여주는 것이다.

그가 정리한 바를 아래의 표로 정리하면 다음과 같다.

		강화	처벌
		∼를 더 하게 한다	∼를 하지 않게 한다
정적(＋)	~를 제공하여	정적 강화	정적 처벌
부적(－)	~를 제거하여	부적 강화	부적 처벌

정적 강화: 반응 후 긍정적 자극을 제공하여 행동을 강화한다. 대표적 사례는 잘 한 사람에게 포상 휴가, 월급 인상을 해주거나 토큰 경제(token economy)를 들 수 있다.
부적 강화: 반응 후 부정적 자극을 제거하여 행동을 강화한다. 대표적 사례는 예비군 훈련을 열심히 하면 예비군 훈련을 조기 퇴소 시켜주는 것을 들 수 있다.
정적 처벌: 반응 후 부정적 자극을 제공하여 행동을 처벌한다. 대표적 사례는 수업 시간에 말 안 듣는 아이를 생각하는 의자에 앉히거나 나쁜 짓을 한 아이에게 체벌하는 것을 들 수 있다.
부적 처벌: 반응 후 긍정적 자극을 제거하여 행동을 처벌한다. 대표적 사례는 컴퓨터 게임을 일정 시간 이상하면 용돈을 줄이는 것을 들 수 있다.

3. 관련개념

3.1. 조성(shaping)

흔한 동물들이 복잡한 행동까지 척척 수행할 수 있는 이유 1. 어떤 한 동물에게 특정 행동을 시키고자 한다면, 먼저 그 행동을 세세하게 단계별로 나누어서 각 단계에 도달할 때마다 강화를 한다. 속담 중 "천릿길도 한 걸음부터" 가 잘 어울리는 개념. 예를 들어 실험쥐에게 레버를 누르도록 하기 위해서는, 먼저 실험쥐가 레버 쪽으로 몸을 돌릴 때 먹이를 주는 것부터 시작해야 한다.

3.2. 연쇄(chaining)

흔한 동물들이 복잡한 행동까지 척척 수행할 수 있는 이유 2. 일련의 다양한 행동들을 순서대로 수행하도록 훈련시키는 것. 심지어 한 동물 조련사는 돼지로 하여금 진공 청소기를 돌리고 빨래를 주워서 빨래통에 넣은 다음 식탁에 올라서 아침 식사를 하는 것까지 전부 성공시켰다.(…)심지어 미국의 한 동물원에서는 수상스키를 타는 다람쥐가 쇼에 출연하기도 한다! # 수명이 다할 때마다 그 자녀 다람쥐에게 대를 이어 수상스키를 가르쳐 온 것이 벌써 7대를 넘기고 있다고.

3.3. 향본능 표류(instinctive drift)

위의 동물 조련사가 발견하여 학계에 보고한 현상으로, 동물에게 본능에 정면으로 충돌하는 행동을 훈련시키면 아무리 노력해도 성과가 나질 않는다. 오늘날의 심리학자들은 본능이라는 표현을 그다지 좋아하지 않는다. 더 범용적으로 쓰이는 학술적 용어는 고정행동패턴(FAP; fixed action pattern). 시행을 반복하고 또 반복하더라도 동물은 해당 상황에서 본능에 이끌리기만 할 뿐. 이것은 학습의 한계로서 흔히 거론되는 부분이다.

다만 실험체의 뇌를 직접 조작하면 깨질 수도 있다. 뇌에 직접 빛 신호를 주면 인공 신호를 만들 수 있는데, 이렇게 신경 단위로 조작을 하면 조작된 대로 실험체가 움직여 고정 행동 패턴이 깨지는 것이다.

3.4. 소거(extinction)

고전적 조건형성과 마찬가지로, 학습된 행동은 소거시키는 것이 가능하다. 이 경우에는 학습된 행동을 보였을 때 강화물을 제시하지 않는 것. 물론 아래에 설명되겠지만 간간이 강화물을 제시하는 것이 꼬박꼬박 제시하는 것보다 효율이 더 좋고... 같은 맥락에서 간헐적 강화는 더욱 소거되기가 힘들다! 또한 마찬가지로 소거는 자발적 회복(spontaneous recovery)을 일으킬 수 있다. 일반적으로 실험쥐나 비둘기 등은 소거절차 중에 짜증을 내거나 레버 등을 물어뜯거나 또는 근처에 있던 아무 잘못도 없는 동료를 공격하기도 한다.

3.5. 프리맥의 원리(Premack Principle)

상대적으로 발생 가능성이 높은 행동은 상대적으로 낮은 행동에 대한 강화물이 된다. 이것을 프리맥의 원리(Premack Principle)라고 부른다. 예를 들어, 어떤 쥐가 ~~좀 당연하지만~~ 물 마시는 것이 쳇바퀴 돌리는 것보다 더 잦다고, 다시 말해 물 마시는 행동이 더 가치 있는 행위라고 선호된다고 가정하자. 이 쥐가 쳇바퀴를 열 바퀴 돌려야만 물을 마시도록 허용한다면, 이 쥐는 물을 마시기 위해 기꺼이 쳇바퀴 속으로 뛰어들 것이다.

3.6. 청교도적 윤리 효과(protestant ethic effect)

열심히 원반을 쪼아서 가끔씩 먹이를 받는 비둘기의 곁에다 아예 먹이로 가득차 있는 컵을 가져다 두면 어떻게 될까? 이 비둘기는 편안히 무위도식하며 컵의 먹이를 즐기는 대신, 그것은 거들떠보지도 않고 열심히 원반 쪼는 일만 반복하는 경향을 보인다. 이를 두고 "정당하고 성실하게 땀을 흘려 일하고, 그 보상을 당당하게 받으라"는 청교도 윤리가 떠올랐는지, 연구자들은 구태여 힘들게 일해서 약간의 소득만으로 만족하려 하는 비둘기들의 행태에 "청교도적 윤리 효과"라는 이름을 붙였다.

3.7. 미신행동(superstitious behavior)

동물이 어떤 행동을 하는 동안 강화물이 아무런 규칙도 조건도 없이 무작위로 제공된다면, 동물은 단지 우연에 의해 동시에 발생한 자신의 행동을 그 강화물과 잘못 연합하여 계속 반복하게 된다. 스키너의 비둘기들은 날개를 밟고 서거나, 빙글빙글 돌거나, 날개를 퍼덕거리는 등의 아무짝에도 쓸데없는 행동들을 보였다. 인간의 경우? 보란 듯이 미신행동이 쉽사리 생겨났다. 대학생들을 대상으로 한 어느 연구에서 한 여성은 아무 의미없는 점프를 지쳐 쓰러질 때까지 반복했다.

간혹 이를 두고 인류의 종교성의 근원이라고 설명하는 과학자들도 있으나 그건 좀 극단적인 경우고, 대체적으로는 단지 이런 미신이나 징크스가 종교적 성향과 관련이 있다고 보는 정도이다. 예를 들면 사다리 밑으로 지나가면 재수가 없다든가 하는... 한편 동기심리학의 관점에서는 지각된 통제감(perceived control)이 높을수록 미신행동을 겪기 쉽다고 보고 있으며, 이것은 미신행동 출현의 개인차를 일부 설명할 수 있다. 사실 이것은 어떻게 보면 상당히 의미심장하다. 바꿔 말하면 자신감과 자긍심이 더 높고 더 낙관적이며 매사 적극적이고 동기부여가 된 사람들이 매사 무기력하고 수동적이며 쉽게 포기하는 사람들보다 더 미신행동을 많이 겪는다는 뜻이기 때문. 지각된 통제감이 높은 사람들은 자신에게 닥쳐오는 일들을 자신이 통제할 수 있고 해결할 수 있다고 믿는 경향이 있는데, 이것이 이들로 하여금 세상에는 자신이 통제할 수 없는 것도 있다는 현실을 받아들이지 못하게 한다. 이 때문에 실제로는 패턴이나 연합이 없는 무선적 자극이라도 이들은 끝까지 포기하지 않고 어떻게든 가짜 연합을 형성하려고 한다고. 연구자들은 이를 두고 "통제망상"이라고 부른다.

또한 이러한 미신행동이 잘 없어지지 않는 이유는 대부분 '실패해도 손해가 없기 때문'이다. 예를 들어 빨간 속옷을 입고 시험을 치렀는데 우연히 자신의 노력이나 능력보다 결과가 좋았다고 한다면 '이 결과는 빨간 속옷을 입었기 때문이다'라는 일상에서 일어날 만하지만 약간 특별한 행동에 강화가 작용해 다음부터 시험 볼 때 빨간 속옷을 입는 행동의 빈도가 증가하는 것이다. 하지만 빨간 속옷을 입고 시험을 치렀는데 시험을 망쳤다면 시험을 망친 이유가 빨간속옷 때문이었다는 처벌은 잘 이루어지지는 않는다는 것이다. 물론 반대도 가능하다. 빨간 속옷을 입고 시험을 망쳤을 때 전혀 연관이 없는 빨간 속옷을 입는 행동이 처벌을 받아 시험날에 빨간 속옷을 입는 행동을 피하게 되는 미신이 생기는 수도 있다.

3.8. 학습된 무기력(learned helplessness)

오늘날 긍정심리학의 창시자로 여겨지는 마틴 셀리그먼(M. Seligman)은 사실 1960년대 젊은 시절에는 조건형성을 연구하던 행동과학자였다. 그러다가 정말 우연히도 의도치 않게 학습된 무기력이 발견된 것. 당초 그는 셔틀박스를 활용한 실험에서 처음부터 공포반응과 연합된 소리 신호를 주어서, 최초 시행부터 개가 성공적으로 전기 충격을 회피하게 하는 것을 시도중이었다. 기존의 셔틀박스 연구는 개가 점차 셔틀박스 내에서 전기 충격 회피방법을 학습해 나가는 식이었기 때문. 따라서 그는 미리 밖에서 개를 묶어두고 충분히 소리 신호와 전기충격을 연합시킨 뒤 셔틀박스에 넣었다. 셀리그먼의 가설대로라면 첫 시행부터 보란 듯이 멋지게 안전 지대로 회피해야 했으나, 학습된 무기력이라 불리게 된 뜻밖의 현상으로 인해 이 개는 결코 전기 충격을 피하지 않았다. 셀리그먼은 이것을 우울증의 이해에 활용할 수 있으리라고 보았다. 대조적으로, 과거에 어려움을 극복한 경험이 있는 개체들은 학습된 무기력에 쉽게 빠지지 않는다.

3.9. 간헐적 강화계획(intermittent reinforcement schedule)

매번 행동이 나올 때마다 강화하는 것보다, 예측할 수 없는 시간간격으로 강화하는 것이 훨씬 빠르고 효과적인 학습이 가능하다. 고정된 수치를 활용하는 경우와 변동 수치를 활용하는 두 가지로 나누어질 수 있으며, 여기서 다시 비율을 활용하는 경우와 간격을 활용하는 경우로 나누어져서 2 by 2 매트릭스가 만들어진다.

이렇게 만들어진 schedules of reinforcement에는 아래 4가지 분류가 존재한다.

고정 간격 계획: fixed interval schedule (FI)
일정한 시간 간격을 두고 강화를 제공하는 방식.
변동 간격 계획: various interval schedule (VI)
변동적인 시간 간격을 두고 강화를 제공하는 방식.
고정 비율 계획: fixed ratio schedule (FR)
일정한 수의 반응마다 강화를 제공하는 방식.
변동 비율계획: variable ratio schedule (VR)
변동적인 수의 행동마다 강화를 제공하는 방식.

변동적(variable)이라고는 해도 한 수치값을 두고 일정한 범위 안에서 변동값을 조절하는 것이 보통이다. 간격이 너무 벌어지거나 너무 좁으면 유기체가 강화를 받아들이는 데에 어려움을 겪을 수도 있기 때문.

가장 효과가 좋은 것은 "변동 비율 계획"(VR schedule)로 알려져 있다. 이는 또한 보상을 자주 제공하지 않아도 되기 때문에 효율적이기도 하다. FI schedule < VI schedule < VR schedule ≤ FR schedule 정도의 효율성을 보인다고.

3.9.1. 고정 간격 계획 (FI schedule)

fixed interval schedule

일정한 시간 간격마다 강화를 제공하는 방식. 예를 들자면, 한 달마다 월급을 받는 ~~이 사회를 살아가는 대부분의~~직장인들의 상황을 예로 들 수 있겠다.

3.9.2. 변동 간격 계획 (VI schedule)

variable interval schedule

변동적인 시간 간격마다 강화를 제공하는 방식. 예를 들자면, 교수님이 수업 시작 전 무작위로 퀴즈를 본다고 공지하면, 학생들은 항시 퀴즈에 대비하기 위해 울며 겨자먹기로 공부를 해야할 것이다.

3.9.3. 고정 비율 계획 (FR schedule)

fixed ratio schedule

일정한 수의 반응마다 강화를 제공하는 방식. 예시로는 특정한 일을 아웃소싱 따올 때마다 이에 대한 커미션을 받는 프리랜서의 경우가 이러한 고정 비율 계획의 영향을 받고 있다고 할 수 있겠다. 특정 수의 가입자를 유도할 때마다 그에 대한 성과금을 받는 통신사 직원과 같은 경우에도 이러한 고정 비율 계획의 영향을 받고 있다고 볼 수 있겠지만, 통신사 직원의 경우에는 월급 또한 매달 통장에 따박따박 들어올 테니, 고정 간격 계획과 고정 비율 계획 양쪽의 영향을 받고 있는 것.

3.9.4. 변동 비율 계획(VR schedule)

variable ratio schedule

변동적인 수의 행동마다 강화를 제공하는 방식. 연구자들 중에 도박 중독을 조작적 조건형성으로 설명하는 경우가 있다. 도박 자체가 변동 비율 계획의 일종이며, 특히나 카지노 측에서는 더욱 교묘하게 도박에 빠질 수 있도록 장치를 해 놓기 때문. 1980년대의 한 실험에서는 비둘기들에게 평범하고 안정적인 수입원으로 원반과 먹이 그릇을 제공하고, "슬롯머신" 원반과 먹이 그릇이 주어졌다. 비둘기를 대상으로 한 조작적 조건형성 실험은 비둘기가 원반을 쪼면 먹이 그릇에 곡식 낱알이 떨어지는 식으로 구성된다. 슬롯머신 그릇은 처음 3일 동안 ~~신출내기 도박꾼들을 위해서~~ 비둘기들을 위해서 평범한 먹이 그릇보다 수입이 더 좋게 설정되어 있었고, 특히 가끔씩은 평소 먹이량의 5배만큼 크게 "한탕" 할 수 있도록 잭팟 기능도 있었다. 그러나 3일이 지난 후에는 잭팟이고 뭐고 평범한 먹이 그릇보다 한참 수입이 적게 바뀌었다.

이 비둘기들은 순식간에 도박에 중독되었다. 이들은 슬롯머신 원반이 부서질 정도로 맹렬하게 쪼아 댔으며, 먹이를 충분히 얻지 못해서 살이 쪽쪽 빠지는데도 불구하고 평범하고 안정적인 먹이 그릇은 거들떠보지도 않았다. 보다못한 실험자가 슬롯머신을 치우자 곧 이 비둘기들은 평범한 먹이 그릇으로 돌아왔으며 다시 살이 찌기 시작했다. 한동안 정상적인 생활을 한 뒤, 실험자는 이 비둘기들이 아직도 도박을 선호할지 궁금해져서 다시 슬롯머신 먹이 그릇을 놓아 보았다. 이 비둘기들은 아직도 정신을 차리지 못했으며 도박판에 정신이 팔린 비둘기들이 굶어죽을 것이 예상되자 실험은 서둘러 종료되어야만 했다. 이것은 생물체가 단순히 수동적이 아닌 능동적으로 학습을 한다는 증거이기도 하다.~~이래서 도박이 무서운거다(...)~~

3.10. 강화(reinforcement)

현대의 신경과학자들은 강화(reinforcement)라는 현상이 시상하부 속 "복측 피개 영역"(ventral tegmental area)이 도파민 신호에 관여하면서 발생한다고 생각하고 있다. 이 부위는 짧게 VTA라고 불리며, "행복 중추" 라고 불리는 아주 유명한 부위다. 쉽게 말하자면, 무엇이 강화받을 때 유기체는 행복과 비슷한 무언가를 경험한다는 얘기다.(…)

아이를 훈육할 때 아이가 바람직한 행동을 하였다면 그 행동을 강화하고, 바람직하지 못한 행동에 대해서는 처벌하는 것이 효과가 좋다. 바람직하지 못한 행동을 강화하면 그 행동이 되풀이될 가능성이 커진다. 아이가 마트에서 충동적으로 이것저것 다 사 달라고 버릇없이 굴어서 하는 수 없이 간식을 주어 달래준 상황을 가정해 보자. 이렇게 하면, 아이가 나중에 또 버릇없이 굴 우려가 크다. 간식을 받음으로써 버릇없는 행동이 강화되었기 때문이다. 버릇없이 굴면 간식을 얻을 수 있음을 학습한 것이다.

4. 관련 문서

[1] 스키너의 조작적 조건형성 이론