R&E FOR YOU vol.10(2026년 02월)

I. 프롤로그 - "이 주제, 고등학생 연구로 가능한가"

생성형 인공지능이 교육 현장에 빠르게 스며들면서, 학생들은 어느새 인공지능을 자연스럽게 사용하는 세대가 되었다. 질문을 던지고, 답을 얻고 어느덧 요약과 설명을 요청하는 일은 더 이상 특별한 경험이 아니다.
그러나 한편으로는 늘 같은 질문이 남았다.
"이 인공지능은 어떻게 사람의 말을 더 잘 이해하게 되었을까"
"왜 어떤 답변은 더 자연스럽고, 어떤 답변은 그렇지 않을까?"

이러한 질문에서 이번 R&E 연구는 시작되었다. 연구를 제안한 학생들은 생성형 인공지능을 단순히 활용하는데서 멈추지 않고, 그 내부의 학습 구조를 이해하고 싶어 하였다. 특히 인간의 판단이 모델 학습에 어떤 방식으로 반영되는 지에 대해 강한 호기심을 보였다. 휴먼 피드백 기반 강화학습, 이른바 RLHF라는 개념은 이미 여러 논문과 사례를 통해 알려져있었지만, 대부분 대규모 연산 자원과 전문 연구 환경을 전제로 하고 있었다.

처음 이 주제를 접했을 때, 지도교사로서 가장 먼저 떠오른 생각은 "이것이 과연 고등학생 연구로 가능한가"라는 현실적인 고민이었다. 대규모 언어모델의 학습은 막대한 연산 자원과 장시간의 학습을 필요로 하며, 이는 일반적인 학교 연구 환경과는 거리가 멀다. 연구 주제의 학문적 의미는 분명하였지만, 그대로의 형태로는 R&E 연구로 수행하기 어렵다는 판단이 들었다.

그러나 동시에 R&E의 본질을 다시 떠올리게 되었다. R&E는 결과를 먼저 정해두고 그에 도달하는 연구가 아니라, 학생들이 연구자의 사고 방식을 경험하도록 돕는 과정이다. 완벽한 구현이나 최고 성능을 달성하는 것보다 구조를 이해하고 한계를 인식하며 질문을 정교하게 만들어 가는 경험 자체가 중요한 목표가 될 수 있다. 이 연구 역시 그러한 관점에서 다시 바라볼 필요가 있었다.

그렇게 이번 연구의 방향을 바꾸어 재정의되었다. "대규모 모델을 그대로 재현하는 연구"가 아니라 "경량 모델 환경에서라도 RLHF의 핵심 구조를 이해하고 직접 구현해본다"는 목적표로 연구의 초점이 옮겨졌다. 이 선택은 연구의 규모를 줄이기 위한 타협이 아니라, 고등 학생 연구로서 의미 있는 질문을 끝까지 탐구하기 위한 출발점이었다.

이제 이 웹진에서는, 하나의 연구 결과를 소개하는 대신 그 연구가 어떻게 가능해졌는지 그리고 그 과정에서 학생과 교사가 무엇을 고민하고 선택하였는지를 따라가 보고자 한다.

이 이야기는 완성된 인공지능에 대한 기록이 아닌 인공지능을 이해하려 하였던 연구팀의 1년 간의 여정에 대한 기록이다.

II. 학생의 이야기 - "우리가 이 주제를 선택한 이유"

안녕하세요. 저희는 경량 언어 모델을 활용한 휴먼 피드백 기반 강화학습(RLHF)을 주제로 1년간 R&E 연구를 진행한 정보 R&E 팀입니다. 생성형 인공지능은 이미 저희 일상에 깊숙이 들어와있었고, 질문을 던지면 자연스럽게 답을 해주는 도구로 익숙하게 사용하고 있었습니다. 하지만 그 답변이 어떻게 만들어지는지에 대해서는 깊이 생각해 본 적이 많지 않았습니다. 이번 R&E는 그 익숙함 뒤에 숨겨진 구조를 직접 들여다보고 싶다는 궁금중에서 시작되었습니다.

R&E 팀을 구성할 당시, 팀원들의 관심 분야는 서로 달랐습니다. 정보 분야에 큰 흥미를 느끼는 학생도 있었고 그렇지 않은 학생도 함께 팀을 이루고 있었습니다. 그런 상황에서 이번 주제는 다소 낯설고 어렵게 느껴지기도 하였습니다. 하지만 우리가 자주 사용하는 생성형 AI가 어떤 과정에 거쳐 발전 해왔는지를 따라가 보는 연구라는 점에서 팀원 모두에게 공통의 흥미를 끌 수 있는 주제라고 생각했습니다.

처음 제시된 연구 주제는 큰 방향만 정해져 있었기 때문에, 구체적인 연구 내용을 스스로 정해야 했습니다. 이를 위해 기본적인 인공지능 용어부터 다시 공부하며 GPT 모델의 발전 과정을 조사하였고, 사전 학습과 미세 조정 그리고 인간의 피드백이 어느 단계에서 어ᄄᅠᇂ게 활용되는지를 하나씩 이해해 나갔습니다. 이 과정에서 이해가 되지 않는 부분은 서로 질문하며 설명하였고, 정보에 익숙하지 않았던 팀원들도 점차 연구의 전체 흐름을 따라올 수 있게 되었습니다.

연구의 핵심 목표는 명확해졌습니다. 적은 연산 자원 환경에서도 휴먼 피드백 기반 강화학습이 의미 있는 성능 개선을 만들어낼 수 있는가를 직접 확인해 보는 것이었습니다. 대규모 모델을 그대로 재현하는 것이 아니라 경량 모델이라는 제한된 조건 속에서 RLHF의 구조적 원리를 이해하고 구현해보는데 초점을 맞추었습니다. 이를 통해 자원이 부족한 학교나 소규모 연구 환경에서도 생성형 AI 연구가 가능하다는 점을 보여주고 싶었습니다.

이제 연구는 단순히 "잘 작동하는 모델을 만드는 것"이 아니라, 인공지능이 인간의 판단을 어떻게 배우는지 이해하려는 탐구로 성격이 바뀌어 있었고, 앞에서 말씀해주신 선생님께서 고민하셨던 "이 주제가 고등학생 연구로 가능한가"라는 질문은 저희에게 "이 연구를 통해 우리는 무엇을 이해하고싶은가"로 바뀌어 돌아왔습니다.

III. 연구를 '가능한 연구'로 바꾸다.

1) 지도 교사의 선택과 설계

학생들의 문제 의식은 분명했고, 연구 주제 역시 학문적으로 충분한 의미를 지니고 있었다. 그러나 그 상태 그대로는 학교 연구 환경에서 감당하기 어려운 주제이기도 하였다. 대규모 언어 모델의 학습은 막대한 연산 자원과 장시간 학습을 전제로 하며, 이는 일반적인 교육 현장에서 쉽게 확보할 수 있는 조건이 아니었다. 지도 교사의 입장에서 가장 먼저 해야할 일은 연구의 의욕을 꺾는 것이 아니라 이 연구가 어디까지 가능할지를 냉정하게 판단하는 일이었다.

연구의 첫 단계는 주제를 '줄이는 것'이었다. 학생들이 처음 구상한 연구는 대규모 모델의 학습 구조 전반을 다루고, 실제 서비스 수준의 성능 개선을 확인하는 것을 목표로 하고 있었다. 최근 생성형 인공지능에 대한 관심이 급격히 높아진 상황에서 이러한 문제 의식 자체는 매우 자연스러웠다. 그러나 학교에서 활용 가능한 GPU 자원, 연구에 투입할 수 있는 시간, 그리고 학생들의 학업 부담을 함께 고려했을 때, 동일한 방향으로 연구를 진행하는 것은 현실적으로 무리가 있었다.

이 지점에서 중요한 선택이 필요했다. 연구를 중단할 것인지, 아니면 연구의 방향을 재설정할 것인지에 대한 판단이었다. 지도교사는 후자를 택하였다. 대규모 모델 학습 자체를 목표로 삼는 대신, 생성형 인공지능이 인간의 판단을 학습하는 핵심 구조를 이해하는 것을 연구의 중심에 두기로 하였다. 이를 위해 대규모 모델 대신 경량 언어 모델을 선택하고, 사전 학습 단계는 이미 학습된 모델을 활용한 방식으로 대체하였다.

이 선택은 단순한 타협이 아니었다. 오히려 연구의 성격을 명확히 드러내는 전환점이었다. 경량 모델 환경을 전제로 함으로써 학생들은 연산 자원과 시간 제약 속에서도 직접 실험을 설계하고 수정할 수 있는 여지를 확보할 수 있었다. 또한 모델 학습의 각 단계를 보다 명확하게 구분하여 이해할 수 있는 구조를 만들 수 있었다.

연구의 중심은 지도식 미세조정, 보상 모델 학습, 그리고 강화학습이라는 세 단계로 압축되었다. 이 과정에서 학생들은 생성형 AI 모델이 어떤 순서로 학습되는지, 각 단계가 어떤 역할을 수행하는지를 문헌 조사를 통해 정리하였고, 이를 실제 구현 과정과 연결하려 노력하였다. 특히 인간의 선호를 수치화하여 보상 모델로 학습시킨다는 개념은 학생들에게 새로운 관점을 제공하였다. 인공지능의 응답 품질은 단순히 정답 여부로 판단되는 것이 아니라 인간이 어떤 기준으로 '더 나은 답'을 선택하는 지에 따라 달라진다는 사실을 구조적으로 이해하게 된 것이다.

2) 연구의 구조를 따라가 본 학생들의 첫 단계

연구의 방향과 구조가 정리된 이후, 저희는 본격적으로 생성형 인공지능의 학습 과정을 이해하는 단계에 들어갔습니다. 단순히 코드를 구현하는 것이 아니라, 왜 이러한 구조가 필요한지, 그리고 각 단계까 어떤 역할을 수행하는지를 이해하는 것이 먼저라고 판단하였기 때문입니다. 이를 위해 가장 먼저 수행한 활동은 선행 연구 조서와 문헌 분석이었습니다.

초기 문헌 조사 과정은 쉽지 않았습니다. 강화학습과 언어 모델 학습 구조는 대부분 대학원 수준 이상의 내용을 포함하고 있었고 수식과 전문 용어가 많아 처음에는 내용을 따라가는 것 자체가 부담으로 느껴졌습니다. 특히 사전 학습, 지도식 미세조정, 그리고 휴먼 피드백 기반 강화학습이 서로 어떤 관계를 가지는 지 한 번에 이해하기는 어려웠습니다. 이 과정에서 저희는 논문을 그대로 이해하려 하기보다, 각 단계가 왜 등장했는지에 초점을 맞추어 정리하기 시작하였습니다.

문헌 조사를 진행하면서 저희는 GPT 모델의 학습 과정을 시간 순서대로 정리하였습니다. 대규모 텍스트 데이터를 활용한 사전 학습을 통해 기본적인 언어 구조를 학습하고, 이후 지도식 미세 조정을 통해 특정 응답 양식을 익히며, 마지막으로 인간의 선호를 반영한 강화학습을 통해 응답의 품질을 개선한다는 흐름을 하나의 구조로 이해하려 노력하였습니다. 이 과정에서 연구의 중심이 성능 향상이 아니라, 학습 단계 간의 역할 분담과 연결 구조를 이해하는데 있다는 점이 점차 분명해졌습니다.

특히 휴먼 피드백 기반 강화학습 단계는 저희에게 가장 낯선 개념이었습니다. '사람의 판단이 어떻게 모델 학습에 사용될 수 있는가'라는 질문은 단순히 개념을 아는 것만으로는 해결되지 않았습니다. 이에 저희는 여러 예시를 통해 동일한 질문에 대한 다양한 응답을 비교하며, 어떤 기준으로 더 나은 답을 선택할 수 있는 지 토의하였습니다. 이 과정에서 인공지능의 응답을 단순히 맞다거나 틀리다고 평가하는 것이 아니라, 정확성, 논리성, 정보의 충분성, 표현의 자연스러움과 같은 요소로 나누어 생각해야 한다는 점을 인식하게 되었습니다.

이러한 문헌 조사와 개념 정리 과정은 이후 실제 구현 단계로 넘어가기 위한 중요한 준비 단계가 되었습니다. 단순히 주어진 코드를 실행하는 것이 아니라, 각 코드가 어떤 학습 단계에 해당하는지, 그리고 그 단계가 전체 구조에서 어떤 의미를 가지는지를 이해한 상태에서 연구를 진행할 수 있었기 때문입니다. 연구 초반에는 오래 걸리고 진도가 더디게 느껴졌지만, 이 과정을 통해 저희는 생성형 인공지능 연구를 결과 중심이 아닌 구조 중심으로 바라보는 시각을 갖게 되었습니다.

IV. 연구 과정에서 마주한 가장 큰 어려움 - 인간의 판단을 어떻게 학습시킬 것인가

연구가 본격적인 구현 단계로 접어들면서, 가장 큰 난관은 기술적인 복잡성 그 자체보다도 인간의 판단을 어떻게 모델 학습에 반영할 것인가라는 질문이었다. 지도교사의 시점에서 보았을 때, 이 지점은 이번 연구의 성패를 가르는 핵심이었다. 휴먼 피드백 기반 강화 학습은 이름 그대로 '사람의 판단'을 학습의 중심에 두지만, 그 판단을 구체적인 규칙과 수치로 설계하는 과정은 결코 단순하지 않았다.

학생들 역시 이 어려움을 가장 직접적으로 체감하였다. 동일한 질문에 대해 여러 개의 응답을 생성해 놓고 비교해 보면, 어떤 답이 더 나은지 직관적으로 판단할 수 있었다. 그러나 막상 그 이유를 설명하려고 하면 말이 쉽게 나오지 않았다. "이 답이 더 좋아 보인다"는 감각은 있었지만 그것을 점수로 구분하고 기준으로 설명하는 일은 전혀 다른 문제였다.

이 과정에서 연구는 잠시 정체된 듯 보였다. 학생들은 평가 기준을 정하려 할수록 혼란을 느겼고 기준을 단순화하면 연구의 깊이가 얕아지는 것 같았다. 지도교사 또한 이 지점에서 개입의 방식을 고민해야 했다. 정답에 가까운 기준을 제시하는 것은 쉬웠지만 그렇게 할 경우 연구는 학생들의 사고를 확장시키는 경험이 아니라, 주어진 틀을 따르는 과제가 될 위험이 있었다.

결국 지도교사는 질문의 방향을 바꾸었다. "어떤 답이 맞는가"가 아니라, "왜 이 답이 더 낫다고 생각하는가"를 설명해 보도록 요구하였다. 학생들은 정확성, 논리성, 정보의 충분성, 표현의 자연스러움과 같은 요소를 하나씩 분리해 생각하기 시작하였고, 이 과정에서 인간의 판단이 얼마나 복합적인 기준 위에서 이루어지는지 체감하게 되었다. 이는 단순한 평가 기준 설정을 넘어, 인공지능이 무엇을 학습해야 하는지에 대한 인식의 전환으로 이어졌다.

이후 보상 모델을 학습시키고 강화학습 단계를 진행하는 과정에서도 어려움은 계속되었다. 학습 그래프와 손실 값은 즉각적인 변화를 보여주지 않았고, 오히려 강화학습을 반복할수록 예상과 다른 결과가 나타는 경우도 있었다. 학생들은 학습이 제대로 진행되고 있었는 지조차 확신하기 어려운 상황에서 여러 번의 실험을 반복해야 했다.

이 시점에서 학생들은 코드와 하이퍼파라미터를 다시 점검하며 문제의 원인을 하나씩 추적했다. 학습률과 배치 크기 설정을 바꾸어 보기도 하였고, 이전 단계의 학습 결과로 되돌아가 다시 실험을 수행하기도 하였다. 이 과정은 많은 시간을 요구하였지만 동시에 연구의 태도를 바꾸는 계기가 되었다. 결과를 빠르게 얻는 것보다 문제를 구조적으로 분석하고 원인을 추론하는 과정이 연구의 본질임을 깨닫게 된 것이다.

지도 교사의 입장에서 인상 깊었던 점은 학생들이 점차 "왜 안 되는지"를 묻기 시작했다는 것이다. 이는 연구가 단순한 실험 수행을 넘어 스스로 질문을 생성하는 단계를 진입하였음을 의미했다. 이 과정에서 연구는 비로소 휴먼 피드백 기반 강화학습이라는 주제에 걸맞은 형태를 갖추기 시작했다. 인간의 판단을 모델에 학습시키는 과정은 동시에 학생들 스스로가 판단의 기준을 성찰하는 과정이기도 하였기 때문이다.

V. 연구가 실제로 작동하던 시간들 - 반복과 수정 속에서 드러난 변화

앞에서 정리된 인간의 판단에 대한 고민은 이후 연구 과정에서 하나의 해답으로 해결되기보다, 실제 실험 속에서 적용되고 점검되는 기준으로 작동하기 시작하였다. 연구는 명확한 결론을 얻기 위한 단계라기보다 설정한 기준이 실제 모델 학습 과정에서 어떤 영향을 미치는지를 확인하는 과정으로 전환되었다.

학생들은 먼저 지도석 미세조정을 거친 모델을 기준점으로 삼아 동일한 질문에 대해 여러 응답을 생성하고 비교하는 실험을 반복했다. 이 과정에서 앞에서 논의했던 평가 기준들은 이론적 개념이 아니라 실제 응답을 해석하기 위한 도구로 사용되었다. 기준을 적용해 볼수록 그 한계 또한 분명해졌고, 학생들은 평가 요소를 조정하거나 표현 방식을 수정하며 기준을 다시 점검하였다.

강화학습 단계에 들어서면서 연구의 흐름은 더욱 느려졌다. 학습이 진행되고 있는지 확신하기 어려운 상태에서 여러 번의 반복 실험이 이어졌고 때로는 이전 설정으로 되돌아가 시험을 다시 수행해야 했다. 이 과정에서 학생들은 학습률이나 배치 크기와 같은 하이퍼 파라미터를 단순히 변경하는 것이 아니라 그러한 변화가 모델의 학습 과정에 어떤 영향을 미치는 지 설명하려 노력했다.

이 단계에서 주목한 것은 수치 지표의 상승 여부보다, 모델 응답의 변화 양상이었다. 강화학습을 거친 이후 이전보다 응답의 구조가 더 일관되게 유지되거나 질문과 직접적으로 관련되지 않은 정보가 줄어드는 모습을 관찰할 수 있었다. 이는 절대적인 성능 향상을 의미하기보다는, 연구 설계에 따라 나타난 변화의 방향을 확인한 결과였다.

**그림7** SFT-RM-PPO 파이프라인 진행 후 제작된 인공지능 모델

지도교사의 시점에서 이 과정은 연구가 가장 '연구답게' 작동하던 시간이었다. 학생들은 더 이상 빠른 결과를 기대하지 않았고, 실험이 원하는 방향으로 진행되지 않더라도 그 이유를 설명하려했다. 설정과 결과 사이의 관계를 추적하고, 실패한 실험 역시 하나의 자료로 받아들이는 태도는 연구가 단순한 구현 과제를 넘어 탐구로 전환되었음을 보여주었다.

이처럼 반복과 수정의 시간을 거치며 연구는 점차 하나의 흐름을 갖추게 되었다. 오나성된 결과에 도달했다고 말할 수는 없었지만, 최소한 왜 이러한 결과가 나타났는지를 설명할 수 있는 상태에는 이르렀다는 점에서, 이 단계는 이후 성과공유회로 이어질 수 있는 중요한 연결 고리가 되었다.

VI. 성과 공유회와 마무리 - 결과를 전하는 자리, 질문을 남기는 시간

연구의 마지막 단계는 결과를 정리하는 일이 아니라, 이 연구를 어떻게 전달할 것인가를 고민하는 과정이었다. 성과 공유회를 준비하며 가장 먼저 논의한 것은 얼마나 많은 실험 결과를 보여줄 것인가가 아니었다. 대신 이 연구가 어떤 질문에서 출발했고, 그 질문이 연구 과정 속에서 어떻게 확장되었는지를 전달하는데 초점을 맞추었다.

학생들은 발표 자료를 구성하면서 자연스럽게 연구 과정을 다시 돌아보게 되었다. 사전학습과 미세조정, 휴먼 피드백 기반 강화학습이라는 단계들을 단순히 나열하기보다, 왜 경량 모델을 선택하였는 지, 인간의 판단을 점수로 설계한다는 발상이 어떤 의미를 가지는지부터 설명하려 했다. 이 과정에서 복잡한 수식이나 세부 알고리즘 설명은 과감히 줄이고, 연구의 흐름과 핵심 구조가 드러나도록 내용을 재구성하였다.

발표를 준비하는 과정은 연구를 정리하는 시간이기도 하였다. 실험 결과를 다시 살펴보며 학생들은 성능 지표의 변화뿐 아니라, 실험 중 겪었던 시행 착오와 판단의 과정까지 함께 되짚었다. 강화학습 단계에서 문제가 발생했을 때 어떤 가설을 세웠고, 어떤 선택을 통해 해결에 이르렀는지를 설명하는 과정에서 연구는 결과 중심의 보고를 넘어 하나의 이야기로 정리되었다.

성과 공유회 당일, 학생들은 연구 결과를 '완성된 답'으로 제시하기보다, 한계와 질문을 함께 드러내는 방식으로 발표를 진행하였다. 데이터 규모의 제약, 피드백 기준의 단순화, 일반화의 어려움과 같은 한계는 숨겨야 할 약점이 아니라, 다음 연구로 이어질 수 있는 출발점으로 제시되었다. 이를 통해 연구가 단순히 잘 마무리되었다는 인상을 넘어 계속 확장될 수 있는 탐구라는 메시지를 전달하고자 했다.

지도교사의 시점에서 성과 공유회는 연구의 끝이 아니라 연구가 교육으로 환원되는 순간이었다. 학생들이 스스로 연구의 의미와 한계를 설명하고, 왜 이러한 선택을 했는지를 자신들의 언어로 풀어내는 모습은 그 자체로 이번 R&E의 가장 분명한 성과였다. 연구 결과를 설명하는 자리였지만, 동시에 학생들이 연구자로서 성장했음을 확인하는 뜻깊은 시간이었다.

VII. 에필로그 - 함께 연구한다는 것의 의미

김기범(지도교사) 이번 R&E 연구는 결과를 지도하는 일이 아니라, 질문을 함께 만들어 가는 과정이었다. 연구를 시작할 때 가장 많이 고민했던 것은 무엇을 가르칠 것인가가 아니라, 무엇을 남길 것인가였다. 대규모 모델을 그대로 따라갈 수 없는 환경 속에서, 학생들이 스스로 한계를 인식하고 그 안에서 의미 있는 질문을 던질 수 있다면 그것으로 충분하다고 생각했다. 연구가 진행될수록 학생들은 점점 정답을 묻기보다, 왜 그런 결과가 나왔는지를 설명하려 했다. 그 변화의 과정을 지켜보며 연구를 지도한다는 것은 앞에서 끌고 가는 일이 아니라, 옆에서 함께 멈춰 서는 일임을 다시 한 번 실감했다. 이번 R&E는 학생들에게는 연구자의 시선을, 지도교사에게는 연구 지도의 본질을 다시 확인하게 한 시간이었다.

김고운(학생) 이번 R&E를 통해 GPT 모델의 구조와 RLHF 과정을 하나씩 구현해 보며, 인공지능의 응답 하나하나가 데이터와 인간의 선택에 의해 만들어진 결과라는 것을 알게 되었다. 이전에는 인공지능을 결과가 잘 나오는 도구로만 인식했지만, 연구를 진행하며 그 결과 뒤에 있는 학습 구조와 판단 기준을 자연스럽게 생각하게 되었다. 연구 과정에서 어려움도 많았지만, 팀원들과 역할을 나누고 서로의 부족한 부분을 채워 주며 끝까지 연구를 이어갈 수 있었다. 이번 경험은 단순한 성과를 넘어, 협업과 연구 태도의 중요성을 배우는 계기가 되었고, 이후 진로를 고민하는 데에도 큰 영향을 주었다.

김민준(학생) 처음 이 연구를 접했을 때는 내용이 어렵고 낯설게 느껴졌다. 정보 분야에 큰 관심이 없는 상태에서 시작한 연구였기 때문에, 과연 끝까지 따라갈 수 있을지에 대한 걱정도 많았다. 하지만 하나씩 개념을 이해하고, 팀원들과 질문을 주고받으며 연구를 진행하다 보니 점점 흥미가 생기기 시작했다. 특히 어려운 내용을 서로의 언어로 설명해 주는 과정에서 연구가 혼자 하는 작업이 아니라는 점을 실감했다. 이번 R&E는 잘 알지 못하는 분야에도 도전해 볼 수 있다는 자신감을 주었고, 이후 새로운 주제를 마주하더라도 쉽게 물러서지 않게 만드는 경험이 되었다.

김세준(학생) RLHF를 GPT 모델에 적용하는 과정은 처음부터 쉽지 않았다. SFT 학습 단계부터 여러 시행착오를 겪었고, 메모리 부족이나 코드 오류와 같은 문제로 실험이 중단되는 경우도 많았다. 특히 강화학습 과정에서 예상과 다른 결과가 나타났을 때는 원인을 찾는 데 많은 시간이 필요했다. 하지만 이러한 문제를 하나씩 해결해 가는 과정이 오히려 연구의 재미를 느끼게 해 주었다. 단순히 결과를 얻는 것이 아니라, 왜 문제가 발생했는지를 분석하고 구조적으로 해결하는 경험을 통해 연구자로서의 사고 방식을 조금이나마 체득할 수 있었다.

남준서(학생) 이번 R&E 연구는 인공지능을 단순히 활용하는 대상이 아니라, 직접 이해하고 설계해야 할 연구 대상으로 바라보게 만든 계기였다. 연구를 진행하며 인공지능의 성능 향상이 모델의 크기나 연산 자원에만 의존하는 것이 아니라, 인간의 판단과 가치가 어떻게 학습에 반영되는지에 따라 달라진다는 점을 실감했다. 특히 RLHF 과정을 구현하면서, 인공지능 개발자는 기술을 만드는 사람을 넘어 어떤 기준과 방향으로 모델을 학습시킬 것인지를 고민해야 하는 존재라는 책임감도 함께 느끼게 되었다. 이번 경험은 인공지능 분야로의 진로를 더욱 확고히 하는 계기가 되었으며, 앞으로도 기술의 결과뿐만 아니라 그 이면의 구조와 의미를 함께 고민하는 연구를 이어가고 싶다.

R&E FOR YOU(vol.10) - 언어 모델에게 인간의 판단을 학습시키다

본문

언어 모델에게 인간의 판단을 학습시키다
- 고등학생과 함께한 RLHF 연구의 기록

I. 프롤로그 - "이 주제, 고등학생 연구로 가능한가"

II. 학생의 이야기 - "우리가 이 주제를 선택한 이유"

III. 연구를 '가능한 연구'로 바꾸다.

1) 지도 교사의 선택과 설계

2) 연구의 구조를 따라가 본 학생들의 첫 단계

IV. 연구 과정에서 마주한 가장 큰 어려움 - 인간의 판단을 어떻게 학습시킬 것인가

V. 연구가 실제로 작동하던 시간들 - 반복과 수정 속에서 드러난 변화

VI. 성과 공유회와 마무리 - 결과를 전하는 자리, 질문을 남기는 시간

VII. 에필로그 - 함께 연구한다는 것의 의미

패밀리 사이트

본문

언어 모델에게 인간의 판단을 학습시키다 - 고등학생과 함께한 RLHF 연구의 기록

I. 프롤로그 - "이 주제, 고등학생 연구로 가능한가"

II. 학생의 이야기 - "우리가 이 주제를 선택한 이유"

III. 연구를 '가능한 연구'로 바꾸다.

1) 지도 교사의 선택과 설계

2) 연구의 구조를 따라가 본 학생들의 첫 단계

IV. 연구 과정에서 마주한 가장 큰 어려움 - 인간의 판단을 어떻게 학습시킬 것인가

V. 연구가 실제로 작동하던 시간들 - 반복과 수정 속에서 드러난 변화

VI. 성과 공유회와 마무리 - 결과를 전하는 자리, 질문을 남기는 시간

VII. 에필로그 - 함께 연구한다는 것의 의미

패밀리 사이트

언어 모델에게 인간의 판단을 학습시키다
- 고등학생과 함께한 RLHF 연구의 기록