본문 바로가기
신기술소개

AI 언어 모델, 수학 잘 하기 위해 고군분투 중

by 19-4052 TCX 2022. 10. 14.

 

컴퓨터가 잘 하는 건 무엇일까요? 당연히 계산입니다. 아이러니하게도 최고의 기계 학습 연구자들은 고군분투 끝에 최근에서야 컴퓨터에게 수학을 가르칠 수 있게 되었다고 합니다. 대체 무슨 이야기일까요?

 

출처: iStock.com

 

AI, 사실 수학 낙제생

지난 1년 동안 캘리포니아 대학교, 버클리 대학교, OpenAI 및 구글의 연구원들은 GPT-3 및 DALL-E2와 유사한 알고리즘을 사용하는 언어 모델(language model)에 기본 수학 컨셉을 학습시키는 데 비약적인 발전을 이루었습니다. 하지만 아주 최근까지 언어 모델들은 "앨리스는 찰리에게 4개를 준 후에 2개의 공을 가진 밥보다 5개의 공을 더 가지고 있습니다. 앨리스는 몇 개의 공을 가지고 있을까요?"와 같은 간단한 단어 수학 문제를 푸는 데에도 번번히 실패했습니다.

"컴퓨터는 수학을 잘 하지만, 아주 구체적으로 정의를 해 줘야 잘 합니다."라고 구글의 기계 학습 전문가인 Guy Gur-Ari는 말합니다. 컴퓨터는 산수를 잘 합니다. 입력된 숫자를 계산하는 것은 컴퓨터에게 아주 간단한 일이지요. 하지만 공식적인 구조를 벗어나면 컴퓨터는 어려움을 겪습니다.

단어 문제, 즉 "정량적 추론"을 푸는 것은 아주 까다롭습니다. 다른 많은 문제들이 필요로 하지 않는 견고함과 엄격함을 요구하기 때문이죠. 이 과정에서 한 단계라도 잘못되면 답이 틀리게 됩니다. DALL-E 알고리즘이 만들어 내는 그림은 손가락을 빼거나 이상한 눈을 만드는 정도이지만, 수학에 관해서는 실수가 더 두드러집니다. OpenAI의 기계 학습 전문가인 Vineet Kosaraju는 "정말 많은 숫자를 함께 곱하면… 알고리즘은 아주 혼란 상태에 빠지게 될 것입니다."라고 말합니다. 기계 학습 전문가들은 AI가 이러한 수학 언어 문제를 잘 풀 수 있게 된다면 다른 많은 유용한 문제들도 잘 풀 수 있을 것이라고 합니다.

 

 

 

AI에게 수학을 더 잘 가르치는 방법?

기계 학습 모델이 더 큰 데이터 샘플에 대해 훈련됨에 따라, 그들은 더 견고해지고 더 적은 실수를 하는 경향이 있습니다. 그러나 스케일 업은 정량적 추론을 통해서만 가능한 것으로 보입니다. 연구자들은 언어 모델이 저지르는 실수가 보다 표적화된 접근 방식을 필요로 하는 것처럼 보인다는 것을 깨달았습니다.

작년에 UC Berkeley와 OpenAI의 두 개의 서로 다른 연구팀이 각각 기하학, 대수학, 사전 계산 등에 걸쳐 수천 개의 수학 문제를 포함하는 두 개의 데이터 세트인 MATH와 GSM8K를 발표했습니다. "우리는 기본적으로 데이터 집합의 문제인지 확인하고 싶었습니다."라고 MATH에서 일했던 AI 안전 센터의 연구원 스티븐 바사트는 말합니다. 언어 모델은 단어 문제에 서투른 것으로 알려졌지만, 그 서투름의 정도는 어느 정도이며, 더 나은 포맷으로 더 큰 데이터 집합을 도입한다면 그 문제를 고칠 수 있을까요? MATH 그룹은 7% 미만의 점수를 받은 최상위 언어 모델에 대한 정량적 추론이 얼마나 어려운지를 발견했습니다. (인간 대학원생은 40%, 수학 올림피아드 챔피언은 90%)

 

 

 


더 쉬운 초등학교 수준의 문제를 가진 GSM8K 문제를 푸는 모델은 약 20%의 정확도에 도달했습니다. OpenAI 연구원들은 미세 조정과 검증이라는 두 가지 주요 기술을 사용했습니다. 미세 조정에서 연구자들은 관련 없는 정보(잠보니에 대한 위키백과 기사, "gusto"의 사전 항목 등)를 포함하는 사전 훈련된 언어 모델을 취한 다음 관련 정보(수학 문제)만 보여줍니다. 검증은 검토를 통해 하게 됩니다. "모델은 자신의 실수에 대한 많은 예를 보게 되는데, 이는 정말 가치 있는 일입니다."라고 Cobbe는 말합니다.

당시 OpenAI는 모델이 GSM8K에서 80%의 정확도에 도달하기 위해서는 100배 더 많은 데이터에 대한 훈련이 필요할 것이라고 예측했습니다. 하지만 6월에 구글의 Minerva는 상향 조정을 최소화하면서 78%의 정확도를 발표했습니다. 이는 연구원들이 예상했던 트렌드보다 훨씬 앞선 충격적인 결과였습니다.

Minerva는 Google의 자체 언어 모델인 PaLM(Pathways Language Model)을 사용합니다. PaLM은 arXiv 및 다른 온라인 저장소에 업로드 되어 있는 과학 논문에 맞춰진 언어 모델입니다. 두 가지 다른 전략이 미네르바를 도왔습니다. "생각의 사슬 프롬프트"에서 Minerva는 더 큰 문제를 더 입맛에 맞는 덩어리로 분해해야 했습니다. 이 모델은 또한 다수결 투표를 사용했습니다. 한 가지 답변을 요구하는 대신 문제를 100번 해결하라는 요청을 받았습니다. 그 답들 중에서 미네르바가 가장 흔한 답들을 골랐습니다.

 

 

 


이러한 새로운 전략으로 얻는 이익은 엄청났습니다. Minerva는 화학과 생물학이 포함된 보다 일반적인 STEM 문제 집합인 MMLU뿐만 아니라 MATH에서 최대 50%, GSM8K에서 거의 80%의 정확도를 보였습니다. Minerva가 약간 변형된 질문의 무작위 샘플을 다시 작성하라는 요청을 받았을 때, 그것은 그 능력이 단순한 암기에서 나온 것이 아님을 시사하는 만큼 잘 수행되었습니다.

미네르바가 실제 수학 개념을 아는지 모르는지는 모호합니다. 내장된 구조와 함께 제공되는 증명 보조 도구와 달리 미네르바와 다른 언어 모델은 공식적인 구조를 가지고 있지 않습니다.

 

 

 

*원본 기사: https://spectrum.ieee.org/large-language-models-math

 

 

댓글