[Korean] GenAI에 대한 잡생각 (4/4): AI 뇌피셜

Posted Feb 16, 2024

By Dongkwan Kim

7 min read

Read this post in [English].

이 글은 4개 구성으로 나뉘어 있다.

NVIDIA CEO 젠슨황은 최근 인터뷰에서 AI 시대의 도래와 모두가 프로그래머가 될 수 있는 가능성을 언급하며, 이제는 생물학에 대한 공부의 중요성을 언급했다. 이 말을 듣고 생각해보니, AI의 발전이 인간과 동일한 객체를 만들고 싶어하는 인간의 욕망과 밀접하게 연결되어 있다는 생각이 들었다. ChatGPT, Gemini와 같은 대규모 언어 모델(LLM)은 우리가 구사하는 언어나 프로그램 코드에 대한 방대한 데이터 덕분에 현재의 경지까지 왔다면, 생체지도나 DNA 염기서열 같은 분야는 상대적으로 정보가 적기 때문에 이에 대한 연구가 더 필요해서 생물학의 중요성을 강조한 것이 아닐까?

학습 데이터의 양에 관해서 좀 더 얘기를 해보자면, LLM 모델을 사용할 때 학습 데이터가 풍부한 언어로 질문할 때 결과가 더 좋게 나온다고 알려져 있다. 예를 들어, ChatGPT의 학습 데이터는 대부분이 영어 문장으로 되어있는데, 질의응답시에 한글 대신 영어로 질문하고 답변을 받은 후 다시 답변을 한글로 번역하는 방식이 결과가 더 깔끔하게 잘 나오는 것을 확인할 수 있다. 물론, 학습 데이터 이외에도 다른 변수가 있을 수 있는데, 예를 들어 모델 자체가 영어에 특화된 구조를 띄고 있을 수도 있다. 근데 결국 영어가 가장 많이 쓰이고 학습 데이터가 많기 때문에 그걸 기반으로 모델을 만들지 않았을까?

최근 한 연구는 학습 데이터의 양이 결과에 큰 영향을 미칠 수 있다는 점에 착안하여, 이에 대한 역발상으로 학습 데이터가 적은 언어를 활용하여 LLM 모델을 jailbreak하는 방법을 제시했다. 예를 들어, Zulu, Hmong 등의 언어는 실제 학습 데이터가 많지 않은데, 해당 언어로 번역된 프롬프트를 입력하면 LLM 모델의 제약사항을 쉽고 간단하게 우회할 수 있다는 점이다.

사실 이 연구 결과에서 흥미롭게 느낀 부분은 공격 성공률이 특정 카테고리(대화 주제)별로 다르게 나타났다는 점인데, 학습 데이터가 적은 언어에서조차 제약이 강력하게 걸려있는(=공격이 실패하는) 카테고리가 있거나, 손쉽게 제약을 우회할 수 있는(=공격이 성공하는) 카테고리가 있었다.

공격이 실패했다는 의미는 학습 데이터가 많지 않더라도 해당 카테고리에 대한 강력한 부정적인 요소를 담고 있음을 의미하며, 이 부분은 모든 문화에서 공통적으로 글로 남겨서 공유하고있는 중요한 부분에 대한 것은 아닐까? 쉽게 공격이 성공했다는 의미는 학습 데이터에 해당 카테고리에 대한 부정적인 요소가 포함되지 않았다는 의미인데, 이는 그 문화에서 보편적으로 ‘당연하다’라고 생각되는 정보이기 때문에 글로 적히지 않고 구전되기 때문은 아닐까?

학습 데이터 양이 너무 적어서 bias 되어있을 가능성은 배제할 수는 없지만, 이것을 보면서 인류학, 언어학 등이 AI의 동작을 이해하고 활용하는 데 도움이 될 수 있지 않을까? 이와는 별개로, jailbreak를 하기 위해 시도하는 가스라이팅 또한 인간의 심리를 자극하고 속여서 사기를 치는 방법과 유사한데, 결국 인간 심리학과도 연관이 되어있지 않을까?

현재의 AI는 마치 연구실에 새로 들어온 석사 신입생이나 학부생 인턴을 천천히 가르치듯, AI에게 단계별로 지식을 주입하며 가이드하면 적절한 응답을 얻을 수 있었는데, 이 과정이 결국 사람을 가이드하는 것과 크게 다르지 않다는 생각이 들었다. AI는 인간을 모방하여 만든 존재여서 그렇지 않을까? 그렇다면, 이러한 과정은 조직경영 및 관리와 같은 분야의 지식이 도움이 되지 않을까?

나는 아직 AI에 대한 경험이 많지 않지만, 결국 AI를 더욱 깊이 이해하고 잘 활용하기 위해서는, 기술과 인문학의 경계를 넘나드는 다각적인 접근이 필요하지 않을까?

GenAI 서비스가 도입되고 나서 생각을 정리하거나 글쓰기에 도움이 많이 되는 것 같다.

아래 그림은 다음 prompt로 생성한 그림:

draw me an artistic wallpaper. a hacker is in the center. left half of the wallpaper is for whitehat hacker. right half of the wallpaper is for blackhat hacker. also, it should be modern, digital, AI.

Blog

ai genai

This post is licensed under CC BY 4.0 by the author.

Trending Tags