대화형 AI 와 한국어

2023. 2. 26. 02:06일기,잡담

반응형

영상처리를 하는 AI에게 사과를 교육시키기 위해서

수백만장의 사과 사진과 함께 "이게 사과야"라고 입력해준다

이제 AI는 자기가 학습한 사과를 토대로, 이미지가 유사한 사과를 찾아낸다. 기계학습이 이렇다.
사과가 뭔지, 자동차가 뭔지를 가르치는데 필요한 학습데이터는 인간이 만들어야 된다. 



어디 회원가입할때마다 자동차 사진을 고르라고 시키는건 저 학습데이터를 만드는 과정이었음.
근데 그 학습데이터, (데이터셋) 을 굳이 진짜사진으로, 사람이 하나하나 만들어야 되나?



(이건 앤디워홀)
딥러닝은, 컴퓨터가 기존 데이터의 픽셀을 조금씩 변경해가며 학습데이터를 인간의 도움 없이 생성해 나간다.  
데이터셋이 마구 늘어나니 학습량도 늘어나는 거임




바둑 AI 도 초기엔 기보를 입력했는데, 컴퓨터가 스스로 바둑을 두는 딥러닝을 도입한 이후로 성능이 비약적으로 향상되었다.

그런데 chatGPT처럼, 언어를 처리하는 대화형AI를 학습시키는 데에는 이런 유사데이터를 자동생성하기가 어렵다. 
'아빠가방에들어가신다' 같은 문장도 있고
'나는 영주와 상주에 갔다' (영주가 사람인지 지역인지?) 도 있다. 이건 인간이 알려줘야만 한다.

섣불리 지들끼리 대화하게 시키면 개판이 되는거임. 그래서 실제 데이터셋이 중요하다.

한국어는 데이터셋이 빈약하다
AI를 도입해서 업무효율을 올리자고 했을때,
영어 이용자는 '꽤 쓸만한 조수'를 손에 넣는 것이고
한국어 이용자는 '대충 검색해서 아는척하는 애새끼'가 붙은 꼴이다

AI 로 공부를 하든, 일을 하든간에 이 격차가 커진다. 경쟁에서 살아남으려면 영어공부를 안할 수가 없다.

이제 'AI가 알아듣는지' 가 언어의 유용성을 결정한다.
인구조차 줄고 있는 한국어가 입지가 위태로울것 같다

반응형