일상 여행기/미분류2016. 11. 29. 23:03

아주 예전부터 미래에는 통번역 기계가 나와서 외국어 공부를 안 해도 될 거라는 말이 종종 있었어요. 당연히 영어에 고통받던 학생들은 제발 이 날이 빨리 도래하기만을 기다렸어요. 중고등학생은 학교 시험 때문에, 대학생은 영어 원서 때문에 고통받고 있으니까요.


그런데 아무리 기술이 발전하고 사전 프로그램과 번역기가 좋아져도 외국어 학습의 중요성은 줄어들 생각을 하지 않았어요. 제가 대학교 입학했을 때만 해도 번역기는 도저히 봐줄 수준이 아니었어요. 단적으로, 자기 이름을 번역기에 여러 번 번역시키면 나중에는 이름이 아주 안드로메다로 날아가버리곤 했죠. 이 당시 번역기는 사전에 가까웠어요. 그냥 사전의 1번 뜻을 모아서 보여주는 수준이었죠.


그래도 조금씩 발전해서 이제는 사전의 1번 뜻을 모아서 어순에 맞게 보여주는 수준까지 올라왔어요. 숙어도 처리해주고요.


오늘 뉴스를 보니 구글, 네이버, 페이스북에서 AI 번역 기술 개발에 박차를 가하고 있다는 뉴스가 나왔어요. AI 번역 기술이 구글 번역에 적용되자 번역 품질이 향상되었다는 뉴스도 나왔구요.



뉴스를 보면 저런 그림이 구글에서 AI 번역 논문에 실렸고, 영어-일본어, 영어-한국어 머신 러닝을 통해 일본어-한국어 간에 즉각적이고 정확한 번역을 할 수 있다고 했다고 해요. 그리고 구글 번역은 라인어를 단순화하여 만든 언어로 중간 언어로 사용하는 인터링구아를 사용해 언어에 상관없이 내부적으로 분석, 표현이 가능하다고 나와 있대요. 당장 '머신 러닝', '인터링구아', '인공 신경 기계 번역' (GNMT) 등 보기만 해도 뭔지 모르지만 무서워지는 단어들이 막 튀어나와요. 당장 저 그림도 그냥 보면 그저 참 해괴하게 생겼구요.


그런데 여기에서 드는 의문이 두 가지.


1. 사전의 품질은 매우 좋아졌는데 왜 그동안 번역기 품질은 사전의 발전을 쫓아가지 못했는가?

2. 기존 번역기의 번역 기술과 다른 점이 대체 뭐냐?

3. 과거 영어로 된 자료에 의존해 외국어를 공부하던 것과 무엇이 다른 거냐?


괜히 쓸 데 없이 겁먹고 터미네이터가 날뛰는 인류 파멸의 날이 다가오고 있다고 떠들어댈 것이 아니라 일단 무엇인지 알 필요가 있어요.


이것을 제대로 알기 위해서 우리는 먼저 이 문제를 생각해보아야 해요.


전체는 부분의 총합과 같다?


사회학, 인문학에서 끈질기게 쫓아다니는 문제에요. 전체는 부분의 총합과 같은지, 전체는 전체 그 자체만의 속성이 또 따로 있기 때문에 전체는 부분의 총합과 다른지요. 이 문제가 별 것 아닌 것 같지만 이 문제에 대한 자신의 생각에 따라 세상을 보는 시각이 아예 완벽히 바뀌어버려요.


저 말만 놓고 보면 저 말을 산수적으로 접근해서 '1+3=4 니까 전체 = 부분의 총합' 이라고 쉽게 답을 단정지어버릴 수 있어요. 그렇지만 이것을 사람들의 문제로 바꾸어보면 이야기가 달라져요. '세 명이 모여서 A조직을 결성했다. A조직은 이 세 명과 같은가? 아니면 A조직이라는 독자적인 특수한 성격이 존재하는가?' - 이 질문에 대한 대답을 '세 명 = 3, 그러므로 A조직 =  3' 이라고 답하기가 쉽지 않다는 것이지요.


이 문제가 번역기 기술과 상당히 밀접한 관련이 있어요. 왜냐하면 '문장의 의미는 단어들 의미의 총합'인지 '문장은 단어들 의미의 총합 외의 고유의 의미가 있는 것'이라고 볼 지의 문제와 밀접한 관련이 있거든요. 지금까지는 번역기 기술이 전자를 전제로 개발되어 왔어요.


'문장의 의미는 단어들 의미의 총합' 이라는 전제로 기술이 개발되어 온 이유는 두 가지 이유가 있어요. 먼저 '모든 것에는 보편적인 규칙과 법칙이 있다'는 생각이 학계에서 지배적이었던 것이 있고, 두 번째는 단어는 단어대로, 문장은 문장대로 다 다른 것으로 볼 경우 범위가 지나치게 방대해져 버린다는 것이지요.


사전은 단어 대 단어의 대응을 보여주는 것이기 때문에 '일대일 대응'이라는 고정관념에서 벗어난 순간 엄청나게 빠르게 발전할 수 있었어요.



왜냐하면 한 단어에는 뜻이 여러 가지 있는 경우가 많기 때문이지요.



그렇기 때문에 단어에 대해서는 저렇게 대응하는 단어들의 의미를 보여주는 것만으로도 충분히 사전 품질을 끌어올릴 수가 있었어요. 여기에 풍부한 예문이 더해질수록 사전의 품질은 더 올라갔지요.


그러나 번역 기술은 사전 기술과 다른 문제였어요. 위에서 말한 '전체는 부분의 총합'이라는 전제로 접근한다면 사전 기술의 발전은 번역 기술의 발전에 그대로 영향을 주어야 하지만, 실제로는 사전 기술의 발전이 그렇게까지 번역 기술의 발전에 큰 영향을 미치지는 못했어요.



이 세상 모든 단어의 뜻이 오직 1개만 있다면 A언어와 B언어의 어휘들은 일대일 대응을 할 것이고, 간단한 단어 변환을 통해 정확한 문장 번역을 할 수 있을 거에요. 그런데 단어가 오직 한 개의 뜻만 갖고 있는 것이 아니다보니 단어의 조합인 문장으로 가면 경우의 수가 너무 많이 생겨버린다는 것이었어요.


그렇다고 이 경우의 수를 다 보여줄 수도 없는 노릇이에요. 번역기 번역 결과를 바로 위의 그림처럼 보여준다면 번역의 의미가 없죠. 위의 그림을 보면 각 단어들이 갖고 있는 의미들로 만들어낼 수 있는 조합 중 어떤 조합이 알맞은 조합인지 찾아내는 능력이 요구되는 결과물인데, 이 능력이 바로 외국어 학습이니까요.


이 문제를 조금 더 간단히 정리하자면


사전은 단어에 대해 많은 의미를 수록하고 그 의미들에 대해 사용 빈도에 따라 높은 순위를 줄 수록 품질이 올라가요. 그런데 이러한 사전의 1번 뜻만을 모아서 문장 번역을 시도하면 영 이상한 문장이 자꾸 튀어나온다는 것이에요.


이런 문제가 발생하는 원인은 각 단어들은 각자의 정해진 의미가 있지만, 문장 속에서 단어의 의미는 다른 단어들과의 관계를 통해 확정되기 때문이에요. 쉽게 표현하자면


사전에 나와 있는 의미 중 몇 번째 의미가 딱 맞아떨어지는지는 문장 속 다른 단어들이 결정해준다.



문제는 이것을 어떻게 기술적으로 해결하느냐는 것이었어요. 그런데 여기에서 중요한 발상의 전환이 일어나요.


문장이 단순히 단어들의 총합이 아니라 문장 그 자체로의 의미가 또 있다면?


단어가 어떤 의미를 가리키는 것처럼 문장도 어떤 의미를 가리킨다고 본다면?


지금까지의 접근법으로 본다면 '민수가 밥을 먹는다' 는 아래 그림과 같아요.



하지만 문장은 그 자체로 의미를 갖고 있다고 본다면?



실제 우리가 생각하고 말하는 과정과 상당히 비슷해져요. '민수'와 '밥'과 '먹다'라는 말이 있기 때문에 '민수가 밥을 먹는다'가 아니라 '민수가 밥을 먹는 장면'을 보고 말로 표현하기 위해 장면을 그것을 구성하고 있는 요소들로 분해해 '민수'와 '밥'과 '먹다'라는 단어로 표현하고 이를 문법에 맞게 재구성한 것이죠.


이 말이 확 와닿지 않는다면 왜 어학연수를 가야 입이 트이고 학교에서 영어 백날 천날 공부해보았자 말이 안 나오는지 생각해보면 되요. 학교에서 영어를 배울 때 단어의 뜻을 열심히 외워요. 그래서 영어 단어를 보면 한국어 단어로 바꾸고, 그 단어의 의미를 생각해요. 예를 들어 영어 단어 go 를 보면 한국어 단어 '가다'로 바꾸고, '가다'의 의미를 떠올린다는 것이에요. 문장으로 가면 더욱 복잡해져서 영어 문장을 한국어 문장으로 바꾸고 이 문장의 의미를 떠올려요. 이러다보니 말이 빨리 나오지 않는 것이지요. 어학연수를 가서 외국어로 대화를 많이 하고 외국어를 직접 체험하다보면 의미와 외국어 단어, 문장이 직접 연결이 되기 때문에 말이 빨리 나오는 것이구요.


위에서 '전체는 부분의 총합'과 '전체는 부분의 총합 외에 그 자체로서의 특성을 갖는다'는 두 가지 관점이 존재한다고 했어요. '민수가 밥을 먹는다'는 '민수, 밥, 먹다'로 구성되어 있지만, 이것이 합쳐진 '민수가 밥을 먹는다'는 단순히 '민수, 밥, 먹다'의 결합이 아니라 이 결합들이 만들어낸 하나의 장면이에요. '단어의 결합으로 인한 각 단어의 의미 확정'이라는 요소가 문장에는 따로 있는 것이지요. 그리고 이러한 현상이 발생하는 이유는 말이 있기 때문에 사실이 존재하는 것이 아니라 존재하는 사실을 표현하기 위해 말이 존재하기 때문이구요.


즉, 말로 표현하고자 하는 것 그 자체를 문장의 의미로 삼고, 이렇게 만들어진 의미와 매치되는 각 언어들의 문장들을 번역 결과로 보여준다면 훨씬 좋은 번역 결과를 보여줄 수 있다는 것이에요.


예전에는 A언어, B언어, C언어가 있다고 하면 A-B, B-C, A-C 번역을 다 따로 만들어야 한다고 생각했지만, 이제는 B언어를 기준으로 삼고 A-B, B-C 번역을 만들면 굳이 따로 A-C 번역을 만들지 않아도 3단논법에 의해 A-B-C 번역을 만들어낼 수 있어요. 과거 다른 외국어를 공부하기 위해 영어로 된 외국어 학습 교재를 보며 외국어를 습득하던 것과 비슷한 방법이지요.



이렇게 되는 것이지요.


그러면 이제 사전과 번역기는 서로 따로 노느냐? 그것은 아닐 거에요. 왜냐하면 번역 결과물이 제대로 된 번역인지 확인하기 위해서는 각 단어의 의미가 맞는지 살펴보아야 하거든요. 예를 들어서 A라는 단어에 뜻이 10개 있다면 번역된 문장에서 단어 뜻이 이 10개 안에 들어가는지 검토해보아야 한다는 것이에요. 왜냐하면 A-B 언어 번역이 완벽하고 B-C 언어 번역이 완벽해야 A-B-C 언어 번역이 완벽해지는데 A-B 번역과 B-C 번역이 완벽하게 만드는 것 자체가 쉬운 일이 아니고, 설령 A-B 번역과 B-C 번역이 완벽하다 할 지라도 A-B-C 번역이 반드시 완벽하다고 장담할 수가 없다는 것이에요. 이것을 가능하게 하려면 매개언어가 되는 B언어는 극도로 문법이 어렵고 까다로워야 해요. 특히 형태론적으로요.


영어를 중간 언어로 쓸 경우, 당장 영어는 2인칭 단수, 복수 대명사가 같고 존칭도 특별히 없기 때문에 '너, 너희들, 당신, 당신들' 모두 you 로 번역되요. 그리고 영어는 수에 대한 동사 변화도 없다보니 you 만 덜렁 있으면 단수인지 복수인지 구분할 방법이 없어요. 예를 들어서 'you rest' 라는 문장만 있을 경우 이 문장에서 'you'는 단수인지 복수인지 알 수가 없다는 거에요.


즉 번역 결과가 제대로 된 것인지 확인하기 위해서는 결국 사전 기술을 이용해야 한다는 것이지요.


그냥 편하게 '문장 그 자체를 하나의 의미로 보고 번역을 시도하는 것'이라고 이해하면 될 거에요. 그 자체로도 상당히 주목할만하구요.


그러면 이제 이 번역 기술의 발달이 미래를 어떻게 바꿀까요?


제 생각에 단순 번역은 상당히 많이 줄어들 거라 봐요. 그리고 기술 번역 또한 많이 줄어들 거라 봐요. 전문 기술을 번역하는 사람들, 그리고 관광지 및 가게에서 외국인과의 소통을 위해 고용하는 외국어 아는 계산대 직원은 많이 줄어들 거에요. 전문 기술 번역은 일종의 '패턴' 같은 것이 존재해요. 자기 원하는 대로 느끼는 대로 막 하는 것이 아니라 정해진 규칙과 용어의 용법이 있어서 그에 맞추어서 번역을 해야 해요.


보편적 패턴과 용법이 정해진 분야에서는 이 기술이 상당히 많은 일자리를 없앨 것이며, 여행하는 사람 입장에서는 일단 아주 기본 의사소통은 쉽게 할 수 있어서 언어로 인한 해외 여행 장벽이 많이 낮아질 거에요. 여행 회화집에 있는 문장들 정도는 이 기술을 이용해 깔끔한 번역을 제공할 수 있지요.


하지만 이렇다 해서 외국어를 공부할 필요성이 아예 없어지는 것은 아니에요.


문장 속 단어들은 문장을 구성하는 다른 단어들에 의해 의미가 확정된다고 했어요. 글 속의 문장 또한 글을 구성하는 다른 문장들에 의해 의미가 완벽해져요. 우리는 이를 맥락에 따라 결정된다고 하지요. 그래서 문맥을 따져보라고 하구요. 하나의 '글'의 영역은 그야말로 광범위하기 때문에 또 새로운 기술이 등장해야 해요. 굳이 비유하자면 문장은 '사진'이고 글은 '동영상'이라고 할 수 있어요. 여기까지 간다면 그때는 진짜로 인류가 외국어 공부에서 해방되겠지요.



간단한 요약


1. AI 번역은 문장 그 자체를 하나의 의미 덩어리로 보고 접근한다. 기존 '단어의 결합=문장'이라는 개념에서 탈피. (기존에는 문장을 구성하는 각 단어의 의미 조합의 총합이 문장 의미라고 보고 기술 개발)

2. 문장 속 단어의 의미는 문장을 구성하는 다른 단어들에 의해, 글 속 문장의 의미는 글을 구성하는 다른 문장들에 의해 확정된다.

3. 보편적 패턴과 용법이 정해진 분야에서는 확실히 강력한 번역을 보여줄 것이다.

4. AI 번역 기술의 핵심 관건은 중간 언어 (인터링구아)가 형태론적으로 극도로 까다로워야 한다는 점이다.

5. 언어로 인한 해외 여행 장벽은 많이 낮아질 것이다.

6. 그렇다고 외국어 공부의 중요성이 줄어드는 것은 아니다. 외국어 학습에 대한 비전이 줄어드는 것도 아니다.

Posted by 좀좀이

댓글을 달아 주세요

  1. 포스팅 구경하고 갑니다^^

    2016.11.29 23:24 신고 [ ADDR : EDIT/ DEL : REPLY ]
  2. 저도 최근에 네이버 인공신경망 번역기를 자주 사용하는 편인데 옛 구글번역기보다 훨씬 낫더라구요. 아직까지 개선되어야 할 점들이 많지만 점점 인공지능이 발달하는 속도를 보니 무서울 지경이네요. 4차 산업으로 대변되는 소프트파워와 인공지능의 발달이 얼마나 빨라질지요... ㅎㅎ

    2016.11.30 00:25 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 나날이 확실히 기술이 많이 진보하고 있지요. 저도 번역기를 아주 오래전부터 종종 써오고 있는데 요즘은 진짜 많이 좋아졌다는 것을 느껴요. 가끔은 이러다 나중에는 일자리가 너무 많이 없어져서 전부 자영업자 되는 거 아닌가 하는 생각도 들어요 ㅋㅋ;;

      2016.11.30 02:49 신고 [ ADDR : EDIT/ DEL ]
  3. 언제부터인가 AI 인공지능 시스템 말이 많아지더군요.
    이젠 언어번역까지 접근하다니 저도 혹시나 네이버나 구글 번역기를 써봤는데 확실히 예전보다 번역이 좀 나아졌다는 느낌이 듭니다. 가끔은 무서울정도로 완벽할때도 있던거 같습니다.^^

    2016.11.30 03:27 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • IT업계 및 학계에서는 언제부터 그랬는지 모르겠지만, 일반인들 사이에서 AI 인공지능에 대한 관심이 폭증한 것은 아무래도 알파고와 이세돌의 대국부터일 거에요 ㅎㅎ
      통번역의 영역은 바둑과는 비교가 안 되게 훨씬 복잡하고 고차원적이며 변수도 많은 영역인데 어떻게 더 좋아질지 궁금해요^^

      2016.11.30 03:36 신고 [ ADDR : EDIT/ DEL ]
  4. 직역과 의역? 머 이런 차이들이 번역 자체를 쉽지 않게 만드는 것 같아요.
    기술 덕분에 편해지고는 있지만, 아직은 빈 구석구석들이 많은 시대이지요.
    내 다음? 다다음? 세대 쯤에는 지금과는 엄청나게 다른 삶의 형태가 펼쳐지리라 생각해봅니다.

    확실히 조금 더 시간이 지나면 내가 언어를 하지 못해도 여행 정도에는 전혀 무리없는 세상이 될거라 생각해요.
    다만, 생활을 위해서는 '언어학습'이 반드시 필요할 것 같아요.
    삶은 내 것이니... ^^

    2016.11.30 10:25 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 직역과 의역의 차이도 있고, 장면과 상황을 글로 옮기는 부분에서 생략되는 정보도 많이 있지요. 아마 20년 뒤에는 정말로 또 엄청나게 변해있을 거라는 생각이 들어요. 10년전과 지금을 비교해보면 스마트폰 외에는 그렇게 크게 달라진 것은 없는 것 같지만 20년 전과 비교해보면 정말 많이 변했죠. ㅎㅎ
      인간 간의 깊은 관계를 위해서는 언어학습이 반드시 필요하죠. ^^

      2016.12.01 08:27 신고 [ ADDR : EDIT/ DEL ]
  5. 저도 요즘 중국어 공부를 다시 시작하고 있는데..
    공부하면서 나중에 배워봤자, 인공지능이 다 알아서 해주는 시대가 오면 어쩌나..
    하는 생각이 들기도 했거든요.. 그런데 좀좀이님 글을 읽으면서..
    그래도 열심히 공부를 해야겠구나 싶네요^^;

    2016.11.30 10:50 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 아무리 스마트폰이 좋아졌다고는 하나...

      배터리 떨어지면 끝입니다. ㅋㅋㅋㅋㅋ

      머리 속에 이것저것 많은 정보가 담겨 있다는 것이 단순히 메모리 역할만 하는 것은 아니지요. 여러 정보를 조합해서 새로운 것을 또 만들어낼 수 있으니까요. 그리고 언어 문제는 훨씬 복잡한 문제구요. 사전 품질이 좋아진 것보다 더 많은 시간이 필요할 거에요. 단순한 문장들은 금방 정복되겠지만요 ㅎㅎ

      2016.12.01 08:44 신고 [ ADDR : EDIT/ DEL ]