말뭉치 (corpus) - 언어학자들이 경험적, 실증적으로 언어를 분석하기 위해 구축한 언어 자료.
- 촘스키가 주도한 변형생성문법의 합리주의는 말뭉치 분석을 부정적으로 봄. 촘스키는 언어 능력과 언어 수행을 구별하고 언어 능력이 문법적 기술의 이상적인 대상이라고 간주한 반면, 언어 수행은 불완전하고 신빙성이 없다고 간주해 경험적 연구 방법에 의한 연구 결과를 신뢰할 수 없다고 평가.
- 컴퓨터 과학의 발전을 통해 많은 언어 자료를 전자 말뭉치로 쉽게 구축하고 분석할 수 있는 길이 열리고, 언어학자들에 의해 경험적 연구의 필요성이 재인식되면서 말뭉치 분석은 언어학의 여러 분야에서 효율적인 방법론으로 자리잡게 됨. 전자 말뭉치 (electronic corpus) 사용이 일반화되면서 말뭉치라는 용어는 주로 전자 말뭉치를 지칭하게 됨.
사회언어학 연구 주제 중에는 방언 간 변이, 문어와 구어의 상황변이어 (register) 차이, 언어 변화, 사회언어학적 변이, 성별어 연구 등에서 전자 말뭉치를 자주 활용.
말뭉치를 사용한 사회언어학 연구의 중요한 특징은 자연 과학의 실험 연구와 마찬가지로 기존 연구의 연구 방법을 타 연구자가 그대로 복제하고 사용해 연구 결과를 검정하는 것이 가능하다는 것. 이 장점은 사회언어학의 다른 방법론과 뚜렷하게 구분됨. 말뭉치 분석의 또 다른 특징으로는 분석 결과가 계량적이라 계량사회언어학을 제외한 사회언어학의 다른 분야와 구별된다는 점.
말뭉치 분석의 방법론적 제약
- 어휘의 비교 연구나 문법 구문의 연구 등에서 나타나는 말뭉치 크기의 문제. 특히 어휘 연구에서 효과적이고 정확한 연구 분석이 이루어지기 위해서는 말뭉치의 크기가 지금까지 구축한 말뭉치보다 방대해야 함.
- 말뭉치 구축시 선택되는 문어나 구어 텍스트의 대표성 문제. 문어나 구어의 텍스트 장르와 유형은 아주 다양한데 이들 중 어떤 것들을 말뭉치 구축에 선택하고, 그 유형들을 어떤 비중으로 포함시키는가에 대한 결정에는 상당히 자의적 요소가 포함됨. 그러므로 이러한 결정을 바탕으로 구축된 문어나 구어 말뭉치가 특정 언어의 대표성을 가질 수 있냐는 문제가 있음.
말뭉치 분석 방법론은 컴퓨터 과학의 지속적 발달과 더불어 새롭게 구축된 말뭉치들과 정교하게 개발된 분석 도구로 인해 더욱 진화중. 특히 상당수의 말뭉치나 분석 도구를 인터넷상에서 바로 사용할 수 있게 된 점은 말뭉치 분석 방법론의 중요한 발전임. 이와 더불어 구어 말뭉치의 진화도 매우 중요함. 구어 말뭉치는 기존의 구어를 전사한 텍스트 자료를 뛰어넘어 텍스트 자료의 소리 파일이 연결되어 원하는 경우 바로 소리를 들을 수 있는 음성 말뭉치가 개발됨. 그리고 그 수도 증가하고 있는 중.