자연어 처리 개요

 

들어가기에 앞서

해당 내용은 고려대학교 정보공학 교재 시리즈 중 하나인 “자연어처리 바이블”이라는 책에서 필요 개념을 정리 및 발췌했다.

각 분야의 개요 정도만 다루면서 간단하게 넘어가려고 한다. (자세한 설명과 수식을 모두 제외하고 어떤 컨셉으로 자연어처리 기술을 활용하고 있는지만 설명한다.)

자연어처리 응용시스템

1. 개체명 인식 (Named Entity Recognition)

개체명 인식은 질의 답변, 정보 검색, 관계 추출 등을 위한 명명된 개체를 텍스트로 식별하는 작업이다.

2. 언어 모델 (Language Model)

언어 모델이란 언어를 이루는 구성 요소(글자, 형태소, 단어, 문장, 문단 등)에 확률값을 부여하여 이를 바탕으로 다음 구성 요소를 예측하거나 생성하는 모델을 말한다. 언어 모델은 크게 확률에 기초한 통계적 언어 모델(Statistical Language Model, SLM)과 인공 신경망에 기초한 딥러닝 언어 모델(Deep Neural Network Language Model, DNN LM)로 나뉜다. 이를 바탕으로 문장 생성, 기계 번역, 음성 인식, 문서 요약과 같은 다양한 자연어처리 문제들을 해결할 수 있다.

3. 정보추출 (Information Extraction)

비정형 텍스트로부터 유용한 정보를 자동으로 추출하기 위한 방법이며, 문서 내 단어 간의 대상 관계를 파악하여 의미적 관계를 추출한다. (엔티티 1, 관계, 엔티티2) 꼴로 나타내며, 예를 들면, ('인하대학교', 'in', '인천') 이다. 즉, 개체명 인식에서 더 나아가 관계 추출(Ralation Extraction)을 포함한다.

4. 질의응답 (Question & Answering)

질의응답 기술은 사용자가 필요한 정보를 자연어 질문으로 입력하였을 때, 시스템이 사용자의 질문에 부합하는 정답을 문서로부터 찾아서 제시하는 기술이다. 그렇기 때문에 질의응답 기술은 자연어처리(NLP)와 정보추출(IE), 정보검색(IR) 기술 등이 포괄적으로 적용되는 응용기술이다.

5. 기계 번역 (Machine Translation)

컴퓨터가 발전함에 따라 번역 작업을 컴퓨터에게 맡기는 ‘기계번역’에 대한 연구이다. 언어학적, 문법적인 규칙을 이용해 문장을 번역하는 ‘규칙 기반 기계번역’과 대량의 예제 문장들(코퍼스)을 바탕으로 두 언어 사이의 상관관계를 통계적을 분석한 모델을 생성하고, 이 모델을 바탕으로 문장을 번역하는 ‘통계 기반 기계번역’이 있다.

6. 자연어 생성

자연어 생성 기법은 이미지 캡셔닝, 요약, 번역, 대화 시스템 등 다양한 작 업에 핵심적인 모듈로 사용되는 한편, 오랫동안 까다로운 작업 중 하나로 여겨져 왔다.

(정리 중.. stay tuned!)

7. 대화 시스템 (Dialog System)

8. 문서 요약 (Text Summarization)

9. 텍스트 분류 (Text Categorization)

딥러닝 기반 자연어처리

1. 딥러닝 기반 한국어 형태소 분석과 품사 태깅

2. 딥러닝 기반 한국어 단어의미 분석

3. 딥러닝 기반 개체명 인식

4. 딥러닝 기반 Question & Answering

5. 딥러닝 기반 기계번역

6. 딥러닝 기반 문장생성

7. 딥러닝 기반 문서 요약

8. 딥러닝 기반 대화 시스템이

9. 딥러닝 기반 SNS(Social Network Service) 분석

10. 응용: 이미지 캡션 생성