자연어 처리 개요
들어가기에 앞서
해당 내용은 고려대학교 정보공학 교재 시리즈 중 하나인 “자연어처리 바이블”이라는 책에서 필요 개념을 정리 및 발췌했다.
각 분야의 개요 정도만 다루면서 간단하게 넘어가려고 한다. (자세한 설명과 수식을 모두 제외하고 어떤 컨셉으로 자연어처리 기술을 활용하고 있는지만 설명한다.)
자연어처리 응용시스템
1. 개체명 인식 (Named Entity Recognition)
개체명 인식은 질의 답변, 정보 검색, 관계 추출 등을 위한 명명된 개체를 텍스트로 식별하는 작업이다.
2. 언어 모델 (Language Model)
언어 모델이란 언어를 이루는 구성 요소(글자, 형태소, 단어, 문장, 문단 등)에...
다시 공부할 것 모음
들어가기에 앞서
여기 포스트에는 그 당시에는 다른 일을 하느라 다시 공부하지 못했지만 이후에는 꼭 정리가 필요한 개념들을 남겨둔다. 공식적으로 이렇게 올려두면 나중에 까먹지 않고 다시 공부할 수 있지 않을까?
Graph ranking algorithm. PageRank and HITS https://lovit.github.io/machine%20learning/2018/04/16/pagerank_and_hits/
Entropy, Cross-entropy and KL-divergence https://1souljo.github.io/study/2018/02/19/entropy/
...
한국어 NLP 데이터셋과 언어모델(BERT)
들어가기에 앞서 (항상 업데이트 중..📡)
한국어 NLP는 영어에 비해 상대적으로 그 자료가 적은 것 같다. 하지만 처음 NLP 공부를 시작했을 때 이후로 수 많은 능력자분들께서 여러 한국어로 학습시킨 BERT 모델을 공개하고, NLP 커뮤니티가 점점 커져가는 것을 보면 괜스레 같은 배를 탄 느낌이 들어 반갑고 너무 감사드린다.
해당 웹페이지에 있는 것들을 그대로 가져와 정리한 것 뿐이며, 한국어 자연어처리 아카이브로 사용되었으면 한다.
Ⅰ. 한국어 BERT 모델
KorBERT (ETRI + Saltlux) http://aiopen.etri.re.kr/service_dataset.php
KoBE...
에러 노트 (항상 업데이트중)
들어가기에 앞서
코딩 입문자인 나는 매일 같이 수도 없이 많은 에러를 마주친다. 물론 새로운 작업을 할 때는 새로운 에러를 만나는 편이지만 과거에 보았던 같은 에러를 또 다시 만는 경우도 있다. 이럴 때 같은 실수를 반복하지 않고 빠르게 해결할 수 있도록 미래의 나를 위해 만났던 에러들을 여기에 기록해 두려고 한다.
해당 에러의 제목은 목차로 정리됨으로 번호를 붙이지 않고, 현상/해결 과정/결론(+출처)에만 번호를 사용하여 지속적으로 정리할 계획이다. 일정 수준 이상의 에러를 기록하면 증상 별로 다시 정리할 것이다. 물론 그 만큼 쌓일 정도로 성실하게 포스팅할 수 있을 지는 미지수
코랩에서 한글 깨짐 에러
1....
예외처리
들어가기에 앞서
코딩을 하다 보면 너무나 많은 오류와 마주치게 된다. 10분전에 돌아갔던 코드가 아무것도 안바꿨는데 오류가 생긴다던지, 안되던 코드가 갑자기 돌아간다.. 물론 뭔가 상황이 바뀌었기 때문에 변화가 생긴거지만 나는 무엇인가를 바꾼 기억이 없다..
아무튼 오류를 처리하는 방법에 대해서 알아보자. 해당 위키독스를 참고하며 필요한 부분만 그대로 가져왔다.
try-except 문
try:
...
except [발생 오류[as 오류 메시지 변수]]:
...
try, except만 쓰는 방법
발생 오류만 포함한 except문
출처
https://wikidocs.net/30
사전 기반 tokenizer Vs. Subword tokenizer
들어가기에 앞서
이번 포스트에서는 토큰나이져에 대해 알아보자.
세미나 자료 확인 LangCon2020과 허훈 님의 블로그를 그대로 가져와 정리하는 식으로 작성하였다.
토크나이저(tokenizer)란?
문장을 작은 단위로 쪼개는 것을 토큰화 한다고 하며 이를 수행할때 사용하는 것을 토크나이저라고 한다.
기본적으로 ‘시전 기반’과 ‘Subword 기반’ 토크나이저가 있고 차이점은 다음과 같다. 두 종류의 토크나이저는 각자의 장단점도. 사용 목적도 서로 다르다.
Subword 토크나이저는 자주 등장하는 단어를 제대로 인식할 가능성이 높지만,
빈번하지 않는 단어는 사전 기반 토크나이저가 잘 인식한다...
[논문리뷰📄] An approach to discovering new technology opportunities: Keyword-based patent map approach
들어가기에 앞서
공백 기술 도출에 관련된 관련 논문들을 살펴보다가 오래된 논문(2009년)이지만 문제 해결 방향이 비슷하여 빠르게 정리해보려고한다. 해당 논문에는 딥러닝이 사용되지 않았기 때문에 딥러닝을 활용할 수 있는 부분을 찾는 것에 집중하면서 읽었다. 따라서 전문을 리뷰하는 것이 아니라 필요한 부분만 찾아서 정리하였다.
코딩을 못하기도 하고 늦게 접한 산업공학도(바로 나)가 딥러닝을 이용하여 어떤 산업 문제를 풀 수 있을까에 대한 고민이 많다. 그 중 지식재산 중 특허 분야를 택했고, 공백 기술 도출 관련된 관련 연구들을 찾아보는 중이다.
0. 요약
해당 논문의 목적은 새로운 기술 발굴을 위해 키워드 ...
anaconda🐍 재설치 및 jupyter notebook 시작 경로 변경
커널 멈춤 문제
댓글 데이터 전처리 과정 중에 pykospacing가 import가 안되는 문제가 생기고, 맞춤법 검사기 또한 json 파일 관련 문제가 발생했다..
또한 커널이 지속적으로 멈춘다…
여기에서 알려주는 방법들을 모두 시도해보았으나 해결되지 않았다. 그래서 아예 anaconda를 지우고 새로 설치하려고 한다. anaconda를 지우는 방법은 공식 사이트에 잘 나와있다.
우선 anaconda-clean 패키지를 설치하고 실행하여 모든 관련 파일들(패키지, 커널, …)을 하나의 백업 파일로 만들어 준 후 한 번에 삭제하면 된다. 그 후 또 다시 공식 홈페이지에서 알려주는대로 설치를 진행하면 된다. -끝...
14 post articles, 2 pages.