딥러닝 - 자연어 처리
- Back of Word
- N - Gram
- TF-IDF
- TF
- 출현빈도 / 단어종류로 판단
- IDF
- Log()
- 문서와 연관성이 없는 단어 삭제 (a, is …)
- TF 단어 갯수
- TF
- TF-IDF Back of Word
- 장점
- 구현하기가 쉽다
- 중요한단어 점수 유지
-
자주 출연하는 불용어 점수 낮춰줌
- 단점
- 단어는 알되 속뜻은 모름
-
다른 단어인데 같은 뜻인 경우를 못잡아냄
- 극복 방법
- LSA(Latent Semantic Analysis) 잠재의미분석
- Word Embeddings(Word2Vec, Glove)
- ConceptNet
-
Euclidean Distance Similarity
-
Cosine Similarity
댓글남기기