Seonggon Cho

Seonggon Cho

가짜 개발자

텍스트 데이터 분석

최대 1 분 소요

Tokenizing

Tokenize

 import nltk # Natural Language TooKit
     token = nltk.word_tokenize(sentence) # 문장을 토큰(단어)화하여 리스트 형태로 만듬

     nltk.post_tag(token) # 토큰에 명사, 형용사 등 품사별로 구분해주고 짝지어줌

Token에서 Stop_words(불용어) 제거

불용어 사전 불러오기

 from nltk.corpus import stopwords

 stopWords = stopwords.words.('english') # 영어에서 문장 내에 의미 없는 불용어를 불러오는 함수로 print하게 되면 큰 의미 없는 말들이 나옴

 stopwords.fileids() # 가능한 언어 어떤 것이 있는지 알려주는 함수

불용어 사전은 모두 소문자로 되어있어 Token도 소문자로 전환하기
- Stop_words는 Customizing 가능 ```python result = []

for token in tokens:

 if token.lower not in stopWords:
         result.append(token)  ```

Lemmatizing (단어의 기본 사전화)
- nltk.wordnet.WordNetLemmatizer() Str, 품사를 넣으면 lamma를 출력하는 함수
- lemmatizer와 pos_tag를 for문에 담아 돌리면 사전형을 불러옴

공유하기

Twitter Facebook LinkedIn

댓글남기기

참고

웹 브라우저에 URL 입력시 일어나는 일

최대 1 분 소요

웹브라우저에 URL 입력시 일어나는 일

11.클래스 기반 뷰

최대 1 분 소요

클래스 기반 뷰 (CBV)

10.URL Dispatcher와 정규표현식

1 분 소요

URL Dispatcher

9.다양한 응답의 함수 기반 뷰

1 분 소요

View 1개의 HTTP 요청(Request)에 대해 -> 1개의 뷰가 호출(response)