NLP 4. 불용어(Stopword), 정수 인코딩(Integer Encoding), 패딩(Padding)

DEV/nlp

석봉 2024. 1. 17. 15:21

불용어(Stopword)

- 데이터 중 유의미한 단어 토큰만 선별하기 위해 큰 의미가 없는 단어 토큰을 제거하는 작업이 필요함.

- 자주 등장하지만 분석에 있어서 큰 도움이 되지 않는 단어들을 제거.

정수 인코딩(Integer Encoding)

- 컴퓨터는 텍스트보다 숫자를 더 잘 처리함.

- 자연어 처리에서는 텍스트를 숫자로 맵핑(mapping) 시키는 기법을 많이 사용함.

- 보통은 단어 빈도수를 기준으로 정렬(인덱싱)함.

패딩(Padding)

- 서로 다른 문장의 길이를 맞춰주는 작업. (행렬 작업을 위해)

- Numpy나 tensorflow.keras.preprocessing.sequence의 pad_sequences 등을 사용하여 작업.

functions

- 영어의 불용어 : nltk.corpus의 stopwords

NLP 3. 어간 추출(Stemming) / 표제어 추출(Lemmatization)

어간 추출(Stemming) / 표제어 추출(Lemmatization) - 서로 다른 단어들이지만, 하나의 단어로 일반화시킬 수 있다면 하나의 단어로 일반화시켜 문서 내 단어수를 줄이는 과정 표제어 추출 - 단어의 형태

seokbong.tistory.com