NLP 4. 불용어(Stopword), 정수 인코딩(Integer Encoding), 패딩(Padding)

DEV/nlp 2024. 1. 17. 15:21

불용어(Stopword)

- 데이터 중 유의미한 단어 토큰만 선별하기 위해 큰 의미가 없는 단어 토큰을 제거하는 작업이 필요함.

- 자주 등장하지만 분석에 있어서 큰 도움이 되지 않는 단어들을 제거.

정수 인코딩(Integer Encoding)

- 컴퓨터는 텍스트보다 숫자를 더 잘 처리함.

- 자연어 처리에서는 텍스트를 숫자로 맵핑(mapping) 시키는 기법을 많이 사용함.

- 보통은 단어 빈도수를 기준으로 정렬(인덱싱)함.

패딩(Padding)

- 서로 다른 문장의 길이를 맞춰주는 작업. (행렬 작업을 위해)

- Numpy나 tensorflow.keras.preprocessing.sequence의 pad_sequences 등을 사용하여 작업.

functions

- 영어의 불용어 : nltk.corpus의 stopwords

NLP 3. 어간 추출(Stemming) / 표제어 추출(Lemmatization)

어간 추출(Stemming) / 표제어 추출(Lemmatization) - 서로 다른 단어들이지만, 하나의 단어로 일반화시킬 수 있다면 하나의 단어로 일반화시켜 문서 내 단어수를 줄이는 과정 표제어 추출 - 단어의 형태

seokbong.tistory.com

NLP 자연어 처리 정리 1 (0)	2024.08.22
LLaMA2 Meta의 LLM... (1)	2024.04.18
NLP 3. 어간 추출(Stemming) / 표제어 추출(Lemmatization) (0)	2024.01.17
NLP 2. 정제(Cleaning) / 정규화(Normalization) (0)	2024.01.17
NLP 1. 토큰화 (Tokenization) (0)	2024.01.17

석봉노트 석봉노트