-
NLP 4. 불용어(Stopword), 정수 인코딩(Integer Encoding), 패딩(Padding)DEV/nlp 2024. 1. 17. 15:21
불용어(Stopword)
- 데이터 중 유의미한 단어 토큰만 선별하기 위해 큰 의미가 없는 단어 토큰을 제거하는 작업이 필요함.
- 자주 등장하지만 분석에 있어서 큰 도움이 되지 않는 단어들을 제거.
정수 인코딩(Integer Encoding)
- 컴퓨터는 텍스트보다 숫자를 더 잘 처리함.
- 자연어 처리에서는 텍스트를 숫자로 맵핑(mapping) 시키는 기법을 많이 사용함.
- 보통은 단어 빈도수를 기준으로 정렬(인덱싱)함.
패딩(Padding)
- 서로 다른 문장의 길이를 맞춰주는 작업. (행렬 작업을 위해)
- Numpy나 tensorflow.keras.preprocessing.sequence의 pad_sequences 등을 사용하여 작업.
functions
- 영어의 불용어 : nltk.corpus의 stopwords
- 한국어의 불용어 : https://www.ranks.nl/stopwords/korean
https://seokbong.tistory.com/239
'DEV > nlp' 카테고리의 다른 글
NLP 자연어 처리 정리 1 (0) 2024.08.22 LLaMA2 Meta의 LLM... (1) 2024.04.18 NLP 3. 어간 추출(Stemming) / 표제어 추출(Lemmatization) (0) 2024.01.17 NLP 2. 정제(Cleaning) / 정규화(Normalization) (0) 2024.01.17 NLP 1. 토큰화 (Tokenization) (0) 2024.01.17