DEV/nlp

NLP 4. 불용어(Stopword), 정수 인코딩(Integer Encoding), 패딩(Padding)

석봉 2024. 1. 17. 15:21

불용어(Stopword)

 

 - 데이터 중 유의미한 단어 토큰만 선별하기 위해 큰 의미가 없는 단어 토큰을 제거하는 작업이 필요함.

 - 자주 등장하지만 분석에 있어서 큰 도움이 되지 않는 단어들을 제거.

 

정수 인코딩(Integer Encoding)

 

 - 컴퓨터는 텍스트보다 숫자를 더 잘 처리함.

 - 자연어 처리에서는 텍스트를 숫자로 맵핑(mapping) 시키는 기법을 많이 사용함.

 - 보통은 단어 빈도수를 기준으로 정렬(인덱싱)함.

 

패딩(Padding)

 - 서로 다른 문장의 길이를 맞춰주는 작업. (행렬 작업을 위해)

 - Numpy tensorflow.keras.preprocessing.sequence pad_sequences 등을 사용하여 작업.

 

functions

 - 영어의 불용어 : nltk.corpus의 stopwords

 - 한국어의 불용어 : https://www.ranks.nl/stopwords/korean

 

 


 

https://seokbong.tistory.com/239

 

NLP 3. 어간 추출(Stemming) / 표제어 추출(Lemmatization)

어간 추출(Stemming) / 표제어 추출(Lemmatization) - 서로 다른 단어들이지만, 하나의 단어로 일반화시킬 수 있다면 하나의 단어로 일반화시켜 문서 내 단어수를 줄이는 과정 표제어 추출 - 단어의 형태

seokbong.tistory.com