-
NLP 3. 어간 추출(Stemming) / 표제어 추출(Lemmatization)DEV/nlp 2024. 1. 17. 15:08
어간 추출(Stemming) / 표제어 추출(Lemmatization)
- 서로 다른 단어들이지만, 하나의 단어로 일반화시킬 수 있다면 하나의 단어로 일반화시켜 문서 내 단어수를 줄이는 과정
표제어 추출
- 단어의 형태가 다르더라도 같은 뿌리를 가지고 있는 경우 뿌리를 찾아 단어의 개수를 줄일 수 있는지 판단.
- ex) am, are, is —> be (표제어는 be)
어간 추출
- 어간을 추출하는 작업
functions
- 영어의 표제어 추출 : nltk.stem의 WordNetLemmatizer
- 영어의 어간 추출 : nltk.stem의 PorterStemmer, LancasterStemmer
https://seokbong.tistory.com/240NLP 4. 불용어(Stopword)
불용어(Stopword) - 데이터 중 유의미한 단어 토큰만 선별하기 위해 큰 의미가 없는 단어 토큰을 제거하는 작업이 필요함. - 자주 등장하지만 분석에 있어서 큰 도움이 되지 않는 단어들을 제거. func
seokbong.tistory.com
https://seokbong.tistory.com/238
NLP 2. 정제(Cleaning) / 정규화(Normalization)
정제(Cleaning) / 정규화(Normalization) - 토큰화 전, 후 데이터 용도에 맞게 정제 및 정규화를 하게 됨. - 정제(Cleaning) : 갖고 있는 코퍼스로부터 노이즈를 제거 - 정규화(Normalization) : 표현 방법이 다른
seokbong.tistory.com
'DEV > nlp' 카테고리의 다른 글
NLP 자연어 처리 정리 1 (0) 2024.08.22 LLaMA2 Meta의 LLM... (1) 2024.04.18 NLP 4. 불용어(Stopword), 정수 인코딩(Integer Encoding), 패딩(Padding) (0) 2024.01.17 NLP 2. 정제(Cleaning) / 정규화(Normalization) (0) 2024.01.17 NLP 1. 토큰화 (Tokenization) (0) 2024.01.17