-
NLP 2. 정제(Cleaning) / 정규화(Normalization)DEV/nlp 2024. 1. 17. 14:50
정제(Cleaning) / 정규화(Normalization)
- 토큰화 전, 후 데이터 용도에 맞게 정제 및 정규화를 하게 됨.
- 정제(Cleaning) : 갖고 있는 코퍼스로부터 노이즈를 제거
- 정규화(Normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듬
- 완벽한 정제 작업은 어렵기 때문에 적당선에서 종료하는 경우가 많음
https://seokbong.tistory.com/239
https://seokbong.tistory.com/237
'DEV > nlp' 카테고리의 다른 글
NLP 자연어 처리 정리 1 (0) 2024.08.22 LLaMA2 Meta의 LLM... (1) 2024.04.18 NLP 4. 불용어(Stopword), 정수 인코딩(Integer Encoding), 패딩(Padding) (0) 2024.01.17 NLP 3. 어간 추출(Stemming) / 표제어 추출(Lemmatization) (0) 2024.01.17 NLP 1. 토큰화 (Tokenization) (0) 2024.01.17