DEV/nlp
-
LLaMA2 Meta의 LLM...DEV/nlp 2024. 4. 18. 17:18
회사에서 각종 Language model에 대한 이야기가 나와 오랜만에 찾아보려고 한다. (내 마지막에 본 모델이 자연어 수업 시간에 들었던... 3-4년 전이니... 기술이 빠르게 발전하는 이 시대에는 너무 오래된 정보만 가지고 있다.) Llama2 23년 2월 출시 (Meta) 연구 목적으로만 사용 가능하고 상업적으로 사용 불가했던 기존 Llama 모델과 다르게 연구/상업적 목적 사용 가능한 개방형 LLM (학습) 기존 버전 대비 훈련 말뭉치 증가(40%), 문맥 길이 증가(2배), 출처 확인 및 할루시네이션 줄이고자 노력함 *학습 데이터에서의 한국어 사용 비율 0.06%로 한국어 추론 성능 부족(fine tune 필요, 고립어... 🤦) >> 결론 : LlaMa2를 활용하기엔 좀 오바고 LlaMa2..
-
NLP 4. 불용어(Stopword), 정수 인코딩(Integer Encoding), 패딩(Padding)DEV/nlp 2024. 1. 17. 15:21
불용어(Stopword) - 데이터 중 유의미한 단어 토큰만 선별하기 위해 큰 의미가 없는 단어 토큰을 제거하는 작업이 필요함. - 자주 등장하지만 분석에 있어서 큰 도움이 되지 않는 단어들을 제거. 정수 인코딩(Integer Encoding) - 컴퓨터는 텍스트보다 숫자를 더 잘 처리함. - 자연어 처리에서는 텍스트를 숫자로 맵핑(mapping) 시키는 기법을 많이 사용함. - 보통은 단어 빈도수를 기준으로 정렬(인덱싱)함. 패딩(Padding) - 서로 다른 문장의 길이를 맞춰주는 작업. (행렬 작업을 위해) - Numpy나 tensorflow.keras.preprocessing.sequence의 pad_sequences 등을 사용하여 작업. functions - 영어의 불용어 : nltk.corpu..
-
NLP 3. 어간 추출(Stemming) / 표제어 추출(Lemmatization)DEV/nlp 2024. 1. 17. 15:08
어간 추출(Stemming) / 표제어 추출(Lemmatization) - 서로 다른 단어들이지만, 하나의 단어로 일반화시킬 수 있다면 하나의 단어로 일반화시켜 문서 내 단어수를 줄이는 과정 표제어 추출 - 단어의 형태가 다르더라도 같은 뿌리를 가지고 있는 경우 뿌리를 찾아 단어의 개수를 줄일 수 있는지 판단. - ex) am, are, is —> be (표제어는 be) 어간 추출 - 어간을 추출하는 작업 functions - 영어의 표제어 추출 : nltk.stem의 WordNetLemmatizer - 영어의 어간 추출 : nltk.stem의 PorterStemmer, LancasterStemmer https://seokbong.tistory.com/240 NLP 4. 불용어(Stopword) 불용어(..
-
NLP 2. 정제(Cleaning) / 정규화(Normalization)DEV/nlp 2024. 1. 17. 14:50
정제(Cleaning) / 정규화(Normalization) - 토큰화 전, 후 데이터 용도에 맞게 정제 및 정규화를 하게 됨. - 정제(Cleaning) : 갖고 있는 코퍼스로부터 노이즈를 제거 - 정규화(Normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듬 - 완벽한 정제 작업은 어렵기 때문에 적당선에서 종료하는 경우가 많음 https://seokbong.tistory.com/239 NLP 3. 어간 추출(Stemming) / 표제어 추출(Lemmatization) 어간 추출(Stemming) / 표제어 추출(Lemmatization) - 서로 다른 단어들이지만, 하나의 단어로 일반화시킬 수 있다면 하나의 단어로 일반화시켜 문서 내 단어수를 줄이는 과정 표제어 추출 -..
-
NLP 1. 토큰화 (Tokenization)DEV/nlp 2024. 1. 17. 14:16
자연어 처리 - 자연어 처리에서 수집한 데이터(코퍼스)는 보통의 경우 전처리가 필요함. - 용도에 맞게 토큰화(Tokenization), 정제(cleaning), 정규화(normalization)가 필요함. 토큰화 (Tokenization) - 단어 토큰화(word tokenization) : 토큰을 단어(word)를 기준으로 잡는 경우 (단어 단위로 분리함) - 토큰화 기준은 상황에 따라 달라짐 - 예를 들어 단어 토큰화의 경우 띄어쓰기(whitespace) 기준으로 작업을 할 수 있으며 구두점(punctuation)을 제외할지, 다른 방법으로 토큰화할지는 작업에 따라 달라짐. - ‘(apostrophe)가 있는 경우 어떻게 토큰화를 할 것인가? (don’t, Jone’s 등등…) - 토큰화 방식에 따..