DEV/nlp
-
Ollama python 모델 실행하기.DEV/nlp 2024. 10. 28. 14:16
ollama 모델 설치 참고https://seokbong.tistory.com/303 Mac OS / Windows Ollama로 eeve 모델 설치하여 사용하기M1, M2, M3 실리콘 맥 시리즈에서 Ollama로 eeve를 등록하여 사용해 보았습니다.(Windows도 동작 확인 완료) ollama install : https://github.com/ollama/ollama GitHub - ollama/ollama: Get up and running with Llama 3.1, Mistral, Gemmseokbong.tistory.com응답 값을 Stream으로 받는 방법import ollama # pip install ollama stream = ollama.chat( model='eeve:q..
-
Mac OS / Windows Ollama로 eeve 모델 설치하여 사용하기DEV/nlp 2024. 9. 25. 18:04
M1, M2, M3 실리콘 맥 시리즈에서 Ollama로 eeve를 등록하여 사용해 보았습니다.(Windows도 동작 확인 완료) ollama install : https://github.com/ollama/ollama GitHub - ollama/ollama: Get up and running with Llama 3.1, Mistral, Gemma 2, and other large language models.Get up and running with Llama 3.1, Mistral, Gemma 2, and other large language models. - ollama/ollamagithub.com 그 다음 사용할 모델인 eeve를 준비합니다. (https://huggingface.co/heegy..
-
NLP 자연어 처리 정리 1DEV/nlp 2024. 8. 22. 10:57
[노트]자연어 처리 - Speech Recognition (음성 인식) - Translation (번역) - Text Summary (요약) - Text Classification (분류) 자연어 처리의 요소들 - Sentiment Analysis : 텍스트에 녹아 있는 감성 또는 의견을 파악 - Tokenization : 단어의 최소한의 의미를 파악하는 쪼개기 - Named Entity Recognition : 텍스트로부터 주제 파악하기 - Normalization : 의도된 오타 파악하기 - Dependenct Parsin : 문장 구성 성분의 분석 - Feature Analysis : 음성 데이터로부터 특징을 추출 - Language Model : 언어별로 갖고 있는 특성을 반영 - Deep Lea..
-
LLaMA2 Meta의 LLM...DEV/nlp 2024. 4. 18. 17:18
회사에서 각종 Language model에 대한 이야기가 나와 오랜만에 찾아보려고 한다. (내 마지막에 본 모델이 자연어 수업 시간에 들었던... 3-4년 전이니... 기술이 빠르게 발전하는 이 시대에는 너무 오래된 정보만 가지고 있다.) Llama2 23년 2월 출시 (Meta) 연구 목적으로만 사용 가능하고 상업적으로 사용 불가했던 기존 Llama 모델과 다르게 연구/상업적 목적 사용 가능한 개방형 LLM (학습) 기존 버전 대비 훈련 말뭉치 증가(40%), 문맥 길이 증가(2배), 출처 확인 및 할루시네이션 줄이고자 노력함 *학습 데이터에서의 한국어 사용 비율 0.06%로 한국어 추론 성능 부족(fine tune 필요, 고립어... 🤦) >> 결론 : LlaMa2를 활용하기엔 좀 오바고 LlaMa2..
-
NLP 4. 불용어(Stopword), 정수 인코딩(Integer Encoding), 패딩(Padding)DEV/nlp 2024. 1. 17. 15:21
불용어(Stopword) - 데이터 중 유의미한 단어 토큰만 선별하기 위해 큰 의미가 없는 단어 토큰을 제거하는 작업이 필요함. - 자주 등장하지만 분석에 있어서 큰 도움이 되지 않는 단어들을 제거. 정수 인코딩(Integer Encoding) - 컴퓨터는 텍스트보다 숫자를 더 잘 처리함. - 자연어 처리에서는 텍스트를 숫자로 맵핑(mapping) 시키는 기법을 많이 사용함. - 보통은 단어 빈도수를 기준으로 정렬(인덱싱)함. 패딩(Padding) - 서로 다른 문장의 길이를 맞춰주는 작업. (행렬 작업을 위해) - Numpy나 tensorflow.keras.preprocessing.sequence의 pad_sequences 등을 사용하여 작업. functions - 영어의 불용어 : nltk.corpu..