메타 라마2 로컬에서 사용해보기
https://www.youtube.com/watch?v=k2FHUP0krqg&ab_channel=MatthewBerman
위 링크를 보고 따라해본다.
1. 가상환경 구성 및 접속
conda create -n textgen2-Env python=3.10.9
conda activate textgen2-Env
2. pytorch 설치
이거 하기 전에
nvidia-smi
nvcc --version
이거 두개 해보고, cuda 설치 버전 확인한 다음
https://pytorch.org/get-started/locally/
위 링크로 가서
이런식으로 옵션을 골라주면 Run this command 창에 나오는 것을 복붙해주면 된다.
3. 대화형 ui 설치
git clone https://github.com/oobabooga/text-generation-webui
cd text-generation-webui
pip install -r requirements.txt
4. 대화형 서비스 실행 및 확인
python server.py
url 접속해보기
그럼 요런게 나온다.
5. 허깅 페이스 이용하여 라마2 받고 나서, 대화형 UI에 적용하기
https://huggingface.co/TheBloke/Llama-2-13B-Chat-fp16
라마2는 세가지 모델을 제공하는데, 그중 13b 모델을 이용해보는 것으로....
네모 두개짜리 아이콘을 눌러서 카피해주고
대화형 UI 창으로 가서, Model 탭을 클릭해본다.
우하단에 Download model or LoRA에 아까 복사한 카피 내용을 넣어준다.
다운로드 시작!
대략 40분이 걸렸다...
좌상단 모델 탭에서 방금 다운받은 녀석을 넣어줄 수 있다.
그리고 Load를 눌러준다.
그럼 이런 창이 쭈우우욱 뜨다가
성공적으로 로드 되었다고 한다.
6. 테스트해보기
chat 탭으로 가서 질문을 해봤는데, 이거 생각보다 엄청 느리다. CPU 모드를 사용해서 그런 모양이다.
4090GPU를 사용중인데.. 어떻게 빠르게 할 수 있는 방법이 없으려나?
요렇게 세팅했더니, 문제없이 잘 돌아간다.
그리고 아까 CPU로는 엄청 버벅이면서 51초동안 답변을 만들었는데
바뀐 세팅으로는 더 긴 토큰을 4초만에 답변해서 꽤 빠른 느낌을 받았다.
좀 더 대화해본 결과
오늘은 여기까지만 확인해봐야겠다.