DeepSeek는 중국에서 개발된 거대언어 모델 (large language model, LLM)이다. ChatGPT보다 월등히 적은 개발비용과 운용비용으로 ChatGPT의 성능에 근접한 LLM 서비스를 구축했다는 점에서 많은 관심을 받았다.
기존의 LLM 서비스와 다르게 DeepSeek는 인공지능 모델과 구현 코드를 공개 저장소에 오픈소스로 공개하였다. 특히 모델에 대한 기술문서까지 공개했다는 점에서 향후 인공지능 개발과 연구에 많은 변화가 있을 것으로 예상된다.
본 글에서는 파이썬 코드 레벨에서 DeepSeek 모델을 실행하는 개발 환경을 구축한다. 윈도우에서 Anaconda와 PyCharm을 이용하여 개발 환경을 구축했다. Anaconda를 통해 아래와 같이 Ollama 파이썬 라이브러리를 설치한다.
pip install ollama
설치한 Ollama 라이브러리를 이용하여 DeepSeek 모델을 다운 및 실행하기 위해 PyCharm에 아래와 같은 파이썬 코드를 작성한다.
ollama.pull('deepseek-r1:7b')
model = 'deepseek-r1:7b'
prompt = 'What is water?'
answer = ollama.generate(model=model, prompt=prompt)
print(answer['response'])
전체 파이썬 코드에 대한 세부 설명은 아래와 같다.
(1) DeepSeek의 추론모델 중 하나인 DeepSeek-R1을 Ollama 플랫폼에서 다운받는다. 예제에서는 DeepSeek-R1의 파생 모델 중 하나인 DeepSeek-R1:7B를 다운받았다. 다운받은 모델은 Ollama 기본 설정에 의해 `C:\Users\[사용자이름]\.ollama\models` 폴더에 저장된다.
ollama.pull('deepseek-r1:7b')
(2) DeepSeek-R1:7B 모델을 불러와서 사용자 프롬프트 "What is water?"에 대한 답변을 출력한다.
model = 'deepseek-r1:7b'
prompt = 'What is water?'
answer = ollama.generate(model=model, prompt=prompt)
print(answer['response'])
인공지능 분야의 연구자로서 DeepSeek를 사용해보고 느낀 장단점을 아래와 같다.
DeepSeek의 장점:
- 학습된 모델뿐만 아니라 코드까지 공개되었기 때문에 인공지능 연구나 개발에 광범위하게 활용할 수 있다.
- 공개 LLM으로 많이 사용되고 있는 LLaMA에 비해 모델이 매우 작으면서도 뛰어난 답변 성능을 보여주었다.
- DeepSeek 모델에 사용된 기술을 충분히 이해할 수 있을만한 기술문서가 공개되어있다.
DeepSeek에 대해 더 확인이 필요한 사항:
- 생성한 답변의 정확도 측면에서 DeepSeek가 ChatGPT 유료버전을 뛰어넘는 것은 아니다.
- DeepSeek가 생성한 답변 중에서 가끔 영어와 중국어가 섞여있는 경우가 있다.
'IT' 카테고리의 다른 글
Python을 이용한 이용한 유튜브 (YouTube) 댓글 수집 (11) | 2021.01.17 |
---|---|
CORD-19: 인공지능 기반의 COVID-19 연구 (0) | 2020.06.08 |
머신 러닝 기반의 Scientific Application을 위한 파이썬 라이브러리 (0) | 2020.05.21 |
샘플링 (Sampling), 양자화 (Quantization) 및 부호화 (Coding) (0) | 2016.10.24 |
정보이론과 엔트로피 (0) | 2016.10.20 |