ASAPAi Soon As Possible · AI·테크 이슈를 가장 빠르게
Article

소형 언어 모델(SLM)이란

AASAP
2026-06-12 · 2분 읽기

소형 언어 모델(SLM)은 파라미터가 대략 10억~100억 개 규모로 경량화돼 적은 자원으로도 구동되는 언어 모델입니다. 수천억 개 파라미터를 쓰는 LLM과 달리, SLM은 2023년 Microsoft Phi와 Google Gemma가 등장하며 본격화됐고 2026년 현재 스마트폰·노트북·산업 기기에서 직접 추론하는 표준 선택지로 자리잡았습니다. 핵심은 작은 크기로 특정 작업에 집중해 LLM에 근접한 품질을 훨씬 낮은 비용으로 내는 것입니다.

소형 언어 모델 SLM과 대형 언어 모델 LLM의 파라미터 규모, 실행 환경, 비용 차이를 블루와 틸 색으로 비교해 도식화한 그림
소형 언어 모델 SLM과 대형 언어 모델 LLM의 파라미터 규모, 실행 환경, 비용 차이를 블루와 틸 색으로 비교해 도식화한 그림

SLM과 LLM의 차이

SLM과 LLM의 가장 큰 차이는 파라미터 규모와 그에 따른 실행 환경·비용입니다. LLM은 GPT-4, Claude처럼 수천억 개 파라미터를 데이터센터 GPU에서 돌리지만, SLM은 10억~100억 개 파라미터로 경량화돼 스마트폰이나 단일 GPU에서도 실행됩니다. 두 모델의 핵심 항목을 비교하면 다음과 같습니다.

항목소형 언어 모델(SLM)대형 언어 모델(LLM)
파라미터약 10억~100억 개수백억~수천억 개
실행 환경스마트폰·노트북·단일 GPU데이터센터 GPU 클러스터
추론 비용토큰당 비용 낮음·로컬 무료토큰당 과금 높음
응답 속도빠름(작은 연산량)상대적으로 느림
강점특정 작업 특화·온디바이스범용 추론·장문 생성
대표 모델Phi-3, Gemma 2, Llama 3.2GPT-4, Claude, Gemini Ultra

SLM의 장점

SLM의 가장 큰 장점은 적은 연산 자원으로도 빠르고 저렴하게 추론할 수 있다는 점입니다. 파라미터가 LLM의 수십분의 1 수준이라 4비트 양자화 시 모델 용량이 2GB 안팎으로 줄어, 스마트폰이나 노트북에서 인터넷 없이 동작합니다. 또한 토큰당 과금 부담이 작아 운영 비용을 크게 낮추고, 데이터가 기기 밖으로 나가지 않아 프라이버시를 지키며, 특정 업무에 맞춰 파인튜닝하기도 쉽습니다.

SLM 활용 사례

SLM의 대표적 활용 사례는 온디바이스 비서, 사내 문서 검색, 고객 응대 챗봇처럼 작업 범위가 좁고 응답 속도가 중요한 분야입니다. 2026년 기준 Apple과 Google은 스마트폰 메시지 요약·번역에 3B 안팎 모델을 탑재하고 있고, 기업은 민감한 내부 데이터를 외부로 보내지 않으려고 사내 서버에 SLM을 올려 RAG 검색에 씁니다. 산업 현장에서도 코드 자동완성, 음성 명령 처리 같은 단일 목적 작업에 SLM이 널리 쓰입니다.

대표적인 SLM 모델

대표적인 SLM 모델은 Microsoft Phi-3, Google Gemma 2, Meta Llama 3.2, Alibaba Qwen2.5 네 가지입니다. Phi-3 mini는 3.8B 크기로 작은 규모 대비 추론 성능이 뛰어나고, Gemma 2는 2B·9B 버전으로 오픈소스 생태계에서 널리 포팅됩니다. Llama 3.2의 1B·3B는 모바일 이식이 활발하며, Qwen2.5는 2026년 들어 한국어를 포함한 다국어 품질이 크게 개선돼 로컬 챗봇에 실사용되고 있습니다.

SLM의 한계

SLM의 핵심 한계는 작은 파라미터 규모 탓에 복잡한 추론과 폭넓은 지식 작업에서 LLM보다 정확도가 떨어진다는 점입니다. 10억~100억 개 파라미터 모델은 수천억 개 규모의 GPT-4나 Claude가 푸는 다단계 논리·장문 생성·전문 지식 질의에서 한계를 보입니다. 또한 학습 데이터 범위가 좁아 환각이 늘 수 있어, 2026년 현재 대부분의 실서비스는 SLM에 RAG 검색을 결합해 정확도를 보완합니다.

← 전체 글 보기