한 개발자가 2016년에 생산된 인텔 Xeon 서버로 구글의 최신 오픈소스 모델인 Gemma 4를 구동하는 데 성공했습니다. 사용한 서버는 중고 시장에서 수십만 원이면 살 수 있는 기업용 장비였고, 월정액 구독도 API 호출 요금도 없었습니다. 이 기록이 Hacker News에 공개되자 650개의 추천과 263개의 댓글이 달렸습니다. AI 관련 글에서도 이 정도 반응은 흔하지 않습니다. 단순히 "구형 서버로 최신 AI가 돌아간다"는 사실이 왜 이만한 관심을 끌었는지, 그 이유를 따라가다 보면 비용과 접근성에 대한 꽤 다른 그림이 나옵니다.
AI 서비스는 지금 어떻게 요금을 매깁니까
2023년 이후 AI 서비스 시장에서 가장 빠르게 자리를 잡은 과금 방식은 사용량 비례입니다. 질문 하나, 문서 하나, 요약 하나마다 토큰이 차감됩니다. 동일한 작업을 반복해도 요금은 매번 발생합니다. OpenAI의 GPT-4o, Anthropic의 Claude, Google의 Gemini를 API로 연동하면 이 방식이 기본이고, 월정액 구독을 선택하더라도 사용 한도를 넘으면 추가 요금이 붙습니다.
소규모 팀이 하루에 고객 제안서 10건, 이메일 요약 30건, 간단한 리서치 20건을 AI로 처리한다고 가정하면, 사용 모델과 문서 길이에 따라 월 요금은 30만 원에서 100만 원 수준까지 올라갈 수 있습니다. 개인 사업자 기준으로도 월 10만~30만 원을 AI 서비스 비용으로 지출하는 경우가 적지 않고, 이 비용은 활용이 늘어날수록 같은 비율로 따라 올라갑니다.
이 상황에서 사람들이 하는 행동이 있습니다. 쿼리를 아끼고, 프롬프트를 압축하고, 더 저렴한 모델로 내려가는 것입니다. AI를 적극적으로 쓰기보다 비용 부담을 의식하면서 조심스럽게 씁니다. 도구의 성능이 아니라 비용이 활용의 폭을 결정하는 셈입니다. 이 상황에서 2016년산 Xeon 서버가 최신 AI를 돌렸다는 기록이 나왔습니다.
구형 서버로 최신 AI가 돌아가는 이유
Gemma 4는 구글이 2025년 공개한 오픈소스 AI 모델입니다. 오픈소스이기 때문에 다운로드는 누구나 할 수 있지만, 실제로 운용하려면 상당한 하드웨어가 필요하다는 인식이 컸습니다. GPU 없이는 실용적이기 어렵다는 것이 일반적인 이해였고, 그 결과 많은 개인 사업자와 소규모 팀들은 클라우드 API를 선택해 왔습니다.
여기서 양자화(quantization)라는 기술이 그 전제를 바꿉니다. 원래 32비트 단위로 저장되는 모델의 가중치를 4비트나 8비트로 압축하면, 메모리 사용량이 크게 줄어들고 CPU에서도 추론이 가능해집니다. Gemma 4의 27B 파라미터 버전을 Q4 수준으로 압축하면, 64GB 메모리가 탑재된 서버에서 CPU 기반으로 구동됩니다. llama.cpp 같은 경량화 소프트웨어가 이 과정을 실용적인 수준으로 끌어올렸고, 별도의 딥러닝 엔지니어링 지식 없이도 설치와 실행이 가능한 수준에 와 있습니다.
2016년 출시된 Xeon E5 시리즈는 당시 기업용 서버 시장의 주력 제품이었습니다. 10년이 지났지만 메모리 채널 수와 캐시 설계는 행렬 연산에 여전히 유효합니다. AI 추론 작업이 요구하는 연산의 특성이, 고급 서버 CPU가 원래 잘 처리하도록 설계된 종류의 연산과 상당 부분 겹칩니다. 이 장비는 중고 시장에서 수십만 원이면 구할 수 있고, 메모리 업그레이드를 포함한 총 구매 비용을 50만 원 안쪽으로 맞추는 것도 가능합니다.
"느리면 쓸 수 없다"는 반론은 타당합니다
이 지점에서 합리적인 이의가 나옵니다. CPU 기반 AI 서버의 처리 속도는 실시간 챗봇 운영이나 대용량 문서 배치 처리에 적합하지 않습니다. GPU 서버와 비교하면 속도 차이는 수십 배에서 수백 배까지 벌어집니다. 처리 속도가 서비스 품질과 직결되는 사업 환경이라면, 이 선택지는 처음부터 논의의 대상이 되지 않습니다.
간헐적으로 사용하거나 사용이 피크 타임에 집중된 패턴이라면, 클라우드 API가 중고 서버보다 오히려 효율적인 경우도 분명 있습니다. 상시 운용 서버의 전기료와 유지 부담을 감수하느니, 필요할 때 API를 쓰는 편이 낫다는 판단도 여러 상황에서 맞습니다. 서버를 직접 관리해본 경험이 없는 사람에게는 초기 설정 과정 자체가 상당한 진입 장벽이 됩니다. "그럴 거면 그냥 API 쓰는 게 낫지 않냐"는 질문은 여러 경우에 틀리지 않습니다.
그러나 이 반론들은 모두 "모든 AI 작업이 즉각적인 응답과 높은 처리 속도를 요구한다"는 전제 위에 서 있습니다. 그 전제가 자신의 실제 작업에 맞는지부터 확인해야 합니다.
1인 사업자가 AI를 쓰는 실제 패턴을 보면
1인 사업자나 소규모 팀이 AI를 업무에서 쓰는 방식을 들여다보면, 즉각적인 응답이 반드시 필요한 작업은 생각보다 많지 않습니다. 인터뷰 녹취록을 정리하는 작업, 지난달 고객 이메일에서 패턴을 찾는 작업, 다음 주 제안서의 초안 뼈대를 뽑아두는 작업, 계약서에 특이한 조항이 있는지 검토하는 작업이 그렇습니다. 이 작업들은 한 시간이 걸려도 됩니다. 퇴근 전에 실행을 걸어놓고 다음 날 아침 결과물을 확인하면 충분합니다.
이런 작업들에 로컬 서버의 느린 속도는 장애가 아닙니다. 오히려 데이터 보안 측면에서는 선택지가 됩니다. 외부 API를 경유하면 사내 문서, 고객 정보, 계약 내용이 서버 밖으로 나갑니다. 로컬 서버에서 처리하면 그 경로 자체가 없습니다. 법률 보조 업무, 의료 관련 기록, 기업 기밀을 다루는 직종이라면 이 차이는 단순한 기술 선택 이상의 사안이 됩니다.
비용을 연간으로 환산해보면 숫자가 달리 보입니다. 월 AI 비용이 30만 원이면 1년에 360만 원입니다. 중고 서버와 메모리 업그레이드에 50만 원을 투자하면, 두 달도 채 안 돼 비용이 역전됩니다. 이후로는 전기료만 납니다. 속도에 대한 요구가 낮고, 배치 처리로 가능한 작업이 있다면, 이 계산은 실제로 성립합니다.
도구를 직접 만지는 사람이 먼저 아는 것
개인이 제조 도구를 직접 손에 쥐게 되는 시점에서 어떤 일이 일어나는지, 3D 프린팅 분야가 잘 보여줬습니다. 초기에는 전문가용 장비와 소비자용 기계 사이의 품질 격차가 컸습니다. "저가 기계로는 제대로 된 결과물이 나오지 않는다"는 말이 많았고, 어떤 면에서는 사실이었습니다. 그러나 실제로 기계를 써보는 사람들이 늘어나면서, 많은 작업이 수천만 원짜리 전문가용 장비 없이도 가능하다는 사실이 퍼져 나갔습니다. 외주를 맡겨야 했던 소형 부품이나 맞춤형 케이스, 프로토타입 제작이 개인의 작업대 위에서 이루어지기 시작했습니다.
이때 달라진 것은 장비 성능뿐만이 아니었습니다. 도구를 직접 다루는 사람들이 "이 정도면 충분하다"는 판단 기준을 스스로 갖게 된 것이 변화를 이끌었습니다. 고가 장비를 보유한 전문가가 말하는 '충분한 수준'과, 실제로 그 도구를 일상에서 쓰는 사람이 말하는 '충분한 수준'은 달랐습니다. 후자의 기준이 퍼져 나갈수록 진입 장벽은 실질적으로 낮아졌습니다.
AI 로컬 서버도 비슷한 시점에 와 있습니다. 10년 된 서버로 Gemma 4를 돌린 사람은 "이 정도면 된다"는 판단을 실험으로 확인하고 공개했습니다. 650명이 추천을 눌렀다는 것은, 그 판단을 기다리고 있던 사람이 많았다는 의미이기도 합니다.
지금 확인해볼 수 있는 것
국내 중고 서버 시장은 미국이나 일본만큼 활성화돼 있지 않습니다. "당장 중고 서버를 사야 한다"는 결론을 이 사건에서 바로 끌어낼 수는 없습니다.
대신 현재 사용 중인 AI 서비스 비용을 연간으로 환산해보고, 그 비용을 만들어내는 작업 목록을 한 번 써보는 것을 권합니다. 그 목록에서 즉각적인 처리가 실제로 필요한 것과 그렇지 않은 것을 나눠보면, 비용을 줄일 수 있는 여지가 어디에 있는지 윤곽이 잡힙니다. Ollama나 LM Studio 같은 로컬 AI 실행 도구를 지금 쓰고 있는 컴퓨터에서 한 번 시험해보는 것도 방법입니다. Apple M 시리즈 칩이 탑재된 맥은 메모리를 CPU와 공유하는 설계 덕분에, 소형 AI 모델을 추가 구매 없이 실용적인 속도로 구동할 수 있습니다. 새 장비 없이도 시작 가능한 경우가 많습니다.
어떤 작업을 AI에 맡길 것인가를 먼저 결정한 사람이 도구도 적절하게 고릅니다. 저는 이것이 단순한 비용 절감의 문제라기보다, 작업 흐름에 대한 주도권을 어디에 두느냐의 문제라고 말하고 싶습니다. 10년 된 서버가 최신 AI를 돌린다는 사실이 많은 사람의 관심을 끈 것은, 그 주도권을 가져오는 데 드는 비용이 많은 이들이 짐작한 것보다 낮다는 점을 수치로 보여줬기 때문입니다.



