기술전략 변곡 / 1
1년 전엔 답이 정해져 있었다. 거의 모든 워크로드에서 클라우드 API가 이겼다. 2026년 봄, 그 전제가 흔들린다.
두 가지 힘이 동시에 부딪혔다. 한쪽에선 프런티어 API 가격이 1년 사이 약 80% 떨어졌다 (출처: cloudidr.com / pecollective.com, 2026-04). Claude Opus 4.6은 입력 100만 토큰당 $5, 출력은 $25까지 내려갔고, Gemini 3.1 Pro는 입력 $2 / 출력 $12로 프런티어 최저가를 찍었다. 다른 한쪽에선 오픈웨이트 모델이 같은 시점에 프런티어급에 닿았다. Llama 4·Qwen 3.5·DeepSeek V4·Gemma 4·Mistral Medium 3.5 다섯 개가 2026년 4월 한 달 안에 함께 출시됐고, vLLM (추론 서버 오픈소스) 표준화로 자체 호스팅 단가는 100만 토큰당 $0.17~0.42 범위까지 내려왔다.
결과는 단순하다. 결정 기준이 바뀌었다. 2024~2025년엔 자체 구축이 데이터 주권과 지연시간 측면에서만 정당화됐고, 비용은 거의 항상 API가 이겼다. 2026년엔 비용 격차가 좁아진 대신 어느 쪽이 유리한지가 사용량·민감도·지연시간 세 축에 따라 갈린다. 모두에게 답이 같지 않다는 것이 새 출발점이다.
그렇다면 자기 조직에 맞는 답을 어떻게 찾는가. 산수부터 다시 짜야 한다.
결정 기준이 품질에서 사용량·민감도·지연시간으로 옮겨갔다.