Dec 2, 2025

저전력 AI 칩 (25.12.02)

Executive Summary

저전력 엣지 AI 칩 시장은 개인 정보 보호, 지연(latency) 감소, 클라우드 비용 절감 등의 요구에 힘입어 급속히 성장하고 있다. 글로벌 예측에 따르면 엣지 AI 칩 시장은 2024~~2035년간 연평균 20~~30% 대의 폭발적 성장이 전망된다. 이를 뒷받침하듯 스마트폰·IoT·로보틱스 등 다양한 분야에서 AI 온디바이스 수요가 빠르게 늘고 있다.

기술 측면에서는 GPU/CPU 대비 연산밀도가 높은 NPU(Neural Processing Unit)나 초저전력 MCU(TinyML) 등 특수 구조가 전력 효율성을 제공하며, 메모리 내 연산(IMC), 스파이크 신경망(뉴로모픽) 등 혁신적 접근도 주목된다. 주요 스타트업으로는 Hailo, SiMa.ai, Mythic, Graphcore, Horizon Robotics, FuriosaAI, Rebellions 등 다수가 활발히 경쟁 중이다. 이들은 각각 독창적 아키텍처와 첨단 공정을 활용하여 10~100 TOPS 이상의 성능(또는 몇 TOPS/W급 효율)을 내며 시장을 개척하고 있다. 그러나 Apple·Qualcomm·NVIDIA·Google·ARM 등 빅테크가 자체 NPU·DSP 칩을 보유하고 있어 진입 장벽도 높다.

투자자 관점에서는 기술의 검증 가능성과 고객 확보 여부, 팹리스 리스크(파운드리 의존), 성장 포인트(예: 엣지 LLM, AR/VR) 등을 면밀히 평가해야 한다. 종합하면, 저전력 AI 칩 시장은 기술적 혁신과 수요 증가에 힘입어 큰 기회가 있지만, 경쟁이 매우 치열하고 위험 요소도 상존하므로 심도 있는 분석과 전략적 투자가 필수적이다.

1. 기술 분석

엣지 AI 요구조건: TinyML 영역에서 정의되는 극초저전력 기기는 1mW 이하의 전력 예산과 32~512KB 수준의 메모리만으로 동작하도록 설계된다. 이와 대조적으로 GPU/CPU는 수십 ~ 수백 와트를 소모하므로, 엣지용 AI 칩은 밀집된 연산 성능과 저전력 설계가 필수다. 또한 실시간 응답성을 위해 몇십 밀리초 이내의 레이턴시, 제한된 온디바이스 메모리 활용 등이 요구된다.
GPU/CPU 대비 구조적 차이: GPU는 광범위한 병렬 벡터 연산과 대규모 메모리 캐시를 갖추나 높은 전력·전압에서 동작한다. 반면 NPU는 뉴럴넷 연산에 특화된 다수의 MAC(Multiply-Accumulate) 유닛과 워크로드 전용 데이터플로우를 채택해 연산밀도를 높이고 전력효율을 극대화한다. 예를 들어 Hailo-8은 structure-defined dataflow 구조로 26 TOPS 연산을 9.3W 미만에서 처리해 동급 GPU 대비 수십 배 높은 효율을 보인다. DSP는 오디오/통신용으로 발달한 VLIW 구조를 갖지만, 최신 칩에서는 AI 행렬 연산을 가속하는 유닛을 추가해 AI 기능을 수행한다(예: Qualcomm Hexagon).
TinyML: MCU 기반 초저전력 기기(TinyML)는 수백㎂ 수준의 저전력으로 동작하며, 신경망 모델은 강한 압축과 양자화·희소성을 활용해 실행된다. TinyML은 클라우드 기반 AI 대비 뛰어난 레이턴시 및 프라이버시 장점을 가진다. MCU 디바이스는 수십~수백㎾Hz 클럭, 몇백 KB SRAM/플래시만으로 간단한 CNN/RNN 추론을 수행하며, 고성능보다 배터리 수명을 중시한다.
In-Memory Compute (IMC): 메모리 내에서 행렬 연산을 수행하는 IMC 기술은 데이터 이동을 최소화해 전력 소모를 줄인다. 대표적으로 Mythic은 플래시 메모리 셀을 활용한 아날로그 연산(Analog Matrix Processor)을 통해 25 TOPS를 ~4W 수준에서 처리(≈8.3 TOPS/W)하며, GPU 대비 수십 배 전력 효율을 달성했다. Axelera의 D-IMC(Digital In-Memory) 기술도 128MB 온칩 SRAM과 200GB/s 메모리 대역을 갖춰 메모리 병목을 해소하며 629 TOPS(INT8) 연산을 지원한다.
Neuromorphic: 뉴로모픽 칩은 뇌 신경망처럼 이벤트 기반 스파이킹 연산으로 극단적인 저전력을 추구한다. 미국 인텔의 Loihi(와이어드 바닐라 바이프로젝트)는 수십 mW 수준에서 동작하며 전력 효율이 뛰어나지만, 상용화된 사례는 제한적이다. Neuromorphic 초기 목표였던 뇌 수준 효율 달성은 연구 단계에 머무르고 있으며, 대부분의 상용 제품(저전력 센서 제외)은 디지털 NPU 방식으로 전환되고 있다.
양자화·희소성·모델 압축: 엣지 칩은 주로 8-bit, 4-bit 같은 낮은 정밀도의 양자화 인티저 연산을 지원한다. 예를 들어 Kneron의 KL730 SoC는 3.6 TOPS@INT8, 7.2 TOPS@INT4를 제공하며, KL530은 INT4만으로 1 TOPS를 낼 수 있다. Edge TPU도 4 TOPS@2W(2 TOPS/W)를 달성할 정도로 저전력 양자화 추론에 최적화되었다. 이 외에도 네트워크 희소성(Zeros Skip) 및 지식 증류 같은 모델 압축 기법이 널리 활용되어 메모리·연산량을 줄인다.
SoC 통합 및 메모리 최적화: 대부분의 엣지 NPU는 CPU/GPU 등과 통합된 SoC 형태로 제공된다. 예를 들어 Horizon의 Journey 6 시리즈는 CPU, BPU(NPU), GPU, MCU를 하나의 SoC에 통합해 전원·보드 복잡도를 줄였다. 대용량 연산을 위해서는 HBM(High Bandwidth Memory)나 대규모 온칩 SRAM이 활용되며, 메모리 대역폭 최적화(ON/OFF 칩 캐시)도 중요하다. Axelera는 128MB 온칩 L2 SRAM과 200GB/s LPDDR5 인터페이스를 갖춰 데이터 이동을 최소화한다.
파운드리 특화 기술: 초저전력/초고속 구현을 위해 FD-SOI 공정(예: GF 22FDX)을 활용한 MCU, 12~16nm 저전력 공정(TSMC 12FFC/16FFC) 등이 사용된다. 최고 성능 NPU는 TSMC 7nm/5nm(예: Horizon 6P 7nm, SiMa.ai 16nm→6nm 전환)과 같은 최신 공정을 채택한다.

2. 아키텍처 및 구조 비교

GPU vs NPU: GPU는 대규모 벡터/행렬 연산에 유연하지만 높은 전력을 소모한다. 반면 NPU는 단순화된 신경망 연산 유닛(MAC)로 구성되며, 계층별로 고정된 데이터플로우로 효율적이다. 예를 들어 Hailo-8 NPU는 계층 구조별로 연산 유닛과 메모리를 분산 배치하여 전력 소모를 최소화한다. Graphcore IPU는 1,472개의 미세 연산 코어를 칩에 집적하고 900MB 온칩 메모리로 층간 메모리 전송을 줄였다.
DSP: DSP는 주로 음성/신호 처리용으로 설계된 VLIW 구조지만, 최근에는 행렬 연산 유닛을 추가하여 AI 가속 기능을 강화했다. Qualcomm Hexagon DSP는 멀티스레드(VLIW+SMT) 구조로 음성·영상 처리에서 진화를 거듭했으며, 최신 Snapdragon에는 별도 NPU를 포함해 통합 AI 가속 플랫폼으로 발전하고 있다.
TinyML MCU: MCU 기반 TinyML 칩은 Cortex-M/M0급 저전력 CPU에 추가된 작은 NPU 엔진 또는 DSP로 구성된다. 대표적으로 Ambiq의 Apollo 시리즈는 Sub-threshold 저전력 트랜지스터를 활용해 수백㎂레벨 동작을 실현하며, 센서 신호 전처리와 간단한 NN 추론을 동일 칩에서 수행한다. 이들은 수백 KB 내외 SRAM/플래시를 갖추고 RTOS 또는 bare-metal 상태에서 동작한다.
In-Memory Compute: Mythic AMP M1076 칩은 플래시 메모리 셀을 수직으로 쌓아(weight 스토어) 동시에 행렬 연산을 수행한다. 이 온칩 메모리 집적 방식은 데이터 이동을 근본적으로 줄여 높은 TOPS/W를 구현한다. Axelera Europa AIPU 역시 D-IMC 기술로 각 코어에 온칩 메모리를 내장하여 병목을 해소했다.
Neuromorphic: Intel Loihi 등 뉴로모픽 칩은 스파이크 뉴런 회로를 사용해 이벤트가 발생할 때만 연산해 극도로 낮은 전력을 목표로 한다. 다만 현재 상용화된 제품은 예를 들어 Intel이 발표한 코호트 2(와이어드 바닐라)를 제외하면 대부분 연구 단계에 있다.

아키텍처별 성능 비교 (예시):

Hailo-8 NPU: 구조화된 데이터플로우, 26 TOPS @ 9.3W(≈2.8 TOPS/W).
Mythic AMP: 80M weight 온칩 플래시, 25 TOPS @ 3-4W(≈8.3 TOPS/W).
Graphcore GC2 IPU: 900MB SRAM, 350 TFLOPS(벡터) 내부 peak, 주로 데이터센터 사용.
Google Edge TPU: 4 TOPS @ 2W(2 TOPS/W).
Mobileye EyeQ6: 34 TOPS @ 35W(7nm), 주로 ADAS.
Kneron KL730: 12nm SoC, 3.6 TOPS @ INT8, 7.2 TOPS @ INT4.

3. 시장·수요 분석

시장 수요 전망: 엣지 AI는 스마트폰, 웨어러블, IoT, 로보틱스, 드론, 자율주행차(ADAS), 스마트 가전, 헬스케어 모니터링, 산업용 센서 등 광범위한 분야에서 채택이 확대될 전망이다. 스마트폰에서는 Apple, Google, Huawei, Samsung 등 주요 업체가 NPU를 탑재하며 AI 처리 기능을 강화하고 있다. 예를 들어 2025년까지 AI 스마트폰 관련 지출이 전체 AI 지출의 20%를 차지할 것이라는 전망도 나왔다. 웨어러블·IoT 디바이스는 수백 mW 이하 전력의 MCU+NPU 솔루션이 사용되며, 산업용 엣지 장비와 로봇은 NVIDIA Jetson, SiMa.ai 등 고성능 저전력 솔루션을 채택 중이다.
시장 규모 및 성장률: 다양한 보고서에서 엣지 AI 시장의 성장성을 강조한다. Data Intelligence는 엣지 AI 칩 시장이 2024년 $7.5B에서 2032년$ 27.1B(연평균 17.4%)로 성장할 것으로 예상했다. ResearchAndMarkets는 2025년 $24.05B에서 2035년$ 356.84B로(연평균 27.7%) 급팽창할 것이라 예측한다. GrandView는 2024년 $20.78B에서 2030년$ 66.47B(21.7%)로 성장한다고 전망했다. 이러한 전망은 IoT 디바이스의 폭발적 증가와 5G/차세대 네트워크, 데이터 프라이버시 강화 요구가 주요 원인으로 지목된다.
정부·공공 프로젝트: 미국, 중국, 유럽 등 주요국은 스마트 시티, 스마트 제조, 자율무기 시스템 등 국책 프로젝트에서 온디바이스 AI 도입을 장려한다. 예를 들어 스마트 도시 영상 분석과 같은 분야에서 엣지 AI 처리가 중요해지고 있으며, 한국 정부도 “AI 반도체 선도 프로젝트” 등을 통해 관련 스타트업 지원을 강화하고 있다.
산업별 영향: 저전력 AI는 산업 전반의 자동화 및 스마트화를 촉진한다. 예컨대 제조업에서는 배터리 교체 없이 장시간 동작하는 센서가 설비 이상을 실시간으로 감지하고, 소매·물류에서는 카메라 기반 모니터링이 비용 효율적으로 이루어진다. 전력 효율 향상과 추론 비용 절감은 클라우드 의존도를 낮춰 장기 운영비용을 감소시키며, 실시간 제어가 필요한 자율주행·로봇 분야에서 필수 기술이 되고 있다.

4. 밸류체인 분석

팹리스 → 파운드리: 설계를 전문으로 하는 팹리스 기업(스타트업)이 AI 칩을 기획·설계하며, 실제 제조는 파운드리(파운드리 예: TSMC, GF, 삼성 파운드리)에서 수행된다. 저전력 칩은 공정 특성에 민감하여 GF 22FDX(FD-SOI)와 같은 초저전력 공정, TSMC 12/16LP나 7~5nm 공정 등이 활발히 활용된다. 예를 들어 Horizon Journey 6P는 TSMC 7nm, SiMa.ai의 초기 MLSoC는 16nm, 차세대 Modalix는 6nm를 사용한다.
IP 공급자: AI 칩 설계에는 Arm(코어·Ethos NPU), Cadence/Cenos/SiPearl(맞춤 IP), Synopsys(OpenVINO IP) 등 다양한 IP 기업의 솔루션이 사용된다. 예를 들어 ARM Ethos-U85는 4TOPS급 NPU 코어(IP)로서 에너지 효율적 엣지 AI를 지원한다.
패키징/OSAT: AI 칩의 패키징에는 일반 패키지 외에도 SiP(System-in-Package), 칩렛, PoP 등이 활용된다. 특히 대용량 메모리(HBM)와 연결을 위한 2.5D/3D 패키징 기술이 중요해졌다. Rebellions는 UCIe(Universal Chiplet Interconnect Express) 기반 칩렛 아키텍처를 사용해 모듈화된 Rebel-Quad를 구현했고, Sapeon은 X220 단일 칩과 듀얼 칩 카드 두 가지 형태로 제품을 제공한다.
모듈·시스템: 최종 단계에서는 칩을 모듈화하여 AI 카메라, 드론, 로봇, 엣지 서버 등 시스템에 통합한다. NVIDIA Jetson 모듈, 구글 Coral USB/PCIe 엣지 TPU 카드, Ambiq/Beyond MCU 보드 등이 그 예다. 또한 IoT 게이트웨이와 센서 모듈 수준에서 AI 칩이 포함된 형태로 공급되는 추세다.
세부 시장 구조: 센서·MCU 시장(예: STMicro, Infineon의 AI MCU)과 전용 Edge NPU 시장(예: Hailo, Kneron), 그리고 AIoT 솔루션(예: AI 카메라, 지능형 로봇) 시장으로 구분된다. 각 영역에서 경쟁 구도와 요구사양이 다르므로 설계 및 제조 전략도 차별화된다.

5. 주요 스타트업 & 기업 분석

미국

Hailo: 이스라엘 출신 스타트업으로, “structure-defined dataflow” 아키텍처의 Hailo-8 칩(16nm 공정)을 개발했다. 26 TOPS 연산을 9.3W 이하(≈2.8 TOPS/W)에서 수행하며, Xavier NX 대비 1/20 전력으로 224×224 영상 672fps를 처리할 수 있다. ADAS, 로보틱스, 스마트 시티 등에 적용을 목표로 하며, NEC, ABB 등과 협력 중이다.
SiMa.ai: 미국 팹리스로, MLSoC 칩을 개발한다. 1세대 MLSoC는 TSMC 16nm 공정으로 50 TOPS(8W 미만 전력) 구현. 신제품 Modalix 시리즈(M50/M100/M200)는 TSMC 6nm 공정에서 각각 50, 100, 200 TOPS 성능을 목표로 하며, 비전·로봇·드론·헬스케어 등 멀티모달 파이프라인 지원을 강조한다. 2022년 10배 향상된 FPS/W 효율을 발표, 펩리스 모델로 전세계 고객을 확보 중이다.
EdgeCortix: 일본 회사로, FPGA와 DSP 기술을 바탕으로 AI 가속기를 개발한다. 최신 SAKURA-II 칩은 6~8W 전력 내에서 60 TOPS(INT8) 및 30 TFLOPS(BF16) 성능을 제공하고, Llama2·Stable Diffusion 등을 지원한다. 4× 상대 솔루션 대비 메모리 대역폭 향상(4배)과 90% 이상 유닛 활용률을 특징으로 한다. 일본 및 글로벌 파트너와 협력 중이다.
Mythic: 아날로그 메모리 기반 AI칩 개발사로, AMP M1076 칩(16nm)은 80M weight를 온칩 저장해 25 TOPS를 3~4W에서 달성(≈8.3 TOPS/W)한다. 완전 온칩 연산 구조로 DRAM 접근 없이 CNN 모델을 실행하며, 8비트/4비트 정밀도를 지원한다. NVIDIA A100 대비 TOPS/W 효율이 월등히 높다. 보안 카메라, 산업용 카메라 등에 채택 사례가 있고, Analog AI 분야의 선도주자이다.
Esperanto Technologies: 1088개 RISC-V 코어를 집적한 ET-SoC-1(7nm, 서버용)를 개발했으나, 데이터센터보다는 코어 수 과잉으로 시장 적중에 실패했다. 2025년 말 IP가 Ainekko에 인수되어 오픈소스로 전환되었다. 원래는 추천 시스템용으로 출범했으나 AI 가속기 시장에서 경쟁력이 부족했음을 반증한다.

유럽/이스라엘

Graphcore: 영국 회사로 IPU(Intelligence Processing Unit)라는 병렬 프로세서를 개발한다. 최신 IPU(Bow, Colossus)는 수천 개의 독립 코어와 약 900MB 온칩 메모리를 2.5D 스택 형태로 집적해, 데이터센터용으로 350 TFLOPS(부동소수점) 이상 성능을 낸다. 주로 AI 연구자와 대규모 서버 인프라를 대상으로 하며, 대규모 분산처리(예: IPU-POD) 솔루션을 제공 중이다.
Axelera AI: 네덜란드 스타트업으로, Europa AIPU 플랫폼을 발표했다. 2세대 AIPU 8개 코어가 디지털 인메모리(D-IMC) 기술과 대형 벡터 엔진을 통합해 INT8 기준 최대 629 TOPS를 지원한다. 128MB 온칩 SRAM과 200GB/s LPDDR5 인터페이스로 메모리 병목을 해소하고, 경쟁사 대비 3-5배의 성능/전력 효율을 달성한다고 밝혔다. 엣지부터 서버까지 적용 가능한 다양한 폼팩터를 제공하며, 자체 SW툴킷(Voyager SDK)을 통한 호환성을 강조한다.
Kneron: 대만 AI 칩 스타트업으로, 코어 AI SoC 제품군을 갖추고 있다. KL730(12nm)은 4× Cortex-A55 CPU와 7nm급 프로세스의 3세대 재구성형 NPU를 통합해 최대 3.6 TOPS(INT8), 7.2 TOPS(INT4)를 구현한다. KL630/KL530은 각각 0.5~1 TOPS(INT8/INT4) 성능을 저전력 환경에 공급하며, 얼굴인식 카메라, 로봇, 드론 등 영상처리 AIoT에 사용된다. Kneron의 칩은 보안 기능과 모델 프레임워크 호환성을 제공하며, 0.9 TOPS/W급 고효율도 강조한다.

아시아

Horizon Robotics: 중국 자율주행 AI칩 전문 기업이다. Journey 시리즈 SoC를 통해 차량용 AI 연산을 제공한다. 예를 들어 Journey 2(2019년)는 4 TOPS@2W(28nm), Journey 3(2020년)는 5 TOPS@2.5W(16nm)를 달성했다. Journey 5(2022년)는 128 TOPS(GPU 96코어)@20W(16nm), 최신 Journey 6P(2024년)는 560 TOPS@30-35W(7nm)에 이른다. 벤츠, BYD 등 완성차와 협업 중이고, ADAS·자율주행 상용화 단계에 진입했다.
Ambiq: 미국(실리콘 밸리) 기반 스타트업으로, 배터리 수명이 극한 상황의 웨어러블·IoT용 마이크로컨트롤러 MCU를 개발한다. Ambiq의 Apollo 시리즈는 특허받은 SPOT(Sub-threshold Power Optimized Technology)으로 클럭당 마이크로암페어급 소비전력을 달성하며, 복합 센서 데이터 처리와 간단한 AI 추론이 가능한 저전력 MCU 플랫폼을 제공한다. Edge AI 애플리케이션용으로는 Cortex-M 기반 비전/오디오 가속기(NPU) 모듈을 통합한 제품도 출시했다.
DeePhi Tech (Xilinx): 중국 AI 스타트업으로, 신경망 프루닝·압축 알고리즘을 FPGA와 결합해 Xilinx FPGA상의 AI 가속 성능을 향상시켰다. 2019년 Xilinx에 인수되어 Zynq/Virtex FPGA 제품군으로 통합되었으나, 현재는 AMD의 Versal ACAP에 영향을 미친 정도이다.
Mobileye (인텔): 이스라엘 출신으로 현재 인텔 계열인 자율주행 칩 전문 회사다. EyeQ SoC 시리즈로 유명하며, 최신 EyeQ6 High(2023)는 35W 7nm 공정으로 34 DL TOPS(INT8)를 지원한다. EyeQ6 Lite는 5 TOPS@7nm(ADAS 카메라용)이고, 차량용 비전/AI 연산에 최적화된 다양한 제품군을 갖추고 있다. 글로벌 완성차·모빌리티 업체에 채택되어 상용 자율주행 플랫폼을 뒷받침한다.

한국

FuriosaAI: 2017년 설립된 AI 칩 스타트업으로, Warboy AI 가속기를 개발했다. Warboy는 INT8 연산 512 TOPS를 50W 미만으로 처리하며(≈10 TOPS/W), INT16 128 TOPS도 지원해 딥러닝 추론에 최적화됐다. 차세대 RNGD(“Renegade”) 칩은 5nm 공정 16코어(3.8GHz, 125W)로 대형 언어모델(LLM) 추론을 목표로 한다. 2023년 수백억원 규모의 Series C 투자를 유치했고, Temasek 등 전략적 파트너도 참여했다. 강력한 성능 대비 낮은 전력 특성을 무기로 데이터센터 및 엣지 LLM 시장 진입을 노린다. 리스크로는 고전력 LLM 시장 진출 경쟁, 팹리스 수율문제가 있다.
Rebellions: 2020년 설립된 엣지 AI 칩 기업으로, 모듈러 칩렛 구조의 Rebel-Quad를 개발했다. 2025년 출시된 Rebel-Quad는 UCIe 칩렛 4개를 묶고 HBM3E 144GB를 탑재해 GPT4급 LLM 추론을 겨냥한다. 자체 발표에 따르면 Llama70B 기준으로 NVIDIA H200 대비 동급 처리량을 절반 전력(약 500W vs 1000W)으로 달성한다. 2023년 Atom 시리즈 NPU(미래컴퍼니와 합병) 생산을 개시했으며, Arm과 삼성벤처스 투자로 2025년 기업가치 1.4조원(1.4BUSD)을 기록했다. 탈중앙화 AI 인프라 수요가 높은 아시아·중동 시장에 주력 중이다. 주요 리스크는 모듈형 설계 복잡도와 대형 투자자 기대 관리다.
Sapeon: SKT에서 스핀오프된 AI 가속기 업체다. X220 AI 칩(28nm)은 106 TOPS@65W 성능을 제공하며, 대용량 추론을 위한 듀얼칩 카드(135W)도 공급한다. 현재는 자체 기술력으로 한국·아시아 클라우드/엣지 서버용 가속기를 출시했고, 2026년경 7nm 기반 X330(예상)을 계획 중이다. SKT가 전액 출자한 관계로 풍부한 자본력과 내수 시장 확보가 강점이나, 글로벌 경쟁사 대비 브랜드 인지도 구축이 과제다.
Nota AI: 칩 제조사가 아니라 AI 모델 경량화·최적화 SW 전문 기업이다. 자체 개발한 ‘NetsPresso’ 플랫폼으로 대형 모델을 경량화해 온디바이스 AI를 가능케 한다. NVIDIA·삼성·퀄컴·ARM 등과 협력하며 방위·항공·자동차 등 고성능 모델 활용 분야를 공략한다. 2025년 KOSDAQ 상장(1차 코스닥)으로 자금을 확보했으며, 2024년 매출 58억→2025년 102억(예상) 등 빠른 성장세다. 칩에 비해 낮은 초기 투자비용과 모델 최적화 역량으로 틈새를 파고들지만, AI HW 생태계 부재와 소프트웨어 중심 비즈니스 모델 리스크는 상존한다.

6. 경쟁사 비교 (Big Tech vs Startup)

Apple Neural Engine: Apple A/M 시리즈 칩에 통합된 16코어 이상의 NPU로, 최적화된 온디바이스 학습·추론을 지원한다. 예를 들어 2025년 발표된 M5 SoC는 16코어 Neural Engine과 각 GPU 코어 당 Neural Accelerator를 탑재해 대형 AI 모델을 로컬에서 고속 처리하도록 설계되었다. 전력 대비 성능이 매우 우수해 데이터 처리 및 비전/자연어 작업에서 탁월하다.
Qualcomm Hexagon DSP/NPU: Snapdragon 플랫폼의 핵심이다. 최신 Snapdragon 8 Gen 2 이상에서는 Hexagon DSP 내에 멀티-스레드 Tensor 유닛을 두고 있어, 통신·미디어 처리와 함께 AI 가속(NPU 기능)을 제공한다. Qualcomm은 새로운 PC 플랫폼에서 Hexagon NPU를 통해 최대 45 TOPS 성능(저전력 모드)까지 달성한다고 밝힌 바 있다(비공개 자료). 모바일 기기에서는 15~30 TOPS급 성능을 구현한다. 빅클럭과 고효율 회로로 설계되어 벤치마크 대비 높은 실질 처리량을 보인다.
Google Edge TPU: 구글의 엣지 전용 AI 칩으로, 구글 코랄 USB/PCIe 모듈 형태로 공급된다. 단일 Edge TPU는 4 TOPS를 처리하며 0.5W/TOPS(2 TOPS/W) 수준으로 매우 효율적이다. 주로 8-bit 양자화된 CNN 모델을 실행하며, 스마트 홈/카메라 등 IoT 기기용으로 최적화되어 있다.
NVIDIA Jetson: NVIDIA의 엣지 AI 컴퓨팅 모듈(Orin, Nano, AGX 등)이다. 예를 들어 Jetson AGX Orin 모듈은 구성에 따라 최대 275 TOPS(@60W)까지 제공하여 로봇, 자율주행, 드론 등 고성능 애플리케이션을 지원한다. 다만 수십 와트급의 소비 전력이 필요하므로, 스타트업의 몇 와트 엣지 칩과는 적용 분야가 다소 차별화된다.
AMD Versal: Xilinx의 Adaptive SoC(ACAP)로, AI 엔진과 FPGA, CPU를 포함한다. Versal AI Edge 시리즈는 확장 가능한 벡터 프로세서 기반 AI 엔진을 탑재해 딥러닝 추론을 수행한다. TOPS보다는 종합적인 성능/W에 중점을 둔다.
ARM Ethos: NPU IP 코어로서 Ethos-U85는 최대 2048 MAC, 4 TOPS(1GHz) 성능을 지원하며, Cortex-M/A 기반 SoC에 통합된다. 삼성, NXP, MediaTek 등의 SoC에 탑재되어 있으나, 단독 칩으로는 제공되지 않는다.
빅테크 자체 설계의 압박: Apple, Qualcomm, Google, Samsung, Amazon(Trainium), Huawei 등 대형 업체들은 자사의 생태계에 최적화된 AI 칩을 자체 개발한다. 이들은 막대한 R&D 투자와 폭넓은 소프트웨어 생태계로 스타트업과 경쟁하며, 진입장벽을 높인다. 예를 들어 Apple은 CoreML/Metal, Qualcomm은 NNAPI/Hexagon SDK 등 개발환경을 제공해 개발자와 고객을 락인한다.
AI 경량화의 영향: AI 모델의 양자화·희소화는 하드웨어 부담을 줄이지만, 모델 발전 속도에 따라 하드웨어 성능 요구도 변한다. 엣지용 경량 모델(ex: MobileNet, Quantized Transformer)은 비교적 작은 하드웨어로도 실시간 추론이 가능하게 했지만, 거대화되는 LLM은 여전히 수십~수백TOPS 칩을 요구하여 하드웨어 경쟁이 치열해지고 있다.

7. 리스크 및 병목 분석

파운드리 의존성: 팹리스 모델의 한계로, 칩 제조는 TSMC·GF 같은 파운드리 의존도가 높다. 선단 공정의 한계점(수율, 생산량, 비용)은 스타트업의 성장에 장애가 된다. 예를 들어 Horizon의 Journey6P는 7nm에 의존하였고, Sapeon X220은 저비용 28nm로 개발되었으나 성능 한계를 가졌다.
기술 구현 난이도: AI 칩 설계는 고난이도 분야로 검증 부담이 크다. 메모리 대역폭, 발열·전력 관리, HW/SW 병렬화 등 복합 문제가 존재한다. 메모리 병목이 대표적인 예로, 대형 모델을 구동할 때 온칩 SRAM만으로 한계가 생긴다.
빅테크 경쟁: 앞서 언급한 대기업들이 이미 시장을 선점하고 있어, 스타트업이 경쟁력을 확보하기 어렵다. 가령 Esperanto는 초기 1088코어 칩으로 주목받았지만 시장 진입에 실패하여 사업을 접었다. 이는 스타트업 리스크를 극명히 보여준다.
에코시스템 부재: GPU와 달리 표준화된 NPU 플랫폼이 부족해 스타트업 제품과 소프트웨어가 유기적으로 연결되기 어렵다. 개발자 확보가 쉽지 않고, 에코시스템 확장에 시간과 비용이 많이 든다.
시장 수용성 및 규제: 엣지 AI 도입은 비용 대비 효용성을 검증해야 하며, 일부 국가의 기술 규제(예: 수출 통제)가 장애가 될 수 있다. 또한 AI 서비스 시장의 불확실성(수익모델 부재)도 위험요인이다.

8. 투자 인사이트

채택 가속 요인: 데이터 프라이버시 보호, 클라우드 서버 유지비, 초저지연 애플리케이션(AR/VR, 자율주행) 등의 요인으로 엣지 AI 수요가 급증하고 있다. 5G/6G 인프라 확충도 실시간 엣지 컴퓨팅을 뒷받침한다.
성공 조건: 스타트업의 승패는 기술 우위 및 제품화 속도, 실제 고객 확보 여부에 달렸다. 핵심 성능지표(전력당 TOPS, 지연시간, 모델 호환성 등)와 함께 IP포트폴리오·특허 경쟁력, SW툴킷 제공 여부, 파운드리 확보 전략 등을 검토해야 한다. 예를 들어 Hailo, Mythic, Furiosa 등은 8~10 TOPS/W급 효율을 입증하며 기술 신뢰도를 얻었다.
Fabless 모델 리스크: 팹리스 기업은 파운드리 용량 경쟁, 설계자금 부담, 긴 개발 주기에 노출된다. 자금 조달 시 파운드리 예치금 및 초기 비용을 충분히 고려해야 한다.
Exit 전략: 인수합병이 주된 상장·회수 경로가 될 전망이다. NVIDIA, Qualcomm, Apple, Samsung, AMD 등 대기업은 검증된 스타트업 기술을 흡수하려는 움직임을 보이고 있다. 최근 FuriosaAI, Rebellions 등은 전략적 투자(Temasek, Arm, 삼성벤처스 등)를 받으며 M&A 후보로 거론된다.
중장기 성장 포인트: 3~7년 내로 온디바이스 LLM, AIoT 장비 대량 보급, 자율기기 상용화가 성장 동력이 될 것이다. 예를 들어 엣지 LLM용 모델(Quantized Transformer)과 AIoT 칩(SiMa.ai, Rebellions) 수요가 빠르게 증가할 것으로 예상된다.
투자 체크리스트: 기술검증(벤치마크 성능, 에너지효율), 고객사 확보 유무(파일럿/PoC 포함), 제품화 가능성(테이프아웃 일정), 경쟁사 대비 차별화, 지재권 소유 여부 등을 면밀히 점검해야 한다. 또한, 엣지 AI 시장 성장 추이와 정부 지원 정책, 파운드리 일정(새 공정 개발 로드맵)도 주요 판단 요소다.

9. 종합 결론

저전력 엣지 AI 칩 시장은 빠르게 성장하고 있으며, 기술 혁신의 핵심 영역으로 부상했다.

핵심 원리 관점에서, Edge AI는 매우 낮은 전력 예산에서 대규모 NN 연산을 가능하게 해야 하므로 특수 아키텍처(NPU, IMC, TinyML 등)가 필수적이다. 구조 면에서는 GPU·CPU 대비 최적화된 MAC 배열, 온칩 메모리 집적, 양자화·희소성 활용, 칩렛 등 최신 패키징 기술이 동원된다.

산업적 의미로는, 엣지 AI는 스마트폰부터 스마트팩토리까지 다양한 분야를 혁신하며 연평균 20% 이상의 고성장이 기대된다. 주요 스타트업과 기업들은 10~100 TOPS 레벨의 칩을 개발·공급하며 경쟁하고 있으나, Apple·NVIDIA·Qualcomm·Google 등의 대기업도 막대한 리소스로 경쟁력을 확보하고 있어 진입 장벽이 높다.

따라서 투자자는 기술 검증된 스타트업을 골라 핵심 지표(성능/Watt, 지연 등)와 비즈니스 실현 가능성을 면밀히 점검해야 한다. 전력 효율과 모델 최적화가 시장 판도를 좌우할 전망이며, 엣지 AI의 확산은 궁극적으로 데이터 프라이버시 강화와 비용 절감이라는 산업적 요구를 충족시키는 방향으로 귀결될 것이다.