网捷达

“周易”X3 NPU精准解决端侧AI大模型运行难题

日期： 2025-11-20

来源：安谋科技

关键词： 安谋科技 NPU ARM 周易 AI大模型

编者按：2025 年 11 月 13 日，安谋科技（Arm China）“周易”X3 NPU IP新品。作为“All in AI”产品战略下诞生的首款重磅产品，其性能指标表现突出：8-80 FP8 TFLOPS、单Core带宽256GB/s、Prefill算力利用率达72%和Decode有效带宽利用率超100%，可使AIGC大模型能力提升10倍。

随着AI大模型技术的飞速发展，智能手机、AI PC和智能汽车等端侧设备正迎来AI能力的爆发性需求。从多模态语音助手到实时图像生成，从智能座舱交互到辅助驾驶决策，端侧设备需要承载越来越复杂的AI计算任务。

然而，端侧AI部署面临算力受限、能效要求高、带宽瓶颈、开发门槛高等多重挑战，如何在有限的功耗和算力资源下实现大模型的高效运行，成为行业亟需突破的关键难题。

图片1.png

众所周知，在半导体领域，“面向未来5年的产品方向进行前瞻布局”已成为行业共识，涵盖IP研发、芯片及终端产品研发量产。

因需而动，安谋科技的“周易”X3采用兼顾CNN与Transformer的通用架构设计，支持全算力类型并增强浮点运算FLOPS，助力实现从定点到浮点计算的关键转变，并满足大模型计算需求，为未来5年Gen AI、Agentic AI与Physical AI的端侧落地奠定技术基石。

图片2.png

硬件架构：专为大模型设计最新DSP+DSA架构

“周易”X3基于专为大模型设计的最新DSP+DSA架构，从计算效率、带宽、精度适配、任务处理四大维度实现升级，精准解决端侧AI大模型运行难题，打造端侧AI计算效率的新标杆。

从定点转向浮点计算，单Cluster拥有8-80 FP8 TFLOPS算力且可灵活配置，单Core带宽高达256GB/s，支持端侧大模型运行必备的W4A8/W4A16计算加速模式，集成安谋科技自研的解压硬件WDC，使大模型Weight软件无损压缩后通过硬件解压获得额外约15%的等效带宽，计算效率和计算密度大幅提升。

图片3.png

同时，“周易”X3集成AI专属硬件引擎AIFF，配合专用硬化调度器，实现超低至0.5%的CPU负载与低调度延迟，使NPU在并行处理多项AI任务时，拥有高效流畅的体验。

软件生态：优化大模型端到端性能，支持客户自定义AI开发

“周易”X3 搭载完善易用的Compass AI软件平台，全面优化大模型端到端性能。平台广泛兼容TensorFlow、ONNX、PyTorch等主流AI框架，具备业界领先的大模型动态Shape支持能力，并支持GPTQ等大模型主流量化方案、 Hugging Face模型库，与LLM、VLM、VLA及MoE等模型。

图片4.png

同时，安谋科技积极构建开放生态，Compass AI软件平台已将 Parser、Optimizer、Linux Driver、TVM 及内部 IR 格式等核心组件相继开源，并拥有丰富的调试工具，可满足开发者白盒部署需求，且支持更易用的 DSL 算子编程语言，在深度开发模式下，客户可以使用平台中的Compiler、Debugger和DSL语言开发出自己的自定义算子，也可通过Parser、Optimizer等工具打造出属于自己的模型编译器，极大提升开发效率。

图片5.png

“周易”Compass AI软件平台已支持超 160 种算子与 270 多种模型，显著提升开发部署效率，助力客户快速实现 AI 应用创新与落地。

性能提升：让端侧大模型“跑得稳、答得顺”

“周易”X3遵循“软硬协同、全周期服务与成就客户”的产品准则，提供从硬件、软件到售后服务的全链路支持，以前瞻性设计、专业团队交付与深度服务投入，全面助力客户大模型产品成功与商业化落地。

“周易”X3在架构层面实现了多项创新，集成了业界瞩目的关键特性。

1.集成自研解压硬件WDC：使大模型Weight软件无损压缩后通过硬件解压能获得额外15%~20%等效带宽提升。

2.新增端侧大模型运行必备的W4A8/W4A16计算加速模式：对模型权重进行低比特量化，大幅降低带宽消耗，支持云端大模型向端侧的高效迁移。

3.集成AI专属硬件引擎AIFF（AI Fixed-Function）与专用硬化调度器：实现超低至0.5%的CPU负载与低调度延迟，灵活支持端侧多任务场景和任意优先级调度场景，确保高优先级任务的即时响应。

4.支持int4/int8/int16/int32/fp4/fp8/fp16/bf16/fp32多精度融合计算，强浮点计算：可灵活适配智能手机边缘部署、AI PC推理、智能汽车等从传统CNN到前沿大模型的数据类型需求，平衡性能与能效。

在上述关键技术的加持下，“周易”X3获得了优异的计算性能：单Cluster最高支持4个Core，拥有8-80 FP8 TFLOPS算力且可灵活配置，单Core带宽高达256GB/s。相较于“周易”X2产品，“周易”X3的CNN模型性能提升30%-50%，多核算力线性度达到70%-80%。在同算力规格下，AIGC大模型能力较上一代产品实现10倍增长，这得益于16倍的FP16 TFLOPS、4倍的计算核心带宽、超过10倍的Softmax和LayerNorm性能提升共同驱动。

图片6.png