HiAI Foundation助力端侧音视频AI能力,高性能低功耗释放云侧成本

2023-11-12

过去三年是端侧AI高速发展的几年,华为在2020年预言了端侧AI的发展潮流,2021年通过提供端云协同的方式使我们的HiAI Foundation应用性更进一个台阶,2022年提供视频超分端到端的解决方案,在2023HDC大会上,HiAI Foundation基于硬件能力的开放,提供更多场景高效能的解决方案。

华为HiAI Foundation提供了高性能AI算子和丰富的AI特性的接口,App直接对应HiAI Foundation的DDK。今年完整支持了HarmonyOS NEXT,开发者无需修改任何代码,只需按照HarmonyOS NEXT的要求重新编译即可运行。同时,在开发者联盟网站有HarmonyOS NEXT指导文档,在Gitee上也开源了对应的Demo,降低大家的集成成本。

今年,华为在原有的基础上,拓展了更多端侧AI场景解决方案。

华为HiAI Foundation是基于硬件创新架构的能力开放,构建了一个高性能的NPU、CPU、GPU算子,同时提供整网融合、AIPP硬化预处理、算子搜索工具、异构计算等多元的基础能力,在硬件创新架构和多元竞争基础的能力上,提供生态开放机制,在生态开放机制上提供对用户开放的接口DDK工具链、模型轻量化、算子库动态升级、开源等等机制。

华为HiAI Foundation主要由以下几个部分构成,首先是HiAI Foundation DDK推理加速平台,它主要完成与上层推理框架的接入,使开发者可以屏蔽底层硬件,能够更加聚焦于模型效果的优化。第二部分是异构计算HCL平台,它主要是使能各个硬件,比如NPU、CPU、GPU。第三部分是提供对应的工具链,包括模型转换工具链、异构调优工具链。同时我们也提供了统一的API,通过一次开发可以做到赋能多形态的设备硬件上运行,并且华为HiAI Foundation可以与HarmonyOS实时融合。

下面以典型AI场景为例,从部署的角度来探索一下华为HiAI Foundation是如何完成这些挑战,并最终实现这些场景的落地。

视觉类加速方案人像分割

我们知道人像分割通常用于视频中的背景替换、长短视频的弹幕穿人玩法等。华为HiAI Foundation通过人像分割,通过AIPP硬化预处理指令、模型量化,使得人像分割达到性能和功耗的业务要求。从视频解码和开通预览流到AIPP推理和GPU渲染,有多个过程参与,华为HiAI Foundation不仅要进行推理,还要完成上下游的深度协同。

在这里插入图片描述
在这里插入图片描述

视频流和开放预览帧到模型,以人像分割为例,人像分割要求的输入是RGB格式,并且输入要求是固定的尺寸,视频解码帧和预览流出来的数据,要求支持图像预处理的指令,并且把它硬化到NPU里面,所以人像分割提供了包括图片缩放resize、图片旋转rotation、色域转换color space convert的能力。基于华为实验室测试结果,实现性能提升20%,模型大小缩小75%,精度损失1%以内,性能提升19%。

第二部分是模型在NPU上的高效算子推理,推理结束之后将结果送到GPU上做渲染。在传统方案中,NPU和GPU通常是操作两块不同的内存,华为HiAI Foundation提供了零拷贝的接口,将NPU和GPU在同一块内存上操作,并且在格式上保持严格一致,通过多IP协同+AIPP实现高效人像分割计算。

在端侧部署过程中提供了模型可视化+Profiling工具,通过模型可视化了解HiAI Foundation结构,通过Profiling知道IP的分布,包括算子在NPU和GPU的推理时间,综合起来通过可视化工具和Profiling工具设计出系统友好的结构,设计性能最佳的模型。

通过Profiling工具了解到模型算子的性能不够友好,然后把它反馈到HiAI Foundation,我们在支持好这些算子之后,通过端云协同的方式快速推送到用户手中,使用户能够尽快上线业务。本次华为在端云协同助力性能优化快速升级方面做了全面的升级,开发者无SDK就可以集成,相比原来繁琐的集成要求,可以做到无感集成。

语音类的加速方案语音识别

端侧部署语音识别实时出字、响应快,在端侧执行可以保证用户的隐私,此外华为能做到在NPU上执行,稳定性高,并且可以降低云侧的资源部署成本。在语音识别这一块,HiAI Foundation支持的是端到端的Transformer模型,全部在云端推理。基于华为实验室测试结果,模型量化模型大小缩小74%,精度损失1%以内。

模型如图所示,支持Transformer模型,开发者可以根据自身的业务,根据性能和泛化性来进行定制,也可以实现高效的算子融合。

将原来需要频繁和内存交互的指令融合成一个大的算子,通过对这些关键结构进行算子融合,总共带来了60%的功耗收益,将左边很多小算子组成的结构融合成一个大算子,避免这些小算子频繁和内存进行交互,从而提升了运算效率。

在端侧部署的过程中,存储空间也是开发者们关注的问题,希望用更小的存储空间来实现更多更强的能力,所以华为提供量化工具链,通过量化工具链可以量化出更小巧、更灵活的模型。以人像分割和语音识别为例,基于华为实验室测试结果,它们的存储大小能够相比32位浮点减少70%以上,精度WER指标相比32浮点小于1%,相应的功率也有一定的提升。

在端侧AI部署中会涉及到硬件、软件和AI算法,所以华为通过开源的方式来加速业务,通过更多方式灵活部署。目前开放了推理源码的开源,通过开源可以做到和App、第三方深度学习框架对接,同时可以基于自身的需求做灵活的定制裁剪,做到开发灵活,通过这些开源平台能和开发者沟通更便捷。通过这些开源,开发者可以快速下载、编译,即可在华为手机上用NPU做推理,更高效集成业务。

未来,华为会探索Transformer模型更加泛化、更高能效的场景化解决方案,同时在端云协同上也会探索更多更高性能场景的能力支持,也会通过ModelZoo提供更多场景NPU友好的模型结构,用户可以设计更加NPU友好的模型结构。

了解更多详情>>

访问HMS Core 联盟官网

获取HMS Core 开发指导文档

关注我们,第一时间了解 HMS Core 最新技术资讯~

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

HiAI Foundation助力端侧音视频AI能力,高性能低功耗释放云侧成本 的相关文章

随机推荐

  • DataPipeline丨DataOps的技术考量

    作者 DataPipeline CEO 陈诚 从 数据的资产负债表与现状 到 DataOps理念与设计原则 直至 DataOps的组织架构与挑战 我们对于DataOps的讨论已经进行了三周 不难发现 在此期间 我们探讨的话题始终围绕在上层建
  • SSR、SSE、SST、R2

    在MATLAB中 计算回归问题的拟合优度 或判定系数 可用 B BINT R RINT STATS regress Y X 指令 其中的STATS的第一个返回值即为R2 R2约接近于1 拟合效果越好 SSR为回归平方和 SSE为残差平方和
  • React官网入门项目井字棋游戏

    React官网里有很详细的教程 也有在线沙盒 但是写的东一榔头西一棒槌的 不适合新手入门 所以我还是建议大家可以先去看看阮一峰大神的React博客或者某硅谷的网课 这个网课讲的很详细 甚至详细到有些啰嗦 我大概是用20天把网课看完 然后再看
  • 进程信号(信号产生、注册、注销、处理),信号阻塞和volatile关键字

    文章目录 进程信号 信号产生 信号在进程中注册 信号在进程的注销 信号的处理 信号的处理方式 信号阻塞 如何阻塞一个信号 int sigprocmask int how sigset t set sigset t old int sigem
  • 从零开始制作Linux

    提到制作Linux 大家都能想到如雷贯耳 大名鼎鼎的Linux from scratch 但Linux from scratch的复杂性不是普通人能轻易掌握的 对于初学者来说 任何步骤出现不一致 会让初学者遇到挫拆 攻破LFS的信心越来越低
  • 【Linux命令】Linux复制时显示进度

    sudo rsync av progress src dest 效果如下图 更详细的使用 linux 命令 rsync 详解 yspg 217的博客 CSDN博客 linux rsync命令详解
  • 十四、计算机网络--iptables

    iptables只是个传参的工具 真正起作用的内核中的netfilter 1 默认的五种规则链 INPUT OUTPUT FORWARD POSTROUTING PREROUTING 2 默认的4个规则表 raw表 确定是否对该数据包进行状
  • 一文带你了解socket网络编程以及详解过程和原理

    创作不易 期望亲友们给个免费的就行 文章目录 一 什么是socket 二 TCP IP 三 socket原理 四 代码说明 五 API函数 一 什么是socket Socket 套接字 是计算机网络编程中的一种抽象概念 它提供了在网络上进行
  • OpenGL ES着色器语言(GLSL ES)规范 ——上篇

    文章目录 前言 OpenGL ES基础 一段基本的着色器代码 大小写和分号 数据值类型 命名规范 类型转换 运算符 矢量和矩阵 矢量和矩阵类型 矢量构造 访问 矩阵构造 访问 矢量矩阵运算规则 特殊类型 结构体和数组 结构体 数组 取样器
  • android 自动换行布局

    此方法是固定每行居中 使用 android paddingLeft dimen margin common 10 android paddingRight dimen margin common 15 进行调整左右间距 import and
  • PannoOccUnified Occupancy Representation for Camera-based 3D Panoptic Segmentation

    中科院 摘要 周围三维世界的综合建模是自主驾驶成功的关键 然而 现有的感知任务 比如目标检测 道路结构分割 深度和高度估计以及开放式对象定位 都只关注于整体三维场景理解任务的一小部分 这种分而治之的策略简化了算法开发过程 但代价是失去了问题
  • 地理坐标系_GCS汇总

    地理坐标系 GCS汇总 4001 GCS Airy 1830 GEOGCS GCS Airy 1830 DATUM D Airy 1830 SPHEROID Airy 1830 6377563 396 299 3249646 PRIMEM
  • Flutter学习二:最简单的Material Flutter应用

    import package flutter material dart void main 顶层容器 相当于rootview runApp new MaterialApp 标题 title Flutter Application 主题 t
  • lcov和gcov的使用错误

    编译使用的gcc版本和gcov的版本对不上的话 使用lcov和gcov的时候会报错 lcov的错误 xx localhost XXX lcov capture directory cov output file xxx info test
  • 程序员:腾讯32k,16个月+5万签字费,美团35k,15.5个月,怎么选

    腾讯和美团都是国内非常知名的互联网公司 是很多程序员非常向往的公司 最近有一位java程序员同时拿到了这两个公司的offer 却不知道应该选哪一个好 腾讯这边给的offer是32k一个月 一年16个月工资 另外还有5万块钱签字费 美团的of
  • vue中methods一个方法调用另外一个方法

    vue在同一个组件内 methods中的一个方法调用methods中的另外一个方法 可以在调用的时候 this options methods test2 this options methods test2 一个方法调用另外一个方法 ne
  • 今天我们来分享一下著名的分布式存储项目IPFS吧嘻嘻(最近在金融科技大赛,有相关的了解调用)

    我们先来了解一下HTTP的机制和原理吧 对于我们现在的网页协议来说 所有的HTML等前端的页面结构显示和文件都是通过HTTP请求来进行对中心化服务的访问 就像某一些时候 我们会发现自己的网页是不存在 是因为在服务器的中间无法的接受到我们的请
  • TypeScript 联合类型

    联合类型 联合类型 Union Types 可以通过管道 将变量设置多种类型 赋值时可以根据设置的类型来赋值 语法 Type1 Type2 Type3 实例 let res string number res 12 console log
  • tesseract-ocr 第四课 如何训练新语言

    tesseract 3 0x是完全可训练的 该页描述了训练过程 提供了一些指南来应用到各语言中 版权所有 转载请注明出处 并标明链接 作者 jolly wang 介绍 tesseract 3 0x是完全可训练的 该页描述了训练过程 提供了一
  • HiAI Foundation助力端侧音视频AI能力,高性能低功耗释放云侧成本

    过去三年是端侧AI高速发展的几年 华为在2020年预言了端侧AI的发展潮流 2021年通过提供端云协同的方式使我们的HiAI Foundation应用性更进一个台阶 2022年提供视频超分端到端的解决方案 在2023HDC大会上 HiAI