MTSC2020

2023-10-27

MTSC2020中国互联网测试开发大会深圳站,于 2020 年 11 月 20 日至 21 日在深圳宝立方国际酒店召开,为中国质量保证行业奉上一场为期 2 天的技术盛宴,500+ 来自世界各地的测试精英们汇聚一堂探讨交流。来自阿里巴巴淘系技术部的董福铭(吾铭)、黄俊(豆豆)在主会场分享议题《手淘AIOPS实战-消息全链路智能监控》,现场反响非常热烈。

中国互联网测试开发大会 Mobile Testing Summit China(简称 MTSC)是由国内最大的移动测试技术社区 TesterHome 发起的软件测试行业技术会议,大会以“软件质量保障体系和测试研发技术交流”为主要目的。MTSC 大会于 2015 年举办第一届至今,已成功举办了六届,共有 1000+ 家企业,10000+ 测试工程师、测试经理、CTO 参会,受到了全行业的广泛关注,是中国互联网质量保证行业的顶级会议。

★  议题简介:

《手淘AIOPS实战-消息全链路智能监控》介绍如何通过SDK实现应用内链路日志聚合、采样率控制、统一降级开关等功能,打通客户端到服务端链路,实现IM端到端秒级排查。通过实时计算实现消息核心指标到达率/时延的实时监控。使用AI检测算法,替代传统的规则监控方案,解决规则告警准确率低、时效性低、规则配置复杂与耗费人力等诸多问题。通过NLP进行舆情智能分类,并结合全链路数据对预警问题进行分析定位,打造全链路智能监控排查平台。

★  业界点评:

艾辉(融360高级技术经理、《机器学习测试入门与实践》作者) :

  • 手淘AIOps实战案例的技术设计及应用效果让人印象深刻!

  • 区别于一般的链路监控,该方案用多种算法检测代替规则检测,在准确率、召回率等方面都有大幅提升。

  • Holmes异常检测平台更是实现了算法模型在链路异常检测场景的工程产品化。

  • 很值得业界同行朋友们学习借鉴。

孔令云(美柚测试总监):

手淘AIOps利用AI技术,在消息全链路监测中实现了百亿级消息数据的实时监控和异常检测,极大提高了消息到达率、及时性,为消息链路质量保障提供了坚实的技术支撑,同时也为行业树立了AI测试应用的光明灯塔。

前言


手淘App作为双十一最核心的消费者购物阵地,其中必然离不开第三个Tab页-消息,消息的价值在于打造新零售业务商业连接,帮助消费者进消费决策。每天消费者和商家沟通商品相关的价格、质量和型号以及款式和各种交易咨询及售后服务等;来自天南地北的淘友齐聚在直播间和群聊,不停的点赞,分享和盖楼;每天消费者接收着品牌号、官方号以及系统物流通知,平台营销活动通知,不想错过每一有价值的咨询和活动优惠;最近几年大促有很多新颖的互动玩法,从“战队群”到“亲情号”再到今年的“养猫互助游戏”,都离不开消息中台的支撑,同时也给消息稳定性保障带来了压力和挑战,消息质量团队在传统保障策略的基础上,在智能化监控领域做一些探索和尝试。


消息业务场景及系统架构


消息业务场景包含了社交互动、 客服沟通、交易提醒、优惠通知、品牌资讯等属性,核心目标是打造新零售业务商业连接,帮助消费者进消费决策;

为了支撑上面的业务场景,整个消息系统链路比较复杂,同时IM领域和其他业务最大的不同,它是端到端的链路,同时又要维护长连通道,消息从客户端上行链路到IM服务端分布式系统,然后再通过长连通道,下发到客户端下行链路,最终在端侧进行消息上屏;


消息全链路稳定性保障


随着业务的不断发展,消息系统也在不端进行架构升级,19年之前,我们面临一些问题,主要集中在链路长、排查效率低、没有端到端排查能力,系统监控分散,实时性差等;

结合着这些问题,我们就打造了全链路日志SDK,通过AOP的方式,不侵入业务代码,作为基础能力,同是融合了Metrics、Tracing、Logging三个唯独,进而实现全链路日志方案:

整体效果:打造手淘消息全链路智能监控排查系统,赋能消息及上层业务,实现业务指标实时监控、舆情智能分析、端到端全链路自动排查,有效缩短了线上问题从发现到定位的时间。提升排查效率达70%以上;日志量每天减少数百亿条;日志存储资源和采集资源减少50%以上;累计服务多个APP;问题排查次数达200W+;




智能监控在全链路体系实践经验



▐  传统监控的现状和痛点


▐  智能监控-特点&优势

  • 特点:

    • 学习历史数据,分析当前指标曲线趋势是否异常

    • 基于以往数据,进行预测未来指标走势

  • 优势:

    • 算法检测代替规则检测

    • 告警准确率高

    • 更早发现异常情况

    • 可适应业务发展带来的趋势变化



▐  智能监控系统架构

基于AI算法的异常检测,具有智能化、轻量级、易接入、可扩展特点,算法检测替代传统的规则监控解决准确率低、时效性低、配置复杂等问题。核心模块覆盖了数据打标、训练、模型生成等,特征方面包含了统计特征、分类特征、拟合特征等提取方法,算法方面主要涵盖了多种检测算法和预测算法。

▐  算法检测效果


▐  智能舆情全链路特点

  • CNN文本分类+DBScan相似算法,精细聚类舆情;

  • 舆情问题结合全链路排查体系,智能定位原因,提高排查效率;

  • 分钟级定时巡检预警,结合AI异常检测,避免问题故障。

▐  智能舆情全链路体系架构



▐  智能舆情全链路实践效果

【舆情聚类】应用文本聚类、NLP算法,1w+文本聚类时间1min内

【预警效果】预警有效率95%以上,问题排查率70%

【预警问题】有效预警线上问题50+,规避线上故障

【算法调用】日均调用600次+

【接入业务】手淘、千牛、淘宝特价版等


Holmes异常检测平台


基于AI算法的异常检测平台-Holmes,具备智能化、轻量级、易接入、可扩展特点。

使用异常检测算法替代传统的规则监控,解决准确率低、时效性低、配置复杂等问题。

只需要简单的4步配置,即可完成指标接入:

在实时检测方面,集成了无监督学习和有监督学习,主要运用了高斯分布、STL、孤立森林、XGBoost等;

在数据预测方面,集成了LSTM、Prophet、三次指数平滑等。



未来展望


Holmes异常检测平台是淘系技术质量团队打造,在智能化测试领域的一次实践,未来我们希望利用AI算法实现业务全方位智能化监控和问题定位。覆盖更多的数据类型、打造通用的算法模型。同时我们也在全链路监控排查、智能舆情处理等多方面进行探索,期待后续跟大家分享。

▐  研究方向:


【非结构化日志】【风季数据】【选举策略】【智能舆情】【根因分析】

▐  研究目标:

1、监控数据:时序指标数据(实时/离线)、业务日志数据(客户端/服务端)、用户舆情数据

2、检测模型:模型需要通用化,具有预测基线的能力,同时提供丰富算法库涵盖多种检测算法

3、算法指标:实时性ms级别响应、正确率>95%、覆盖率>90%,召回率>95%

4、发布计划:目前已在阿里集团内开放,希望后面能在业界开放使用


MTSC2020中国互联网测试开发大会深圳站现场

淘系技术部-质量团队-诚招英才

负责保障整个手淘、天猫主战的业务质量,这里有丰富业务场景和技术挑战,我们将持续建设及完善这个那个淘系稳定性、提升用户体验。如果您有兴趣可讲简历发至:fuming.dfm@alibaba-inc.com 期待您的加入!

✿  拓展阅读

作者|吾铭、豆豆

编辑|橙子君

出品|阿里巴巴新零售淘系技术

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

MTSC2020 的相关文章

  • 利用CHAT写实验结论

    问CHAT 通过观察放置在玻璃表面上的单个水滴 人们可以观察到水滴充当成像系统 探究这样一个透镜的放大倍数和分辨率 CHAT回复 实验报告标题 利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率 一 实验目的 通过对比和测量 研究和探索玻
  • 什么是充放电振子理论?

    CHAT回复 充放电振子模型 Charging Reversal Oscillator Model 是一种解释ENSO现象的理论模型 这个模型把ENSO现象比喻成一个 热力学振荡系统 在这个模型中 ENSO现象由三个组成部分 充电 Char
  • 电商数据api拼多多接口获取商品实时数据价格比价api代码演示案例

    拼多多商品详情接口 接口接入入口 它的主要功能是允许卖家从自己的系统中快速获取商品详细信息 通过这个接口 卖家可以提取到商品的各类数据 包括但不限于商品标题 价格 优惠价 收藏数 下单人数 月销售量等 此外 还可以获取到商品的SKU图 详情
  • 利用CHAT上传文件的操作

    问CHAT autox js ui 上传框 CHAT回复 上传文件的操作如果是在应用界面中的话 由于Android对于文件权限的限制 你可能不能直接模拟点击选择文件 一般来说有两种常见的解决方案 一种是使用intent来模拟发送一个文件路径
  • C++ 中 const 和 constexpr 关键字解析:常量、函数和指针

    很多 C 的初学者看到 const 这个关键字的第一反应都是一头雾水 主要是因为 const 可 以出现在很多的位置 以及后面加入的 constexpr 更是常常感到困惑 今天就为大家一一解释出现它们的含义和以及作用 const 关键字 c
  • C# 介绍、应用领域、入门、语法、输出和注释详解

    什么是 C C 发音为 C Sharp 是一种由 Microsoft 创建的面向对象的编程语言 运行在 NET Framework 上 源于 C 家族 与流行的语言如 C 和 Java 相近 首个版本发布于 2002 年 而最新版本 C 1
  • 扬帆证券投资者必知:股票配股与增发的区别你清楚吗?

    配股和增发都是股票再融资的方式 不过二者有一定的区别 1 发行对象不同 配股是向原股东发售一定量股票 一般会以低于市价的价格发售 增发是向全体社会公众发行股票 即新老股东都能获得 2 发行前是否需要公告价格 配股会事先公告配股价 配股的定价
  • 用CHAT分析高校体育智慧教学体系构建与探索研究现状

    CHAT回复 现阶段 高校体育智慧教学体系的构建与探索研究还处于初级阶段 但全球数字化转型大潮的推动下 一些较为前沿的研究和实践已经开始出现 1 教学平台的建设 很多高校已经开始尝试使用在线教育平台进行体育教学 把传统的面对面授课模式转变为
  • 扬帆证券:三只松鼠去年扣非净利预增超1.4倍

    在 高端性价比 战略驱动下 三只松鼠 300783 重拾增势 1月15日晚间 三只松鼠发布成绩预告 预计2023年度净赢利为2亿元至2 2亿元 同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元 同比增速达146 9 至17
  • Python 中多态性的示例和类的继承多态性

    单词 多态 意味着 多种形式 在编程中 它指的是具有相同名称的方法 函数 操作符 可以在许多不同的对象或类上执行 函数多态性 一个示例是 Python 中的 len 函数 它可以用于不同的对象 字符串 对于字符串 len 返回字符的数量 示
  • 活动日程&直播预约|智谱AI技术开放日 Zhipu DevDay

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入 直播预约通道 关于AI TIME AI TIME源起于2019年 旨在发扬科学思辨精神 邀请各界人士对人工智能理论 算法和场景应用的本质问题进行探索 加强思想碰撞 链接全球AI学
  • 人工智能 AI 如何让我们的生活更加便利

    每个人都可以从新技术中获益 一想到工作或生活更为便利 简捷且拥有更多空余时间 谁会不为之高兴呢 借助人工智能 每天能够多一些空余时间 或丰富自己的业余生活 为培养日常兴趣爱好增添一点便利 从电子阅读器到智能家居 再到植物识别应用和智能室内花
  • AI帮助终结全球饥饿问题

    全球饥饿问题是牵动人心的头等大事 5月28日是 世界饥饿日 这一问题更值得关注 让人人都能吃饱的想法不仅令人向往 而且很快就会变成现实 与大多数新事物引进一样 对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用 人们还踟蹰不前
  • 【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究(Python代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 2 1 有 无策略奖励 2 2 训练结果1
  • 使用企业订货软件的担忧与考虑|网上APP订货系统

    使用企业订货软件的担忧与考虑 网上APP订货系统 网上订货系统担心出现的问题 1 如果在订货系统中定错 多 货物了该怎么办 其实这也是很多人在网购或者是现实中经常会犯的一个错误 但是网上订货平台为大家提供了很多的解决方案 其中对于订单的修改
  • 考虑光伏出力利用率的电动汽车充电站能量调度策略研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码 数据
  • 考虑光伏出力利用率的电动汽车充电站能量调度策略研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码 数据
  • ESM10A 消除对单独 PLC 的需求

    ESM10A 消除对单独 PLC 的需求 ESM10A 可以消除对单独 PLC 的需求 该程序是在 PC 上开发的 然后使用免费提供的简单易用的 EzSQ 软件下载到逆变器 似乎这些改进还不够 日立还在 SJ700 中添加了其他新功能 例如
  • 深度学习(5)--Keras实战

    一 Keras基础概念 Keras是深度学习中的一个神经网络框架 是一个高级神经网络API 用Python编写 可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计 用户友好性 模块化和可扩
  • Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

    文章目录 摘要 1 问题的提出 引出当前研究的不足与问题 KGC方法 LLM幻觉现象 解决方案 2 数据集和模型构建

随机推荐

  • pyqt中样式设置-QLabel,QMessageBox,QInputDialog

    pyqt中的UI界面的各类样式进行设置 以及默认窗口的样式设置 1 设置图标 self mylabel QtWidgets QLabel self mylabel setMaximumSize 200 80 设置图标大小 self myla
  • (C语言)输入1个字符串,输出其中所出现过的大写英文字母。

    输入一个字符串 输出其中所出现过的大写英文字母 例 输入 FONTNAME and FILENMAE 输出 F O N T A M E I L include
  • LeetCode - 环形链表 II

    日常刷题中 题目 给定一个链表的头节点 head 返回链表开始入环的第一个节点 如果链表无环 则返回 null 如果链表中有某个节点 可以通过连续跟踪 next 指针再次到达 则链表中存在环 为了表示给定链表中的环 评测系统内部使用整数 p
  • 阿里HR:说说你对黑盒和白盒的理解! CN友:原来是这样子的呀,get到了!!!

    目录 黑盒测试和白盒测试 黑盒测试 黑盒功能测试 非功能黑盒测试 回归黑盒测试
  • java拼接url时单引号,在url链接中转义单引号

    I have a link that is sent throw some php echo voir sa galerie galerry links to another page get title primid is the id
  • Human3.6M dataset(3D人体姿态估计)

    这里是数据集的部分数据 3D关节点 一般论文试验够用了 包括 演员1 5 6 7 8训练集 9 11测试集 共有15个动作场景 需要的自取 下载地址 http www cs stanford edu people ashesh h3 6m
  • UVM的构造函数new的个人理解

    构造函数new 自己总结的规律 理解 结合UVM实战这本书的阅读理解 归纳一下自己对new函数的个人理解 只是书本前几章阅读后的认知 还不能完善 在此只为记录防丢失 构造函数new 一般类的实例化 包含类的声明和类的构造 比如 my dri
  • Pytorch加速与优化:超参数调优、量化、剪枝

    Pytorch加速与优化 超参数调优 量化 剪枝 前言 前提条件 相关介绍 实验环境 超参数调优 hyper parameters 量化 quantization 动态量化 Dynamic quantization 后训练静态量化 Post
  • python中dataframe怎么去重_pandasdataframe重复数据查看.判断.去重

    Apple iPhone 11 A2223 128GB 黑色 移动联通电信4G手机 双卡双待 4999元包邮 去购买 gt 本文详解如何使用pandas查看dataframe的重复数据 判断是否重复 以及如何去重 dataframe数据样本
  • python数据容器--五类数据容器的总结对比

    python数据容器 五类数据容器的总结对比 列表 元组 字符串 集合 字典 下标索引 是 是 是 否 否 重复元素 是 是 是 否 否 是否可修改 是 否 否 是 是 适用场景 一批数据 可修改 可重复的存储场景 一批数据 不可修改 可重
  • 5 spring事件与监听器

    Spring的事件 1概述 ApplicationEvent以及Listener是Spring为我们提供的一个事件监听 订阅的实现 内部实现原理是观察者设计模式 设计初衷也是为了系统业务逻辑之间的解耦 提高可扩展性以及可维护性 2组成 Ap
  • android图片压缩上传

    一 调用webservice接口 传的参数是String类型的参数 需要把Bitmap转换为String类型 byte arrayOfByte CommUtil Bitmap2Bytes DangerPointSubmitActivity
  • 关于phpStudy的Less-26空格被过滤使用%a0变乱码无法执行应该带有空格的查询语句

    我的实验环境是 C phpStudy PHPTutorial WWW sqli labs master Less 26 练习sql inject 注入练习第26关 Less 26 输入的空格被过滤了 提示中明显指出select 和 1之间的
  • 腾讯云:MySQL数据库的高可用性分析

    作者介绍 易固武 腾讯高级工程师 参与腾讯账号安全建设 腾讯数据仓库 TDW 优化改造 腾讯云数据库等项目 对大规模分布式存储和计算系统有浓厚的兴趣和经历 MySQL数据库是目前开源应用最大的关系型数据库 有海量的应用将数据存储在MySQL
  • git pull出现Abort没有原因提示

    使用git pull更新时 出现文件冲突 将冲突文件解决后 再进行pull操作 出现abort 但是没有提示原因 这是由于直接在子文件夹下进行pull操作 而其他级别的文件夹下出现也出现文件冲突 而git发现了冲突但是由于不在当前目录下没有
  • 教你一招:解决u盘插入计算机时提示格式化,如何恢复u盘中的文件

    1 插入U盘时 计算机提示格式化 看到这里 到底是格不格呢 别怕 随便你了 2 查看U盘属性 发现都为零 怎么办呢 u盘上面有很多重要文件啊 别急 继续往下看 3 解决办法 1 下载DiskGenius硬盘恢复软件 安装后打开 软件官方下载
  • 招聘数据采集+数据清洗与分析+数据可视化

    1 需求 1 1 数据采集 1 网站解析 利用 chrome 查看网页源码 分析招聘网站网页结构 1 检查 招聘网站 在网页中右键点击检查 或者 F12 快捷键 进入 如下图的查看元素页面 示例图 1 2 检查网站 点击 Network 勾
  • oracle 9i下在线重定义表

    9i提供了联机重定义表的方法 可以让你在基本不影响原表的DML情况下修改表结构 实际上 联机重定义表并不是完全的联机重定义 在最后交换表名的时候会短暂地锁定原表和中间表 但这个过程很短暂 相对于传统方法来说 这是一个进步 9i提供了联机重定
  • 三千书源——愿成为整理最全的书源合集

    引言 古有弱水三千 今有三千书源 勿埋我心 三千大世界 三千书之源 随着 三千书源 渐渐变得充足起来 感谢收藏 希望可以多来看望勿埋我心 注意 现在主流是3 0书源 欢迎在评论区投稿不错的书源 软件下载 3 0 推荐使用 酷安 Github
  • MTSC2020

    MTSC2020中国互联网测试开发大会深圳站 于 2020 年 11 月 20 日至 21 日在深圳宝立方国际酒店召开 为中国质量保证行业奉上一场为期 2 天的技术盛宴 500 来自世界各地的测试精英们汇聚一堂探讨交流 来自阿里巴巴淘系技术