5月2日,以“后CNN时代的探索”为主题的信息与通信工程学院学术论文沙龙第三期在北京邮电大学西土城校区教三134如期举行。北京飞搜科技算法工程师李磊和肖扬,分别作为胶囊网络组和深度森林组的主讲人进行讲解。
首先是胶囊网络知识的讲解,主讲人李磊从神经网络引出胶囊网络的概念,介绍了胶囊网络的提出与发展过程;接下来李磊通过对比两者的区别与联系,详细讲解了胶囊网络的原理和完整过程:胶囊网络将CNN中每个神经元的标量输出,替换为一个向量输出,通过向量点积更新权重。经过迭代,根据高级胶囊的输出逐步调整低级胶囊输出给高级胶囊的分布,最后会达到一种理想的分布。最后,李磊给出三个思考题, 在场同学分成小组讨论,各组选出代表进行发言分享。经过在场同学的讨论和李磊的解答,胶囊网络和神经网络的异同之处更加清晰明了,同学们对胶囊网络的原理有了更加清晰的概念,同时认识到它的开源框架还比较少,仍具有较大的发展空间。
接下来由主讲人肖扬介绍深度森林的相关知识。首先介绍了神经网络的缺陷:所需数据集大,标注成本大,计算要求高。针对神经网络这些不足,基于机器学习的深度森林模型应运而生。接着,肖扬通过级联结构和森林结构两个角度详细介绍了深度森林的原理, 每棵树会根据样本所在的子空间中训练样本的类别占比生成一个类别的概率分布,然后对森林内所有树的各类比例取平均,输出整个森林对各类的比例。随后,肖扬将深度森林与CNN进行对比,强调了前者是有监督学习,由特征驱动,每一层都可以作为输出,具有计算开销好,超参数少,各个级联采用交叉验证,避免的过拟合等优势。最后,肖扬同样针对所讲内容给出了三个问题供大家讨论,并进行深入浅出的解答。通过在场同学和主讲人思维的碰撞与积极的讨论,问题化繁为简,知识脉络愈加清晰。
此次学术论文沙龙主要从胶囊网络和深度森林两个方面,介绍了后CNN时代的探索,将三者纵向结合,将异同点和适用范围进行对比,为在相关领域进行研究的同学们提供了一个更加清晰的方向。
信息与通信工程学院学术论文沙龙已经成功举办了三期,每一期都干货满满,让在场同学能够结合相关论文材料,切实接触了到前沿概念,洞悉图像识别科技的发展方向,收获颇丰。同时我们也能看到飞搜科技在深度学习图像识别领域的积累以及传承。期待飞搜科技在接下来的学术论文沙龙中带来更多详实的知识!
北京飞搜科技(http://www.faceall.cn/)成立于2015年,公司专注于人工智能,计算机视觉和深度学习的研发,并把研究成果应用到智慧城市解决方案中,让城市更加安全,交通更加高效,生产更加智能、购物更加方便。公司力争在2020年底成为国内领先的智慧城市解决方案提供商。
作为全球领先的深度学习技术提供商,北京飞搜科技是国家高新技术企业、中关村高新技术企业、北京市软件企业。公司已经申请了近50件发明专利,获得20项软件着作权和多项行业认证的标准。公司的核心团队来自诺基亚、法国电信、富士通、微软、英特尔等世界500强企业,具有海外的工作经历和国际视野,以及多年的管理、开发和服务经验。北京飞搜科技(http://www.faceall.cn/)不但提供智慧城市解决方案,还通过阿里云,华为云,amazon平台, 为企业与个人提供人脸/图像识别的SAAS服务; 离线SDK技术授权服务等。公司已经服务了200多家客户,包括中国移动、中国联通、中国电信、华为、台湾广达等国内客户,以及土耳其、科威特、新加坡、捷克、法国等多个国家的企业客户,为他们提供视频监控、智能鉴黄、人脸识别、图片识别、无人驾驶,线上购物支付、机器人等技术支持。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。