“NVIDIA初创企业GPU应用大赛”第一季于今年五月正式启动,得到了众多企业的踊跃参与。北京飞搜科技在本次赛事中表现优异,荣获优秀案例奖。
高清图像在交通录像取证,竞技场景细节还原等环境下,为专业人士提供着至关重要的细节信息,但在实际应用中,由于制作工艺和成本的考虑,很多场合都不会采用高分辨率、超分辨率的相机来进行图像信号的采集,因此,将低分辨率的图片还原成高分辨率图片就非常重要。
图像超分辨率(Super Resolution, SR)就是将低分辨率(Low Resolution, LR)的图像通过一定的算法转提升到高分辨率(High Resolution, HR)的技术。以往传统的图像超分辨率技术在图像还原方面差强人意,而且需要大量人力进行比对,效率很低。GPU和深度学习的大规模应用为整个行业带来了突破性的发展。目前,使用GPU来加速图片超分辨率重建已经成为业界内逐渐成熟的技术方案。
作为NVIDIA初创加速计划成员,北京飞搜科技有限公司(http://www.faceall.cn/)在计算机视觉领域拥有多项世界领先的研究成果,尤其是在人脸识别、目标追踪、目标检测等领域。飞搜科技团队采用NVIDIA Tesla P100对图像进行大规模的深度学习训练,实现了对视频监控图像中对低质量图片快速重建,且重建出的高清图像的人眼感官效果颇佳,远超传统的超分辨率方法。
飞搜科技在超分辨率领域实力雄厚,表现卓越,早在2018年的计算机视觉顶级会议CVPR(Computer Vision and Pattern Recognition)workshop NTIRE(New Trends in Image Restoration and Enhancement)竞赛中就已斩获优异成绩,而本次优秀案例奖的获得更是对飞搜团队的实力的认可。飞搜科技在超分辨率技术上的解决方案能够在诸如交通、博彩等需要进行模糊图像重建的行业得到广泛应用,而在在NVIDIA Tesla P100系列GPU的大力支持下,可以预见,飞搜科技将有实力把应对超分辨率的各项解决方案完善到“效率更高、速度更快、识别更准”的至臻境界之上,为深度学习在超分辨率上的应用起到更大的推动作用。
好文章,需要你的鼓励
Liquid AI发布了新一代视觉语言基础模型LFM2-VL,专为智能手机、笔记本电脑和嵌入式系统等设备高效部署而设计。该模型基于独特的LIV系统架构,GPU推理速度比同类模型快2倍,同时保持竞争性能。提供450M和1.6B两个版本,支持512×512原生分辨率图像处理,采用模块化架构结合语言模型和视觉编码器。模型已在Hugging Face平台开源发布。
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
阿里团队推出首个AI物理推理综合测试平台DeepPHY,通过六个物理环境全面评估视觉语言模型的物理推理能力。研究发现即使最先进的AI模型在物理预测和控制方面仍远落后于人类,揭示了描述性知识与程序性控制间的根本脱节,为AI技术发展指明了重要方向。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。