ZDNET网络频道 06月03日 北京报道: 6月3日,第七届中国云计算大会在国家会议中心召开。杭州数梦工场创始人王巍在主题演讲中指出数梦工场的愿景和使命是用DT(Data Technology,数据技术)圆梦,面向政企,数梦正基于飞天平台进行云计算和大数据的场景化开发和服务。
杭州数梦工场创始人王巍
他重点介绍了数梦工场为浙江省进行的政务云实践:
浙江省政务云实现了三个价值:一是成本集约,二是推动政府转型,三是推动经济转型。浙江大概有将近70亿的年信息化投入,相应的设备平时的利用率却不是很高。因为都是单任务,平时绝大多数的状态是闲置。云的最大好处之一是成本集约,以原来不到一半的成本投入可以远远满足超过过去的需求。
中国梦要做两个转型,一个是政务要转型,一个是经济转型,政务转型让政府从管理型政府走向服务型政府进一步变成智慧型政府,经济转型是从传统经济到信息经济到智慧经济,是实体经济+虚拟经济变成数字经济的路线。
王巍介绍了浙江省政务云的整体架构:最下面要建一个云计算和大数据的基础设施,全部基于飞天,600台服务器,300TB,这是初始,未来发展到 5000-8000台的规模。“5月23日数梦开始第一次去‘O(Oracle)’,应用上线之后要把数据沉淀下来。以前切碎了去沉淀,这不是云计算。说白了还只是虚拟化, 把传统的只不过虚拟化了一下。只有把数据集中起来,才真正向云计算和大数据靠拢一步。”
第二,政府以前所有数据分散在各个部门,各个部门是貌合神离的状况,现在数据打通,可以形成很多的图层。通过研究消费量可以判断经济消费水平。通过正常的工商、社保、公安人口以及其他信息比对,形成多图层,可以看到全方位的一个区域的实际运行状况。因此这里面要做数据打通,之后进行清洗、脱敏、分级之后形成安全、可控的数据,还要给万众创新提供初始化的环境。在不涉及安全的情况下,比如一些交通数据是给万众创新可以提供很好的数据基础平台。
第三,如果跟淘宝逻辑一样,能不能做政务淘宝?浙江省领导提出来要做政务淘宝,把政府服务抽象成具体的商品。一个政府到底有多少权力?”去年省领导查出来是160000个权力,最后变成4600多个权力,这些权力可以放到网上让大家知道提供了什么服务,今天全部放到了云上。”
让所有的百姓看到它服务的流程,就像在淘宝买了东西之后知道物流到了哪里了一样,在事后可以好评,也可以差评,这就是政务淘宝。这个工作借助阿里的架构,把它输出到政务体系里边,使得浙江省4000多个机构变成像4000多个淘宝店一样。互联网倒逼的力量,使政府迅速从管理型向服务型政府转变。
王巍举例到,如果办一个准生证需要拿着身份证等这些证明去5个地方,其实最终应该让数据跑路而不应该让人去跑路,服务应该是一站式的,应该是办事零距离,而不应该是折腾所有的人。
“这是我们在政务云上要提供的东西,将来可以像逛淘宝一样逛‘衙门’,我们提供一些实现工具和服务,这是浙江省政府领导在政务云建设的目标上所要实现的一些目标。”
数梦工场到底做了什么?王巍指出,第一,“BaaS”,这个词叫后台即服务,因为云和大数据不是政府也不是企业终极的目的,而是要能力全站式,距离要零距离,这是数梦工场工程师要做的一个事情。第二,没必要的Oracle的开销我们可以把它去掉,数梦工场高度兼容的去O引擎跟Oracle的兼容度大于95%,它使得替代Oracle过程中变得非常轻松,容易上手。
“我们已经完整部署大数据基础平台,有公安数据、社保数据、工商数据,人口库、法人库、地理信息库等,有结构化、非结构化、半结构化,但这时候数据的集中和数据的安全就形成了一次搏弈。”
一般政府都是先把一些数据列成公共服务数据目录,然后进行合并,公安数据到这边以后,控制权和访问权在公安手里,社保在社保手里,不能因为合并社保的人就看到公安的数据,这是基本功。数梦工场做的是合并成中间数据,形成数据仓库,通过清洗把相应的垃圾和重叠去掉。更重要的是脱敏,不能让上层的应用开发者看到身份证的具体人信息。分级安全管控,最终实现数据不搬家、可用不可见。
王巍强调,2009年美国政府从47个数据开始做数据开放和万众创新,慢慢它步入到一种良性循环,这也是目前数梦工场正在做的事情。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。