最近笔者参在加巴塞罗那举行的微软Convergence用户大会时发现120美元的网络漫游费根本不够用,幸运的是,与其他地方一样,巴塞罗那的星巴克为大家提供了免费可靠的互联网连接。事实上,很多游客在谷歌地图中搜索星巴克时,其实并不是为了喝咖啡,而是想要网络连接。星巴克品牌更多地会让人联想到互联网,而不是咖啡,这也让星巴克逐渐变成互联网服务提供商(ISP)。对于其他拥有分支机构的企业而言,可以学习星巴克转变成免费无线ISP。
23000个远程办公室
对于典型的全国性零售商的管理员,在数百个地点维持PoS服务、订单管理和财务核算系统很困难,更何况还要实现100%正常运行时间。即使是对于拥有10个分公司的房地产公司,监控和管理分支机构本地互联网连接、软件即服务(SaaS)应用访问和VoIP服务都不是容易事。
无论对于拥有多个销售办事处的工厂,还是拥有几十或数百工厂的小型中央办公室,这都是很大的负担。要知道,星巴克拥有超过23000个“工厂”,其中大多数都提供免费上网服务。而引人关注的是,这个新的无线ISP去年还与Google/Level 3 Communications合作在美国7000个地区提供网络连接。
为了保持这些店铺的网络连接以及充当免费的无线ISP,星巴克仅在美国就花费了数千万美元,网络设备占其主要支出。那么,如果星巴克的主要业务是卖咖啡,为什么星巴克在分布式IT投资这么多钱呢?
网络连接带来投资回报
与很多最成功的品牌一样,星巴克为客户提供网络连接的原因在于,他们不只是在卖咖啡,而是在卖一种体验。另外,星巴克还在美国一些城市推出了Starbucks Evening活动,店内会提供啤酒、葡萄酒、奶油松露和奶酪,因为他们不只是希望客户来完成交易,还希望人们融入其中。
星巴克认识到网络连接已经成为“卖点”,那些提供卓越的互联网体验的品牌可获得丰厚的回报。作为免费的无线ISP,星巴克还为主要通过应用和社交媒体联系的这一代人提供了社交中心。
我们都在成为ISP
作为管理员,我们发现我们的企业开始涉及客户带宽业务,因为我们每个人都在成为自己的免费无线ISP。现在,医疗保健、零售商、政府机构、电影院、餐厅、银行、书店、洗衣店和健身房已经发现免费的无线网络连接会让消费者高兴,并且,对于大多数企业,WLAN肯定不是他们的核心业务。
最近笔者采访了拥有50家商场的购物中心物业管理组的代表。他表示他们的总峰值访客带宽接近500Mbps,而且还在不断增长。他曾经认为他们应该要担心停车等问题,而不是向每天数以万计的客户提供无处不在的网络。这是这个公司正在经历的转变,他们正在逐渐成为无线ISP。
为此,该公司正在投资其无线基础设施,现在,卓越的免费Wi-Fi连接是客户满意度的主要原因。并且,这些满意的客户会带来更高的回报。换句话说,网络正在为这个商场提高收入,就像星巴克一样。并且,与很多此前只有店面的企业一样,我们必须重新考虑我们客户的连接需求。为了满足这个新的质量体验期望挑战,我们需要的不仅是专业技能,还需要正确的工具。
你可能此前从来没有接触过ISP业务,但你的客户(特别是潜在新客户)可能希望你成为ISP。笔者发现就连他经常光顾的轮胎店都已经开始转变,在其等候区都提供了VPN和远程桌面。
好文章,需要你的鼓励
这篇研究揭示了大语言模型强化学习中的"熵崩塌"现象——模型在训练早期迅速失去探索能力,导致性能达到可预测的上限。研究者发现验证性能和策略熵之间存在精确的数学关系:R = -a·exp(H) + b,并深入分析了熵变化的内在机制。基于这些发现,他们提出了两种简单有效的方法(Clip-Cov和KL-Cov)来缓解熵崩塌问题,显著提升了模型性能,特别是在困难任务上。这项研究为大模型强化学习的规模化应用提供了关键指导。
Skywork OR1是昆仑公司AI团队开发的开源推理大模型,通过创新的强化学习方法显著增强了语言模型的推理能力。该研究基于DeepSeek-R1-Distill模型系列,采用名为MAGIC的训练方法,在AIME24、AIME25和LiveCodeBench三大基准测试中实现了显著性能提升,32B模型平均准确率提高15.0%,7B模型提高13.9%。研究团队通过系统研究策略熵崩塌现象,提出了有效的缓解策略,并开源了全部代码、数据和模型权重,为AI社区提供了宝贵资源。
上海交通大学研究团队发现多模态大语言模型中的"啊哈时刻"(自我反思模式)虽存在但并不意味着推理能力提升。他们提出了"冷启动强化学习"两阶段方法:先用监督微调建立推理模式,再通过强化学习优化。实验表明,这种方法在多个多模态数学推理基准上表现卓越,使3B参数模型达到接近甚至超越部分7B模型的性能,为增强多模态AI推理能力提供了有效路径。
MBZUAI研究团队开发的SVRPBench是首个模拟真实物流环境的随机车辆路径问题基准测试平台。它通过建模时间依赖的交通拥堵、概率性延误和客户特定时间窗口,为500多个包含最多1000客户的测试实例注入真实世界的不确定性。实验结果显示,先进的强化学习算法在分布变化时性能下降超过20%,而传统方法表现更为稳健。该开源平台通过GitHub和Hugging Face发布,旨在推动更适应现实世界不确定性的路由算法研究。