评估文章列表第1页-至顶网频道 - 至顶网

/

评估关键字列表

o1 模型在“医学领域”表现如何？研究人员进行了初步研究：AI 医生离我们更近了

o1模型

OpenAI

评估

医学领域

2024-09-26

o1 模型在“医学领域”表现如何？研究人员进行了初步研究：AI 医生离我们更近了

OpenAI的o1模型是首个采用强化学习策略内化思维链技术的LLM，在医学领域的表现尚未明确。研究人员通过35个医学数据集和2个新问答数据集，评估了o1在理解力、推理能力和多语言能力方面的表现。实验结果显示o1在多数医学任务上表现优越，但在中文医疗代理任务中性能下降，且解码时间较长。研究指出需要更精确的评估工具和改进用户指导策略，以实现AI医生目标。

LLM （大模型）评估框架知多少？

数据驱动

LLM

文本质量

评估

2024-06-17

LLM （大模型）评估框架知多少？

随着 LLM 的快速发展和改进，我们正在面对新的挑战和机遇。LLM 的能力和表现水平不断提高，这使得基于单词出现的评估方法（如 BLEU）可能无法完全捕捉到 LLM 生成文本的质量和语义准确性。LLM 能够生成更加流畅、连贯且语义丰富的文本，而传统的基于单词出现的评估方法则无法准确衡量这些方面的优势。

利用人工智能决策：组织精简时的客观性评估

AI

裁员

评估

2023-01-03

利用人工智能决策：组织精简时的客观性评估

裁员能不能也用上人工智能呢？有没有人工智能工具可以帮助指导企业的决策呢？事实证明是有的。笔者想在这里与读者分享五种方法，其中的人工智能可以令“组织精简”达到对雇主和雇员都有利的目的。

博睿数据通过CMMI5级评估，国内APM领域首家

博睿数据

CMMI

APM

评估

2021-09-02

博睿数据通过CMMI5级评估，国内APM领域首家

近日，博睿数据通过了代表软件能力成熟度最高等级的CMMI5级评估认证，并获得了美国 CMMI（Capability Maturity Model Integration）研究院颁发的CMMI5级证书。

白皮书

更多

数字化转型方略

更多

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

- 关注官方公众号
- 关注官方微博
- 关注官方喜马拉雅

友情链接

北京第二十六维信息技术有限公司（至顶网）版权所有. 京ICP备15039648号-7 京ICP证161336号京公网安备 11010802021500号

举报电话：010-62641205-5060　涉未成年人举报专线：010-62641208 举报邮箱：jubao@zhiding.cn

网上有害信息举报专区：https://www.12377.cn

安全联盟认证