评估 关键字列表
o1 模型在“医学领域”表现如何?研究人员进行了初步研究:AI 医生离我们更近了

o1 模型在“医学领域”表现如何?研究人员进行了初步研究:AI 医生离我们更近了

OpenAI的o1模型是首个采用强化学习策略内化思维链技术的LLM,在医学领域的表现尚未明确。研究人员通过35个医学数据集和2个新问答数据集,评估了o1在理解力、推理能力和多语言能力方面的表现。实验结果显示o1在多数医学任务上表现优越,但在中文医疗代理任务中性能下降,且解码时间较长。研究指出需要更精确的评估工具和改进用户指导策略,以实现AI医生目标。

LLM (大模型)评估框架知多少?

LLM (大模型)评估框架知多少?

随着 LLM 的快速发展和改进,我们正在面对新的挑战和机遇。LLM 的能力和表现水平不断提高,这使得基于单词出现的评估方法(如 BLEU)可能无法完全捕捉到 LLM 生成文本的质量和语义准确性。LLM 能够生成更加流畅、连贯且语义丰富的文本,而传统的基于单词出现的评估方法则无法准确衡量这些方面的优势。

利用人工智能决策:组织精简时的客观性评估
2023-01-03

利用人工智能决策:组织精简时的客观性评估

裁员能不能也用上人工智能呢?有没有人工智能工具可以帮助指导企业的决策呢?事实证明是有的。笔者想在这里与读者分享五种方法,其中的人工智能可以令“组织精简”达到对雇主和雇员都有利的目的。

博睿数据通过CMMI5级评估,国内APM领域首家

博睿数据通过CMMI5级评估,国内APM领域首家

近日,博睿数据通过了代表软件能力成熟度最高等级的CMMI5级评估认证,并获得了美国 CMMI(Capability Maturity Model Integration)研究院颁发的CMMI5级证书。