另一项测试GAIA,在现实世界问题上评估AI的公开基准测试,Deep Research在3个级别的难度上均刷新记录,平均完成一个问题花费60-70秒。 出于保护基准测试的目的,OpenAI只展示了Deep ...
就在开源的 DeepSeek-R1 被整合进各路 AI 搜索工具之际,OpenAI 临时举行小型发布会。4 点 27 通知,8 点开始直播。ChatGPT 上新“Deep Research”,把推理大模型的思考能力用于联网搜索。 据介绍,Deep Research 功能可在数十分钟完成人类专家需要几个小时的复杂研究任务。 在“人类最后的考试”上,Deep Research 刷新了最高分,比 o3- ...