• 分析师的薄暮?OpenAI推出AI Agent“深度盘问”,主打“金融、科学、计谋和工程等界限”

  • 发布日期:2025-03-11 07:17    点击次数:65

    分析师的薄暮?OpenAI推出AI Agent“深度盘问”,主打“金融、科学、计谋和工程等界限”

    本文作家:蒋紫涵

    起首:硬AI

    OpenAI推出AI Agent“深度盘问”,分析师要休闲了?

    当地时辰2月2日,OpenAI在直播中晓示推出一款全新的AI代理(AI agent),称招呼作念“深度盘问”(Deep Research),旨在匡助用户行使ChatGPT进行真切、复杂的盘问。

    OpenAI暗意,该功能专为“在金融、科学、计谋和工程等界限从事高强度学问使命的东说念主员”假想,提供全面、精确、可靠的盘问扶植,何况,该功能不异适用于需要进行细致调研的巨额耗费有商酌,举例汽车、家电、产品购买等。

    通俗来说,ChatGPT的“深度盘问”功能适用于那些不单思要快速得回谜底或摘录,而是需要轮廓酌量多个网站偏激他信息起首,不断真切挖掘直到找到最合适的谜底的任务。

    Altman写说念:

    “它不错去互联网,作念复杂的盘问和推理,然后给你一份讲演。它真实很好,不错完成需要数小时/数天且破耗数百好意思元的任务。”

    “它商酌量很大且速率很慢,但它是第一个不错扩充如斯世俗复杂、有价值的任务的AI系统。”

    对此,网友们摩拳擦掌,有东说念主“一经准备好使用它了”,还有东说念主自报账号苦求先一步用上ChatGPT的“深度盘问”功能:

    也有东说念主建议疑问,ChatGPT的“深度盘问”功能比谷歌的“深度盘问”功能更强吗?会不会存在秘密问题?能不成把讲演中每句话的首字母大写?

    限度发布,夙昔将拓展至更多用户

    Altman暗意,ChatGPT的“深度盘问”功能当今仅向ChatGPT Pro订阅用户绽开,每月名额100次查询,随后将徐徐扩充至Plus和Team用户,最终彭胀至企业级(Enterprise)用户。预测Plus版块将在约一个月后推出,何况夙昔付用度户的查询限度将“权臣升迁”。

    对此,好多网友暗意,200好意思元/月的ChatGPT Pro订阅用度太贵了:

    不是免费的谁介意啊。

    还有网友推断说念,等之后终明显AGI,是不是要每月收取2000好意思金,名额使用10次?

    其实,Altman暗意,免用度户也能使用,但额度相配少。

    需要矜重的是,“深度盘问”功能当今仅在特定地区推出,OpenAI尚未公布该功能何时向英国、瑞士及欧洲经济区(EEA)用户绽开。

    当今,ChatGPT 深度盘问的输出仅限于文本气象。不外,OpenAI策画在夙昔增多镶嵌式图像、数据可视化偏激他“分析型”输出。此外,OpenAI还暗意,夙昔将扶植接入“更多专科化的数据源”,包括“订阅制”数据库和里面资源。

    盘问精度奈何?AI仍存局限

    分析师要大面积休闲了吗?要津在于,ChatGPT“深度盘问”功能的精确度能否中意专科盘问需求?毕竟,AI并不完整,仍然存在“幻觉”(hallucination)问题,即生成造作或乌有信息的可能性。

    酌量到这少量,OpenAI涌现,每次深度盘问的输出王人将“完整纪录,附指导略的援用起首及推理摘录,便于用户参考和考证信息”。

    不外,分析合计,这一举措是否足以幸免AI误导用户仍待不雅察——此前,OpenAI在ChatGPT内推出的AI搜索功能(ChatGPT Search)已被曝出存在造作回复的问题。TechCrunch评测发现,ChatGPT Search在某些查询上致使不如谷歌搜索可靠。

    增强精确度:使用特等优化的o3版块AI模子

    为了提崇高度盘问的准确性,OpenAI采纳了一种颠倒版块的o3“推理”AI 模子,该模子经由强化学习(reinforcement learning)教练,特等针对“需要使用浏览器和Python器具的执行任务”。

    OpenAI暗意,该版块的o3模子“针对网页浏览和数据分析进行了优化”,不错“行使推理能力搜索、解读和分析互联网海量文本、图片及PDF,并把柄新得回的信息无邪调度策略。”

    该模子还不错浏览用户上传的文献,画图并迭代调度图表,在回复中镶嵌生成的图表及网页图片,并援用起首中的具体句子或段落。

    为了测试该模子的后果,OpenAI采纳了一项名为“东说念主类终极考验”(Humanity’s Last Exam)的评估设施,该测试涵盖3000多说念高难度学术问题,远超其他AI评估基准,以确保测试难度恒久当先于模子的跳动水平。

    ChatGPT“深度盘问”功能所使用的o3模子在测试中的准确率为26.6%——这一收获看似不高,但比拟之下,一经远超其他AI模子的得分:

    谷歌 Gemini Thinking:6.2%

    xAI Grok-2:3.8%

    OpenAI GPT-4o:3.3%

    不外,尽管如斯,OpenAI仍然承认,ChatGPT“深度盘问”功能存在局限性,可能会出现造作推断、诬蔑巨擘信息与流言的情况,何况,在面临不信服性时频频无法明确表述。

    本文来自微信公众号“硬AI”,温情更多AI前沿资讯请移步这里

    风险请示及免责要求 市集有风险,投资需严慎。本文不组成个东说念主投资建议,也未酌量到个别用户颠倒的投资主见、财务情状或需要。用户应试虑本文中的任何看法、不雅点或论断是否适应其特定情状。据此投资,背负自诩。