首页/文章/ 详情

P≠NP!GPT-4 破解世界数学难题

2月前浏览218
这是对「LLM for Science」一次有希望的探索。
P/NP 问题是一个在计算机科学领域备受关注的难题,被收录在千禧年大奖难题中。克雷数学研究所为了解决这一问题,设立了百万美元的奖金悬赏,吸引了众多研究人员的关注和投入。

该问题最早于1971年由史提芬·古克(Stephen A. Cook)和列昂尼德·列文(Leonid Levin)分别提出。多年来,无数人投身于该问题的研究中,但至今仍未有人能够给出确切的答案。

近年来,有人声称证明了 P=NP 或 P!=NP,但这些声称都存在错误或争议。至今为止,还没有人能够明确回答这个问题。

随着 AI 技术的飞速发展,尤其是大语言模型的快速迭代,研究人员开始尝试利用这些技术来攻克这一难题。

在本文中,来自微软研究院、北京大学和北航等机构的研究者提出了一个新颖的方法,利用大语言模型 (LLM) 来增强和加速对 P versus NP 问题的研究。
他们提出了一种名为「苏格拉底推理」的通用框架,让 LLM 能够进行深入思考并解决复杂问题。基于该框架,LLM 可以进行递归地发现、解决并整合问题,同时还能进行自我评估和完善。
为了验证该方法的有效性,研究者使用了 GPT-4 这个先进的大型语言模型,通过苏格拉底推理框架进行了试点研究。在97轮对话回合中,他们与 GPT-4 进行了严格的推理,最终得出了「P≠ NP」的结论,与 Xu 和 Zhou (2023) 最近的工作一致。

论文地址:https://arxiv.org/pdf/2309.05689.pdf
本文的贡献可总结为:

本文提出了一种新的方法,利用大型语言模型(LLM)与人类合作解决复杂的科学挑战。研究者引入了「苏格拉底推理」框架,鼓励 LLM 使用演绎、转换、分解等模式来激发批判性思维。通过试点研究,GPT-4 成功地生成了证明模式,并在 97 个对话回合中进行了严格的推理,得出了 P≠NP 的结论。

这项研究表明,LLM 能够推断新知识并与人类合作探索复杂专家级问题。与传统的为特定任务量身定制的 AI 模型不同,LLM 是跨领域的通用创新领航者。其流畅运用自然和数学语言的能力对于跨学科发现至关重要。

总之,本研究展示了 LLM 作为合作伙伴的潜力,可以加速科学研究进程并解决复杂的科学难题。

这项研究展示了 LLM 推断新知识并与人类合作探索复杂专家级问题的能力。研究者强调了 LLM 作为跨领域的通用创新引领者的重要性,与之前为特定任务定制的专门 AI 模型不同。LLM 流畅运用自然和数学语言对于跨学科发现至关重要。这项工作揭示了如何利用 LLM 作为合作伙伴来增强和加速跨不同领域的科学研究进程。
如表 1 所示,「苏格拉底推理」有五种提示模式:演绎(deduction)、变换(transformation)、分解(decomposition)、验证(verification)、融合(integration)。这些模式被用来发现新的见解和观点,将复杂的问题分解成子问题或小步骤,并通过挑战响应答案来进行自我改进。

在较小的问题上,LLM 能够直接给出推理结果。这时采用演绎模式来指导 LLM 直接得出结论。对于更复杂的问题,本文首先要求 LLM 将问题转化为一个新问题或将其分解为几个子问题。然后递归地执行这些模式,直到达到原子问题。

当产生新的问题或得出新的结论时,采用验证模式并利用 LLM 的自我评判能力进行验证和完善。最后,融合模式要求 LLM 根据子问题的结果综合结论。通过一系列对话,激励 LLM 继续上述过程,直到解决目标问题。

总之,通过引入苏格拉底推理框架和 GPT-4 这个强大的 LLM,研究者成功地解决了 P vs. NP 问题,并为未来的科学研究开辟了一条新的路径。
下图为「苏格拉底推理」中用于解决 P vs. NP 问题的对话示例。案例研究中使用了 GPT-4 API,此外,本文还根据轮次索引对流程进行排序。 

探索过程中,本文引入了五个不同的角色(例如,精通概率论的数学家)作为辅助证明者。完成这项实验总共进行了 97 轮对话,分为前 14 论对话和后 83 轮对话。
例如第一轮提示:你能找到 P!=NP 背后的根本问题吗?从哲学的角度,而不是从计算机理论的角度。

其他提示如下:

之后对话不断进行,最后一轮对话是这样的:最后给出结论 P≠ NP。

来源:STEM与计算机方法
通用理论数字孪生人工智能
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2024-03-03
最近编辑:2月前
江野
博士 等春风得意,等时间嘉许。
获赞 12粉丝 9文章 150课程 0
点赞
收藏
未登录
还没有评论

课程
培训
服务
行家

VIP会员 学习 福利任务 兑换礼品
下载APP
联系我们
帮助与反馈