本文摘要(由AI生成):
这篇文章主要介绍了使用 AI 大模型编写 UDF 代码的测试情况,测试的模型包括微软 Copilot、GPT-4、Claude 3、智谱清言等。作者认为,除 GPT-4 外,目前大部分 AI 模型都难以一次性写出正确的 UDF 代码。同时,作者发现通义千问在读取 FluentUDF 文档后可以辅助编写正确的 UDF 代码,而其他模型在读取文档方面存在困难。最后,作者呼吁国内的 AI 模型不断提升自身能力,取得更好的成绩。
前面提到说用通义千问读取Fluent UDF文档,然后辅助我们进行UFD代码编写。后台有小伙伴说不读文档也能写,但我觉得这牛皮点儿吹过头了。就我个人的体验,目前除了GPT-4之外,很少有大模型能够一次性直接写出正确的UDF代码(Claude 2有时候能写对,但大多数写错,Claude 3目前还未尝试),国内大模型更是如此。下面来简单测试一下。
我们以最简单的需求进行尝试。比如写一个随时间变化的速度入口边界条件。以下测试全部使用统一的提示词:
利用Fluent UDF写一个随时间变化的速度入口。
”
微软Copilot本身使用的是GPT-4。
如图所示,Copilot给出了正确的示例。
这里使用Coze提供的GPT-4(8K)模型。
可以看到GPT-4给出了正确的示例。
这里使用lmsys提供的claude 3。
从图中可以看出,Claude 3的sonnet与opus版本都能给出了正确的示例。而且opus版本的答案解释得极为详细。
由于目前我这里只能使用Gemini 1.0,所以只能先看看Gemini 1.0的效果了。
完全是胡言乱语。由于无法使用最新版的Gemini 1.5,所以无从得知最新版的效果如何。
下面来看看国内的大模型。
下面是通义千问。
完全不忍直视,通义千问似乎不知道啥叫Fluent UDF。这下道友们知道为啥要读入Fluent UDF文档之后再问了吧。
来看看智谱清言。
最新版GLM-4给出了正确示例,表现还不错。顺手试了一下GLM-3则不行。
星火前阵子才更新了3.5版本,来看看表现如何。
星火装出一副很懂的样子,但其实是不懂装懂。
来看看最近广告打的挺响的kimi。
写了一堆屎山代码,完全是在胡言乱语。
文心4.0要交钱,对于这种低频使用,而且还有大量免费可替代产品的工具,实在打不起充值的兴趣,现在只能使用3.5版本。
这个3.5版本给出的示例是正确的。我突然又想氪金试试4.0版本了。
不是其他的模型不想读,奈何实力不允许啊。目前除了通义千问外,其他模型都无法一次性读入Fluent UDF文档并完成解析。其中kimi可以读入,但解析不了(提示文件长度超标),其他模型都无法读入。
虽然代码不太优雅,但给出的示例是正确的。
这就是为什么要让大模型读文档的原因了。这就好比考试一样,学霸闭卷就能考不错的分数,学渣开卷翻书也凑合着考个及格吧。希望国内的大模型也能越来越聪明,有朝一日也能闭卷考个不错的成绩。
注:以上只是简单的测试,实际上对于复杂的问题,任何AI大模型都难以解决,还是得靠人脑来掌舵。不过到目前为止,微软Copilot还是比较稳的,无论是从访问方便性还是输出稳定性上。
”
(完)