首页/文章/ 详情

Fluent文档汉化工作进展

精品
作者优秀平台推荐
详细信息
文章亮点
作者优秀
优秀教师/意见领袖/博士学历/特邀专家
平台推荐
内容稀缺
4月前浏览6575

记得前阵子说过打算把Fluent文档给汉化一波。

这是一项规模庞大的工程,近万页的文档,之前进展极为缓慢,每天最多翻译一两页(我每天能用在这方面的时间很少)。不过得益于当前各种AI大模型,此项工作现在终于可以跑步前进了。近期已经把理论文档初稿干完了,后期准备将其放到析模界网站(www.topcfd.cn)上,各位道友有兴趣可以移步查看。个人预计要不了几天就可以看到初稿了。精校版需要对初稿进行校正和润色,这个也需要较多的时间,留着后面慢慢弄。

原本是想先整用户手册的,不过用户手册页数太多了,处理起来太费时间,而且用户手册随版本变化较大,经常大版本更新会导致内容发生极大的变化,这个远不如理论文档稳定。理论文档页数较少(才1100多页),前期处理比较容易。

整个处理过程包括四步:

  1. 将原始PDF文档转换成Markdown文档。这里面最麻烦的是公式和表格的转换。理论文档中有大量的公式需要处理,AI识别的效果并不好,需要人工逐个确认。
  2. 将处理完毕后的Markdown文档分割成片段。鉴于当前AI大模型的表现,文档太长的话容易出现幻觉,翻译质量会急剧下降。而且公式显然是不需要翻译的,可以把公式提出来不翻译,这样不仅可以节省翻译时间,还能节省 token。
  3. 翻译各片段。这里可以采用并行处理来提高翻译效率。
  4. 组装翻译后的文档。将翻译后的中文片段组装成完整的文档。

AI翻译质量不是很稳定,其非常依赖于Prompt,经过反复对比测试,弄了一套相对靠谱的提示词,个人感觉翻译效果比DeepL略强。再一个就是AI翻译的效率比较低,这里使用硅基流动(siliconflow.cn)提供的deepseek v2的API,响应速度比deepseek官网快得多。

来源:CFD之道
Fluent理论
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2024-07-13
最近编辑:4月前
CFD之道
博士 | 教师 探讨CFD职场生活,闲谈CFD里外
获赞 2565粉丝 11293文章 732课程 27
点赞
收藏
作者推荐
未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习 福利任务 兑换礼品
下载APP
联系我们
帮助与反馈