11 ChatGPT+翻译

以对话的方式进行翻译

ChatGPT可以翻译小段文本,下面是一个例子。

Q:请将以下的英文文本翻译成中文:

ChatGPT is underpinned by a large language model that requires massive amounts of data to function and improve. The more data the model is trained on, the better it gets at detecting patterns, anticipating what will come next and generating plausible text.

OpenAI, the company behind ChatGPT, fed the tool some 300 billion words systematically scraped from the internet: books, articles, websites and posts–including personal information obtained without consent. If you’ve ever written a blog post or product review,or commented on an article online, there’s a good chance this information was consumed by ChatGPT.

A:ChatGPT由一个大型语言模型支撑,需要大量的数据才能正常运行并改进。模型训练的数据越多,它检测模式、预测接下来会发生什么以及生成合理文本的能力就越强。

OpenAI公司是ChatGPT的背后支持者,他们向这个工具提供了系统地从互联网抓取的大约300亿个词:包括书籍、文章、网站和帖子,其中包括未经同意获取的个人信息。

如果您曾经写过博客文章或产品评论,或在线评论文章,那么您的信息很有可能已被ChatGPT消耗。

Q:请优化翻译结果,让它更符合中文的表达习惯。

A:ChatGPT由大型语言模型提供支撑,需要大量数据才能正常运行并不断改进。模型训练的数据越多,它检测模式的能力、预测下一步的能力以及生成合理文本的能力就会越强。

OpenAI公司是ChatGPT的背后开发者,他们通过系统地从互联网上抓取数据,为ChatGPT提供了大约300亿个词,其中包括书籍、文章、网页和帖子,以及未经许可获取的个人信息。

如果您曾经写过博客文章、产品评价,或在线评论文章,那么您的信息很可能已经被ChatGPT消耗。

Q:最后一段读起来还是不太自然,请再修改一下。

A: ChatGPT由大型语言模型提供支撑,需要大量数据才能正常运行并不断改进。模型训练的数据越多,它检测模式的能力、预测下一步的能力以及生成合理文本的能力就会越强。

OpenAI公司是ChatGPT的开发者,他们通过从互联网上系统地抓取数据,为ChatGPT提供了大约300亿个词,包括书籍、文章、网页和帖子,以及未经许可获取的个人信息。

如果您曾在网上写过博客文章、产品评价,或对网文发表过评论,那么很有可能您的信息已经被ChatGPT使用过了。

可以看到,ChatGPT一开始给出的译文基本上没有偏离原文的意思,但是不符合中文的表达习惯。在我们的要求下,ChatGPT对译文进行了两次优化,最终结果还是比较令人满意的。

调用GPT-3 API进行翻译

OpenAI的GPT-3模型为程序员提供了开发接口,下面利用这个接口编写一段Python代码,完成一个英译中的小任务。代码如下:

11 ChatGPT+翻译 - 图1

11 ChatGPT+翻译 - 图2

第1行代码用于导入GPT-3模型接口对应的Python模块openai。该模块可以使用“pip install openai”命令来安装。

第4行代码用于给出接口的API Key。可在浏览器中登录OpenAI账户来生成API Key。

第7行代码用于指定要使用的模型。这里指定的text davinci-003是能力最强的GPT-3模型。它不仅能完成其他模型所能完成的任务,而且能给出更长、质量更高的输出,能更好地跟随用户的命令,还能在文本中插入内容。

第8~11行代码用于给出待翻译的原文。

第12行代码用于将原文拼接在执行翻译操作的命令之后,得到要输入模型的内容。

第14~19行代码用于生成回答,即执行翻译操作并返回译文。参数engine用于指定模型。参数prompt用于指定输入内容。参数max_tokens用于指定生成内容的长度,text-davinci-003模型的上限是4 000个token。关于token的详细介绍见https://help.openai.com/en/articles/4936856-what-are-tokens-and-how to-count-them。参数temperature的值在0和2之间,较高的数值(如0.8)会提高生成内容的随机性,而较低的数值(如0.2)会让生成的内容更加集中和确定。

第22行代码用于从接口返回的数据中提取生成的内容,即译文。

第23行代码用于输出译文。

在本书附赠资料中可以下载上述代码。

运行代码后输出的译文如下:

11 ChatGPT+翻译 - 图3

GPT-3模型接口的翻译效果还是不错的,但是该接口不能像ChatGPT那样以对话的方式对译文进行润色,使用起来不够方便。并且接口对输入内容和输出内容都有长度限制,如果要翻译较长的文章,则需要设法将文章拆分成一个个小片段,再传入接口中进行翻译。