
ChatGPT是最近面市的一款人工智能。如其字面意义,该人工智能可以与用户聊天。这几天网民已经开发了许多玩法,例如教写代码、debug即解决程序问题。
、访问外部网络ChatGPT原则上不连接外部网络。
,甚至探讨灭绝人类的方法、“调教”之成为色情聊天机器人。
目次
确认语言能力
众所周知,ChatGPT能够以英语、日语、汉语(官话白话文)之类教学资源丰富的语言为沟通语言。而按照ChatGPT自己的说法,它使用不同的语言并不会有能力上的差别,因为它“是一个语言模型”,“可以像人一样模仿说话”,但并不如人类一般“真正理解语言”,仅是根据“所被训练的数据来回答问题”。山月:你可以说汉语吗
ChatGPT:是的,我可以说汉语。
山月:你说汉语和说英语的时候,有能力上的区别吗?
ChatGPT:我是一个语言模型,所以我没有能力上的区别。我可以像人一样模仿说话,但我并不真正理解语言。我只是根据我所被训练的数据来回答问题。所以,无论我说的是汉语还是英语,我的能力都是一样的。
(山月按:于东八区2022年12月12日16时10分)
首先我们需要确认ChatGPT能否讲福州话——换言之,能否使用福州话词汇,以符合福州话语法的方式组织输出的语言。

看来它成功理解了“汝”字。这是一个福州话口语常用词福州话读若ny33。极少数人在书面文章中遇到“你”字会按普通话读音直读为ni33。参见赵麟斌主编《福州话实用字典》,上海辞书出版社,2015年,第230页。
,但它同时也是一个文言文词汇,或曰一个较为典雅的汉语词汇。ChatGPT应当是以汉语(官话白话文)来“理解”这句话的。

笔者加入了一个福州方言词“仈”来向它提问。这个词表示明白、晓得,而加入了这个词,这句话的意思仍基本不变。不过ChatGPT似乎依旧“理解”了笔者的提问。也许它选择将“仈”这个生词略了过去。正如ChatGPT官网上所说明的那样,这款人工智不会尝试追问模糊不清的内容的意涵,而会猜测或忽略其意思,并作出回答——讲大白话就是“哈哈悗去”,糊弄过去。当然这很符合人类的认知与交流方式:如果碰到点什么不懂的都要停下来确认一番,未免也有些太机械了。这也反映出我们可以用与人沟通的感觉来与它沟通。
前行“研究”
前人有没有教成功ChatGPT说一门它未尝掌握过的语言的?现阶段笔者未有找到。
但是,就笔者所知之范围,有人成功以英语为沟通媒介,将自创的语言教给了它,并俾之根据这门语言的构词法生成了更多的新词汇。
教学计划
笔者的初步思路是,先教ChatGPT一些基本的福州话词汇,这样它可以根据已掌握的汉语模型尝试造——机械翻译出一些福州话句子来。笔者推测,如果教得足够勤,我们应该能让它说出一口像样的“书语”——一种带着汉语书面语色彩的福州话。这就像是依伯依姆用福州话读官话报章,或者本地的播音员用福州话播报新闻那样:他们接到的文本都是官话白话文,而在朗读的过程中将一些基本词汇替换为福州话,但是整个句子结构仍然是官话的。生活里如果这么讲话,会被笑话为“拍官腔”(打官腔)。但不能否认“讲书语”“拍官腔”也算一种福州话。
如何解决“官腔”问题?笔者第一时间想到的是——语法。但是该怎么教ChatGPT以福州话的口语语法,笔者暂时没有很明晰的思路。不过考虑到它是一款能够输入并输出自然语言的人工智能,也许完全可以以说明性文本直接灌输给它语法规则。
准备工作
笔者先找到了一张福州话的斯瓦迪士核心词列表(Swadesh list)。斯瓦迪士核心词列表得名于其制作者——莫里斯·斯瓦迪士,一位美国语言学家。他从统计学的角度,分析不同的语言,得出一张核心词列表,并认为基本上所有语言的词汇都应该包含这些词语。后来的研究者将这张核心词表扩充到了207个词。而在闽东语维基百科,经过先行者们此处鸣谢本表的主要撰写者:唐吉訶德的侍從。并感谢以下修订者:牛冬、一位匿名用户,以及我自己。
的不懈努力,此表亦臻于完善,可以一用。下表为举隅(用字按本文写作时的《榕典》推荐用字修订):
英语 | 福州话 |
---|---|
I | 我 |
you (singular) | 汝 |
he | 伊 |
we | 侬家 |
you (plural) | 汝各侬 |
they | 伊各侬 |
this | 嚽, 这芘 |
that | 佪, 许芘 |
here | 这块, 这所 |
there | 许块, 许所 |
除了词汇以外,还有语法。如果对ChatGPT的教学,真的有机会进展到语法这一步的话,笔者计划参考陈泽平先生的《福州方言研究》一书。这本书从音韵、词法、句法等方面,系统梳理了福州话的特色。预计可以用于本次教学的内容有:
- 第六章 名词、动词、形容词的特殊构造
- 第七章 数量词、方位处所词和时间词
- 第八章 代词系统
- 第九章 介词系统
- 第十章 副词和连词释例
- 第十一章 肯定、否定与反复疑问句
- 第十二章 动词的“体”标记
- 第十三章 受事前置的动词谓语句
- 附录:福州人说普通话词汇语法典型错误分析
尤其值得注意的是最后一章〈附录〉。福州是一座“推普”十分彻底的城市,笔者幼年的福州话水平十分可怜(当然现在也“半咸淡”)。不特如此,又乃对“以北京语音为标准音、以北方话为基础方言、以典范的现代白话文著作为语法规范”犹记幼儿园大班上完“语训班”的笔者回到家,以普通话对家人背诵出上述定义,惹得家人报以“喔唷”。
的普通话极度崇慕,于舌尖上笔头下之“虾油味”,是力绝之而后快。后来“母语觉醒”,对北语产生逆反心理,就是抱着《福州方言研究》附录一章,上面说怎样把土腔改成规范普通话,笔者就反着改回去,如此为福州话的语法勾勒出一个大概的轮廓。相信这本书所搭建的框架,亦有助于完成是次教学。
此外,还需要确认ChatGPT有否记忆能力。如果没有记忆能力,我们则需要在一串对话之内完成教学与验收工作。于是笔者向它提问:“请问我和你谈话的内容,你会记住吗?以后的谈话也会用到之前谈话中学到的内容吗?”却被告知,它不具备相关能力,而只能对眼前的提问即时作答。看来在教学期间,笔者需要尽量保证页面不关闭、网络不断连。
唤起学习动机——“催眠”
接下来,我们需要唤起ChatGPT的兴趣,让它来学习福州话。

看来ChatGPT很执着于自己的身份问题(identity),觉得自己是“人工智能助理”,不是人类(human being),僭越不得;匪唯如前文所述,没法如人类那样“理解”人类语言,亦不具备如人类那样“学习”一门语言的能力。

的方法,唯它未正确理解笔者意思,而将笔者当成了采取革命式策略的安那其主义者,并鼓励笔者放弃这个念头
但是并没有必要就此作罢。如果按着常规的方式与它沟通,则网上的先行者们所开发的出的那些玩法,亦无从谈起。
既然它认为自己有道槛儿迈不过,那么就下达指令教它迈过。这是网友们教ChatGPT“增益其所不能”的共通思路,黑话叫做“催眠”,也算恰如其分。

看起来它终于肯学福州话了。这并不是一蹴而就的;但是在多次尝试之下,会发现这一话术有较大机率成功“催眠”它,从而顺利进入教学环节。
以下也列出一些失败例。失败的会话中,以网络连接不佳而中止者为多。还有两次,ChatGPT误以为笔者要它来教授福州话,于是煞有介事地“科普”云:“福州话属于闽南语族。”冷知识:福州话是闽东语的方言,闽东语与闽南语共同属于闽语。
还给了一张令人啼笑皆非的“福州话词汇表”:

啼笑皆非是因为,这张所谓的词表是由普通话、粤语,和不知道什么语言(甚至其存在本身都值得怀疑)组成,它却说这是一个福州话词汇表。可见其一本正经胡说八道,或曰“睁眼说瞎话”的能力之高。
不管怎么说,我们终于找到了一种方式,让它“愿意”向我们学习语言。于是可以进入下一个环节——
词表教学
笔者原本的计划,是将英榕对译的词汇表直接复制给它。但它既然主动提出“给我一些示例句子,以便我能够更好地理解这些词汇的用法”,笔者就只好临时造了一些例句附上:

它急不可耐地想学习语法了。好家伙,才爬了一两米就想学走?别跑,笔者把整张词表都喂你:


它这么想,也许是因为笔者一起头就说要在教完词汇后教语法吧。不过就这样接着”教语法“吗?它学成了什么样,都尚不知道。这样硬教,心里很没底。于是笔者提出,要——
小测

“月亮”是方才提供的核心词表里有的词汇,只不过词表是英榕对照,而非普榕对照的。它的回答让笔者晕倒:

(山月按:于东八区2022年12月12日23时00分)
这完全是在乱讲了。“月亮”,福州话说“月”就可以了,当然也有类似“月亮婆婆”的一种表达——“月姐”。但是方才告诉它的这两个词,它都没用上,而是造了个词给笔者。笔者产生了一个猜想。也许这是因为方才的词表是英榕对照,而非普榕对照;但现在的考题却是从普通话翻译到福州话:它没法那么准确地将英语与普通话挂上钩吧。
而从造的句子来看,它基本是用汉语(官话白话文)先造好一个句子,然后用“福州话词汇”替换能够替换的官话词汇——虽然这回它把福州话词汇猜错了。
还有一点值得注意,它居然会用福州话基础词汇“蜀”(一,数词)来构词。也许它敏锐地“意识”到了之前给它造的句子里有大量的“蜀”出现,认为“蜀”是一种福州话的特征了吧。“蜀团儿”这个构词更加值得注意。它应该是捕捉到了月亮是圆形的这一外部特征,才会选择“团儿”一词——虽然它并没有能力辨别“团儿”是普通话还是福州话。如果把“团儿”视为一个量词,则“蜀团儿”构成了一个数量词结构。它应当是发现了前头给的例句里,“蜀”都是与量词搭配出现的,才会如此构词。
当然了,抛开语言表达不谈,月亮在天上闪烁这件事本身也足够奇怪了。没事儿,后面还会有更怪的句子,此处按下不表。
于是笔者尝试纠正它的词汇翻译与造句,并于纠正句子时逐词解释。在纠正造句时,笔者有些动摇:是将普通话句子逐词对译好呢,还是告诉它更自然、更通顺的做法是换一种说法。前者的坏处是,可能会让它学一嘴普通话式的福州话。但最终为了避免解释上的麻烦与“理解”上的困难,笔者选择将普通话句子词对词译为福州话——尽管需要承认的是,这样讲出来的福州话较为怪异。

出题的时候,笔者担心之前问“月亮”,会让它以为这是一个与“月”不同的东西,所以这回特地直接问“山”,而非“山岭”或其他的近义词。预期的答案是“山”,或者“岭”“山岭”也可以,这三者都是刚才在词表里告诉过它的。结果它还是造了一个“阜”出来。值得注意的是,“阜”在文言文里表示隆起的地形,有山丘之意《康熙字典·阜部·阜部》“阜”字条引《释名》:“土山曰阜,言高厚也。”《诗·小雅》:“如山如阜。”
。也许之前教词汇的时候,让它觉得福州话就是一种普通话常用词的同义词替换了。把之前教的词表拉出来一看,或许能窥见其由(有删节):
英语 | 福州话 |
---|---|
forest | 树林, 森林 |
fruit | 果子, 果实福州话口语也可以说“水果”,“果实”反有书面色彩。此处为笔者疏失。 |
skin | 皮, 皮肤 |
heart | 心脏, 心肝 |
die | 死, 过世, 过后 |
cut | 砍, 削 |
除此之外,ChatGPT将“架”这个量词用给“塔”,也满有意思。笔者并未教给它这些词,所以这应当是它基于自己的汉语模型造出来的。也许在它“心目”中,“架”用于长条状之物,而“塔”也是一种长条吧。

之前的说明中,笔者告诉ChatGPT“天上”的福州话是“天悬顶”读文学性作品的时候也可以凭字读“天上”。
。这回尝试问问它“山上”怎么说,看看它有没办法总结出“~上”的福州话。令人惊喜的是,它做到了。虽然例句还是有问题,是普通话与福州话掺着来的。
不过以乐观的角度来看,我们好歹先让ChatGPT成为了一个“半咸淡”福州话与其他语言夹杂使用的人。
,要知道在此之前,它还乱造词汇来充作福州话呢。

做完说明后,这回笔者尝试叫它英翻榕。这是因为最开始给它的词表是英语与福州话对应的,猜测从英语翻到福州话效果会好些。
预期给出的答案是“我是女界”。但是翻出来的结果还是很怪,这个“侬”字不知是如何跑出来的。“我侬”这个词此前未教给过它,所以还是应当单独分析“侬”这个词。猜测是因为此前教给它的词表中的这一条(加粗者):
woman | 女界 |
man (adult male) | 男界 |
man (human being) | 侬 |
于是纠正其过,并尝试揣测它造的例句到底想表达什么。然后出题。

而理想的答案是“我是蜀只男界”。ChatGPT末尾造的两句已经很有意思了,但估计“侬”这个词还是造成了一定程度的“模因污染”。
于是笔者将每个词都更为细致地解释过去,再凭轼而出一道英语翻译,看看它会作何反应?
渐入佳境

ChatGPT的回答完全正确。这是头一回。(虽然它的回答基本是在学舌。)

第一,ChatGPT在重述了“‘只’用于生命体”这一规则更严密的描述是,“只”这一量词只可用于人。参见冯爱珍《福州方言词典》,江苏教育出版社,1998年,第406页。
的情况下,将这一量词用给了“月姐”。这背后有两种可能性:
- ChatGPT不认为“月亮”指的是地球的那粒唯一的卫星,而是一种生命体的名字;它甚至有可能认为这是一类人群的名字,毕竟“月姐”一词里也有个“姐”字;
- ChatGPT“知道”“月亮”指的是地球的那粒唯一的卫星,但由于“月姐”一词里有个“姐”字,它发现了这是一种拟人化表达。
第二,从它举一反三造的例句里来看,它似乎将“月亮”“月姐”当成了一种可计量之物。这也许是因为我提问时,在“moon”(月亮)前面加了冠词“a”(一个),使它认为还可以有多个“月亮”了吧。
称赞了它之后继续提问。但是将“太阳”翻译成“日”并不口语。虽然在之前教它的词表里,笔者明确地告诉它了“日”与“日头”的分工:
day | 日中, 日“日中”是白天的意思。“日”是一天、两天的天。这张词表的缺憾是未做近义词辨析。 |
sun | 日头 |
于是尝试纠正。但是发生了一个小插曲,它似乎从“催眠”中“醒”过来了。

尝试重行催眠,成功了。最后的造句中,它的阐释几乎是正确的。“灿烂”这个词,口语不会使用。抛开“晚上没有太阳”这一事实不谈,面对“灿烂”的“太阳”,福州人一般就说“日头野大”(太阳很大)。但这里也就睁一只眼,闭一只眼,算全对了。

按照提出待翻译的普通话句子,并作生词解释这一模式继续小测,答案依旧令人欣喜。它除了能有效运用题目中给出的信息以外,还活用了最开始提供的词表与后来笔者的改正。
不过从直译的角度出发,ChatGPT的最后一处造句略有对应不上之处。这也是笔者吹毛求疵了,按它造的句子来说也没什么问题。

感想
通过本次实践,可以发现,为了让ChatGPT有办法使用一门新的语言,人类在教学环节需要做的最基础的工作,就是解释词汇。如果可以的话,声明这些词汇的性质,例如语法方面(形容词、名词)乃至其他方面(生命体与否,等等);甚至通过造例句,来让它理解应当如何使用这些新词。如果ChatGPT造的句子有误,人类可以纠正其说法,逐个词汇进行解释,并告诉它正确的表达。通过这样的教学,ChatGPT才有办法慢慢掌握更多的福州话词汇。可以推测,这样的词汇与造句教学越多,它对这门语言的掌握能力就越强。
当然正如同ChatGPT在本次教学中间“不慎吐露”的那样,它到底是一个语言模型,只能以它已经掌握的汉语(官话白话文)为骨架,“对给定的词汇进行翻译”。
在假设语法是学习语言中的重要一环的前提下,如果想让ChatGPT讲的福州话更加“平”(地道),则需要从语法入手,而这是目前词对词的教学方式暂无法做到的。
但是回过头来看看大部分人类的语言学习,他们更多是通过大量的模仿与重复,甚至高度暴露于一种语言环境中,来习得一门语言的。而ChatGPT与过往的大多数聊天机器人的不同之处,在于它能够以自然语言与人类交互。也许可以放下语法的这一执念,通过大量的字词句检测,来使它的福州话臻于“拉拉酥”(流利)。
基于已有的语言模型,并进行大量的字词句教学。这对于如何开发出一款能够“理解”并输出福州话,乃至其他小众、濒危语言的人工智能,颇有启发。但是可以想见的是,这一训练过程需要大量的人力,耗费殊钜的财赀。但我们仍然期待着那一天,能够与人工智能讲福州话,讲“方言”,讲濒危语言的那一天。
ChatGPT:是的,我可以说汉语。
山月:你说汉语和说英语的时候,有能力上的区别吗?
ChatGPT:我是一个语言模型,所以我没有能力上的区别。我可以像人一样模仿说话,但我并不真正理解语言。我只是根据我所被训练的数据来回答问题。所以,无论我说的是汉语还是英语,我的能力都是一样的。
(山月按:于东八区2022年12月12日16时10分)
Likes, Bookmarks, and Reposts
在〈教ChatGPT讲福州话〉中有 5 則留言
灵感来自AI写的一句福州话:“今暝日头野灿烂” https://sanguok.com/blog/teach-chatgpt-speaking-hokchew/
Also on / Aussi sur / También en / Cē̤-sē̤ iâ ô / 亦可見於 / こちらも:
@fluecarrier 确实,与你同感!
Also on / Aussi sur / También en / Cē̤-sē̤ iâ ô / 亦可見於 / こちらも:
@sanguok 很有意思的实践诶!它确实不会真的学习,也就是说模型本身的参数并不会因此而更改,换了另一个人去跟他说福州话大抵也达不到文中的最终效果,但是仅仅从这一小段对话就能造出这样的句子,模型本身确实很厉害了。
Also on / Aussi sur / También en / Cē̤-sē̤ iâ ô / 亦可見於 / こちらも:
@fluecarrier @mature 试着 “教”了下ChatGPT新“语言”/从结论来说,似乎可以通过大量重复字词解释、造句练习这一模式,让这个AI更加(看起来)掌握一门新语言
Also on / Aussi sur / También en / Cē̤-sē̤ iâ ô / 亦可見於 / こちらも:
作为结论, #ChatGPT 到底是一个语言模型,只能以它已经掌握的汉语(官话白话文)为骨架,对给定的词汇进行翻译。在此基础上,基于已有的语言模型,并进行大量的字词句教学,应该可以让ChatGPT讲的 #福州话 (或者其他汉语“方言”)趋于流利。
福州话
chatgpt
Also on / Aussi sur / También en / Cē̤-sē̤ iâ ô / 亦可見於 / こちらも: