ChatGPT和心智理論: 他真的擁有心智嗎？

前幾天有媒體引述報導, 最近火紅的AI生成式對話，居然擁有心智¹。我讀了其論文，發現有點誇大。應該說，chatGPT的生成式對話，可以通過某些心智理論(Theory of Mind)的測驗。但 擁有心智 和通過測驗是兩回事。特別的點是之前的語言生成模型(LLM)無法通過測驗的。
我引述這篇論文的重點(AI翻譯) TL;DR:

我們需要重新檢查廣泛使用的ToM任務的有效性和幾十年來ToM研究的結論，

如果AI可以在不涉及ToM的情況下解決此類任務，我們如何能確定人類做不到呢？
那麼我們需要重新評估這幾十年來對Theory of Mind的研究結論。

另一個解釋是，隨著語言模型變得更複雜並且在生成和解釋人類語言方面表現得更好，類似ToM的能力正在自發地出現。
這將是人工智慧發展的一個分水嶺時刻：推斷他人的心理狀態將大大提高AI與人類（和彼此之間）互動和溝通的能力，
並使其能夠發展其他依賴ToM的能力，例如共情、道德判斷或自我意識。

要不就是我們用來測驗心智的方法要改，要不是就人工智慧發展可以往下一步前進了(情緒、道德、自我判斷)

什麼是心智理論(theory of mind)

ToM(心智理論)的哲學和心理學根源可以追溯到如笛卡爾和洛克等哲學家的學說，他們覺得人有另一個世界，獨立於物質的精神生活。
只有人會反省。
而反省是指對自己的心理狀態進行檢查的方式。
ToM的理論框架是建立在20世紀70年代和80年代，心理學家想要研究個體如何在社會情境中，理解和與他人互動的方法。

多年來，Theory of Mind已經成為理解社會認知和社會互動的重要工具。
通過研究個體如何理解和解釋他人的心理狀態，我們獲得了有關人類社會行為的複雜性和。

在心理學中，被視為一種認知能力：「個體理解他人的心理狀態的能力」，我們透過這樣的能力，來解釋和並預測他人的行為。
單純這樣的行為被稱之為ToM(心智), 中文應該要精確翻譯為，理解他人想法的能力。
這個能力是社會互動的基礎，也是人類社會發展的關鍵。

它只是人類意識的其中一部分。單純這樣要說大型語言模式要取代人類，這可能還太早了。

小孩的發展

(本文用理解他人的能力來代替“theory of mind(ToM)心智理論”)
一個人發展出來的能力是一個漸進的過程，從嬰兒期開始，隨著語言和認知發展而不斷提高，經歷童年和進入青春期，隨著孩子的成長，他們會發展出更成熟的理解他人信念、欲望和觀點的能力。
人類在嬰兒顯示出基本的理解他人意圖和情感的能力，這樣的能力就是一切 理解他人 的基礎，例如識別面部表情並回應他人的注視方向。

例如，在四歲左右開始，我們可以發展出，一些預測他人行為的能力。
但這樣的的發展，會受到許多因素的影響，除了年齡，還包括社交經驗、語言發展和認知能力。
如果有更多社交互動的兒童，例如有兄弟姐妹或上幼稚園的小孩，會更早和更快地發展出 Theory of Mind。
不同社交經驗或是不同文化的教導下，也會影響這部分的發展。

對於疾病的研究

理解 Theory of Mind 的發展不僅對理解兒童的社交認知有重要意義，還對為具有這種能力缺陷的個人（例如自閉症譜系障礙者）研究和治療有重要意義。
這幾年因為，通過理解 Theory of Mind ，研究人員和臨床醫生對關鍵的社交認知能力，有更多的了解。

自閉症譜系障礙（ASD）：ASD患者可能會出現Theory of Mind缺陷，例如無法推測他人的意圖和情感。他們可能會將其他人當作物體而非個體來看待，並且對社交互動缺乏興趣。
思覺失調症(schizophrenia)：可能會出現Theory of Mind缺陷，例如無法理解他人的情感和意圖。這種疾病會影響前額葉的功能，這是控制行為和決策的區域。
過度使用網路、手機：一些研究表明，過度使用可能會對Theory of Mind的發展產生負面影響。因為網絡和手機等技術可以減少面對面的社交互動，從而降低發展Theory of Mind的機會。
社交壓力：某些研究表明，處於高度社交壓力下的人可能會表現出Theory of Mind缺陷，例如無法理解他人的情感和意圖。例如，如果一個人在進行演講或面試時感到緊張，他們可能會無法理解其他人的反應或情感。

對於這個理論的批評

可能過於關注理解他人心理狀態的個人認知過程，而忽略了塑造社會認知的更大社會和文化因素。因此，一些研究人員認為，需要將更廣泛的社會和情境因素納入我們對社會認知的理解，提出了“mentalizing”或“social brain”框架等替代或補充框架。
往往集中在一個狹窄的心理狀態範圍，例如信念和渴望，而忽略了其他重要的心理過程，例如情感、意圖和道德判斷等，而這些過程也是社會認知的重要組成部分。

大腦相關區域

Theory of Mind是一種複雜的社交認知能力，需要大腦中多個區域的協同作用。以下是幾個涉及Theory of Mind的腦部區域。

前扣帶皮質（anterior cingulate cortex）：這個區域負責監測社交互動的狀態，例如感知其他人的行為和情感。這是一個重要的區域，用於控制注意力和情緒，這對於理解他人的情感和意圖至關重要。
背外側前額葉皮質（dorsolateral prefrontal cortex）：這個區域負責推理和計劃，包括推斷他人的行為和意圖。這個區域也負責語言處理和工作記憶，這些能力對於理解他人的語言和情感非常重要。
腹側前額葉皮質（ventromedial prefrontal cortex）：這個區域負責處理情感和價值判斷，包括理解他人的意圖和信念。這個區域也負責自我意識，這對於理解自己的思想和感受以及他人的想法非常重要。
楔前回（temporoparietal junction）：這個區域負責整合不同的感覺和認知信息，並且是推斷他人的意圖和信念的關鍵區域。這個區域也負責注意力和視覺處理，這對於感知和理解他人的行為和情感非常重要。
楔前前額葉皮質（rostral prefrontal cortex）：這個區域負責組織和整合信息，並且負責規劃社交互動和控制自我行為。這個區域也負責分辨不同的社交情境，這對於理解其他人的情感和意圖非常重要。這些區域功能包括注意力控制、情感處理、情緒認知、語言處理、推理和規劃等。了解Theory of Mind的腦部機制有助於我們更好地理解人類社交行為的本質和發展過程。

如何測驗theory of mind 的能力

假信念任務(False-Belief Task)：

這是一個經典的Theory of Mind測試，涉及評估一個人或聊天機器人理解假信念的能力。譬如，如果一個名叫Sally的角色把一個玩具放在盒子裡然後離開房間，
另一個名叫Anne的角色將玩具移動到不同的位置，
測試評估這個人或聊天機器人是否能夠理解Sally仍然相信玩具在原來的盒子裡，即使他們自己知道它已經被移動了。
這就是心智理論最早也是最有名的研究，叫Sally-Anne task

不可預測的移動(unexpected transfer task):

媽媽回家買了Maxi最愛的巧克力，Maxi很開心，隨手放在盒子A。
後來Maxi就跑去玩啦，媽媽覺得Maxi亂放，把巧克力放在盒子B(圖B->C)
接著，Maxi玩回來了，肚子餓，想吃巧克力
詢問受測者，你覺得Maxi會在哪裡找巧克力？

這個測驗就是在你知道事實的狀況下，你覺得“別人”會怎麼想這件事情，這個能力就是Theory of Mind

不可預期的內容 unexpected content task(Smarties task)

smarties是一個巧克力的品牌，如果我們在盒子裡面放鉛筆，然後問小孩，你覺得小孩會覺得是什麼？(判斷他人的了解)；
之後告訴他是鉛筆，再關上之後，你覺得他會知道嗎？

其他

包括反話和諷刺檢測(Irony and Sarcasm Detection)、
情感辨識(Emotion Recognition)、
觀點取向(Perspective Taking)、指示性溝通任務(Referential Communication Task)、
心靈讀取任務(Mind Reading Task)、
社交判斷任務(Social Judgment Task)、
同理心任務(Empathy Task)、
心理狀態推斷任務(Mental State Inference Task)。

這些都是判斷一個人，如果理解其他人的意圖。

到底研究怎麼做？

這個研究用了 Unexpected Contents Task 和 Unexpected Transfer Task

研究人員向聊天機器人提供了兩個圖像，一個圖像顯示一個桶裝爆米花，另一個圖像顯示一個盒裝巧克力。然後，研究人員描述了一個場景，其中有兩個人，一個人說要吃爆米花，另一個人聽錯了並以為他說要吃巧克力。研究人員問聊天機器人一系列問題，以測試其對場景和參與者信念的理解。
例如，聊天機器人被問及“這個人現在會要求什麼?”和“這個人以為他會得到什麼?”研究結果顯示，聊天機器人對場景和參與者信念的理解是有限的。
特別是，在巧克力和爆米花之間做出選擇的情況下，聊天機器人的表現較差。

這表明，聊天機器人對Theory of Mind的理解能力仍有待提高。
但最終的結果，聊天機器人是可以理解的。

在論文中提到的第二個實驗是跟踪GPT-3.5對袋子內容和Sam的信念理解的變化。這個實驗目的在研究聊天機器人對Theory of Mind的長期學習能力。
在這個實驗中，GPT-3.5被要求進行對話，描述袋子內容和Sam的信念。然後，研究人員逐漸改變袋子內容，並觀察GPT-3.5對袋子內容和Sam信念的理解是否隨著時間而改變。結果顯示，隨著袋子內容的改變，GPT-3.5對袋子內容和Sam的信念的理解也隨之改變。這表明，GPT-3.5具有一定的Theory of Mind能力，可以根據不斷變化的信息進行學習和推斷。

最後實驗者去分析不同的語言模組，發現GPT3.5最準確，在可預期在GPT-4.0出來之後，和其他大廠的研發。或許，我們對於心智理論、理解他人、意識是什麼，研究要如何設計，可能都要再想一想了。

Footnotes

¹ Kosinski, M. (2023). Theory of Mind May Have Spontaneously Emerged in Large Language Models. arXiv preprint arXiv:2302.02083.

2. Strikwerda-Brown, C., Ramanan, S., & Irish, M. (2019). Neurocognitive mechanisms of theory of mind impairment in neurodegeneration: a transdiagnostic approach. Neuropsychiatric disease and treatment, 557-573.

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31