序 人類最後一個獨立寫作的紀元

關燈
當但丁在維吉爾的引導下遊曆地獄的時候,當屈原向天地萬物發問的時候,這些“千古萬古至奇之作”的作者們有沒有想過,未來會有一種在機理上不同于人類大腦的智慧,可以像缪斯、文曲星或其他神祇那樣,與人類攜手激發靈感,一同創造偉大的文本? AI算法無法取代人類寫作,但AI算法卻極可能為我們提供一面前所未有的,關乎科學邏輯、語言本質、文本規律的鏡子。

    假如有機會與智能機器在餐桌兩端相對而坐,我會有強烈的沖動向機器裸露和展示我的碳基大腦,并從對面的矽基大腦中成千上萬的激活函數、卷積核、梯度公式裡尋找人生與文本的終極意義。

     今天的AI無疑還在嬰兒期。

    即便如此,AI也可以為寫作者提供一種超越簡單語料統計的、具備一定語義感知能力的文本分析工具。

    其實,早在語言學家們利用詞頻統計來判定《紅樓夢》前八十回文本與後四十回文本異同的年代,計算機對于文學創作、文學評論的鏡鑒價值就已經模糊地顯現了出來。

    今天的AI工具擁有比單純的詞頻統計更強的能力。

    例如,自然語言處理中常用的語詞表征學習技術Word2vec就是這個探索方向上的一種基本工具。

    有關Word2vec的一個通俗解讀是,當機器利用此工具計算出文本中每個語詞對應的神秘數值[7]後,可以巧妙地将神秘數值與語義聯系起來,甚至可以用直觀的計算式來進行語義推導(我們用加了方括号的詞來表示該詞對應的神秘數值): [皇帝]–[男人]+[女人]≈[皇後] [北京]-[中國]+[澳大利亞]≈[悉尼] 上面兩個非常直白的計算式對AI研發者而言早已司空見慣,但每次展示給沒有經過編程和算法訓練的人,還是會收獲莫名的驚詫。

    因為這樣明顯的語義關系完全由AI算法自動得出,這很難不讓人懷疑AI已經找到了解讀人類大腦的密碼。

    遺憾的是,科學邏輯并不支持這樣的假想。

    今天的Word2vec隻是一種應用于文本的數學工具,AI對語義的解讀,還隻停留在膚淺的統計建模層面,遠談不上理解人類語言。

     Word2vec的實用價值在于,它是主題、風格、情感等更高級建模或分析的基礎。

    我曾抽取楸帆作品中代表性較強的詞彙,計算得到每個詞對應的Word2vec向量數值,再通過數學變換将百多維空間中的向量轉換成二維或三維人類可見的圖像[8]——這是标準的、科學意義上的“降維打擊”。

    例如,後圖(見下頁)是從楸帆收錄在這本書中的六篇小說文本中,抽樣提取代表性詞彙生成的空間分布示例(不同小說中的語詞在圖中對應于不同形狀的标記)。

     在電腦上,類似的分布圖可以針對每個空間局部或每個聚合主題,進行放大和細化。

    詞彙在不同空間層級、區域的聚合關系,可以直觀地反映每篇小說、每個章節甚至每個段落的寫作特點。

    類似的工具還可以很方便地比較不同作家的文本差異。

    例如,我們完全可以将楸帆的《人生算法》和保羅·巴奇加盧皮的《卡路裡人》進行類似的主題分析和詞彙比較。

    再例如,即便我們知道楸帆的《美麗新世界的孤兒》是向赫胥黎《美麗新世界》緻敬的作品,但精密的文本分析也足以向我們呈現出兩部作品在語彙和主題層面的異同。

    從這個意義上說,未來文學批評領域的文本比較,幾乎一定會演進成全面由計算機參與的、邏輯缜密的科學過程。

     《人生算法》六篇小說文本中抽樣詞彙生成的空間分布示例 懼怕科技工具的人常常擔心這類分析會禁锢小說作者的靈感和創作欲。

    但是,想一想今天的圍棋世界吧,在AlphaGo和一大批頂級AI圍棋軟件接連問世後,中日韓國手們不是已經開始用AI的選點和勝率來分析自己的每一手棋了嗎[9]?小說創作者有認知自己作品的内在特征和語義邊界的權利。

    構思、創建新的作品時,他有足夠的自由去選擇新作品的主題與語言風格,而這種選擇權往往要建立在精準分析的基礎上。

    無論是在謀篇布局的宏觀層面,還是在詞句段落的微觀層面,帶着一個比人類大腦更加講求科學邏輯的機器顧問,是不是總會好過全憑感覺的獨立寫作? 更進一步的AI文本分析必然會向着美學角度發展。

    的确,AI目前還沒法擁有比肩人類的審美能力,