魏忠
唐天寶年間,詩人張繼路過蘇州,寫下了千古名詩《楓橋夜泊》。月落烏啼霜滿天,江楓漁火對愁眠。姑蘇城外寒山寺,夜半鐘聲到客船。一種解釋說:張繼京城趕考失敗,路過蘇州,寫下了這首名篇。詩中的“烏啼、愁眠”似乎能為佐證。然而,這種解釋有幾個致命的錯誤。一是張繼是襄陽人,唐科舉的兩京無論是洛陽還是長安,從家里到考場都不能路過蘇州;二是張繼本人并不是科舉考試失意者,而是進士。只是在考中進士后銓選失敗,回家賦閑,十年后才得到機會到江西當“財政廳長”。這種際遇對候選官員已是極大榮幸,何來姑蘇之愁?
然而,旅居美國多年的計冠光先生查東亞圖書館,告訴我:在唐宋古籍中,烏啼是寒山寺旁邊的一座烏啼山,愁眠是寒山寺對面的愁眠山,江楓更不是江上的楓樹,是當時寒山寺運河支流旁邊的兩座橋:江橋和楓橋。如此看來,張繼在寒山寺不是發愁,而是流連忘返。這是一首寫景美極的唐詩。第一句寫時間和空間,第二句寫燈光風景,第三句寫地點和禪意,最后一句“DUANG”的一聲,詩人不得已要走了,美景再好,船期有限。如果這樣理解,這首詩甚至是超越王維的好詩,入選唐詩三百首當之無愧。我更愿意相信這種新的解釋,因為詩歌的意境更高,也更符合張繼的生平。

好了,切入本文的主題,“數據的數據,是比數據本身更重要的數據”,這句話有點拗口。數據的數據,有一個專業名詞,叫“元數據”,也就是數據背后的數據。在上面的案例中,張繼寫詩的背景、山川地理、情緒、環境、漁火、楓橋、霜,一同構成元數據,而張繼這首詩,就是詩歌本身的數據。
在小數據時代,背誦張繼的詩歌,按照書上的標準答案解釋它,甚至寫字寫得漂亮,就可以贏得分數。然而我們卻忽略了大量更加有用的元數據。學生如果沒有沉浸在張繼的元數據環境中去學寫詩,一定會東施效顰的。
大數據不能直接產生結論,用相關性代替因果性、全量數據代替抽樣數據、用數據采集代替推演,有更加個性化的好處,但也會陷入無所作為的窘境。尤其是在云、物聯網時代,大量的元數據收集變得異常容易的情況下,大數據發展成數據科學,就成為必然。
網絡上關于張繼的詩歌還有爭論,有人認為烏啼山、愁眠山是張繼的這首詩出名以后才這樣叫的。但如果有足夠的大數據,比如唐代蘇州全部文獻、宋代文獻和愁眠山改名叫今天的孤山的過程,按照可視化、邏輯推演、時間推演,完全可以破解《楓橋夜泊》這首詩的羅生門。
教育信息技術發展的今天,每位學生留下的元數據,比學生的分數更值得注意。而針對每位學生和一群學生的物聯網、云的大數據的數據科學,將變教育情懷為教育科學。