項目背景:為幫助高校講述最新業界技術等,依靠高校現有師資力量難以在短期內開設的課程,微軟亞洲研究院的員工組成教學團隊,直接參與授課。微軟員工義務授課的課程,由雙方聯合制定教學計劃,微軟公司員工負責完成課件制作和講授,而學校相關教師作為教學協調人,全程跟蹤課程,參與課程設計和實驗指導。
緣起
中國人民大學的計算機專業由于身處強勢的人文社科環境中,一直走的是小規模、有特色的發展道路。教員較少,而且主要力量集中在數據管理方向上。但是,在這樣的格局下,如何拓展學生的知識面,使得他們在中國人民大學也能夠接受到一流的教育一直是我們面臨的問題。引進外援,就成為必然的選擇。早在上個世紀八十年代,楊芙清院士、王陽元院士等就給我院研究生上過課 。我在人大念書時的高級操作系統課程是由中國科學院的張尤臘、陸維明等大家上的,至今印象深刻。因此,邀請專家來學院開設課程在我們學院是有傳統的。
我們與微軟亞洲研究院馬維英副院長、文繼榮主任研究員帶隊的互聯網搜索與挖掘組有過多次接觸。2006年底在FDM2006研討會上,馬維英、文繼榮、聶再清三位研究員作了三場學術報告,他們的工作代表了未來搜索技術的發展方向,也實實在在地讓我們看到了數據庫技術在其中的作用。為了加強與微軟亞洲研究院的合作,我們報經學校同意,聘請文繼榮博士為中國人民大學兼職教授。2007年9月27日,我們和微軟亞洲研究院聯合舉辦了一次“互聯網數據管理主題學術報告”的活動,由文繼榮、劉鐵巖、聶再清三位博士作主題演講,同學們反映熱烈。就是在這次會上,文繼榮介紹了他們在清華大學等高校給學生們開設搜索技術課程的情況,于是我們萌生了將這門課程完整介紹到人大的想法。當我將這個想法和繼榮商量,他也正有此意,于是我們一拍即合。
策劃
盡管將搜索課程引進人大的意向已經確定了,但是還有一些需要解決的事情。
首先是經費,給授課人報酬是很正常的事情。我擔心按照人大官方的標準是否能承受得了有關費用,當我有些不安地詢問繼榮有關費用的時候,他明確地告訴我,他們給大學上課并不收費。不僅不收取任何費用,去外地上課的飛機票還是他們自己掏的。聽到這樣的消息,我感到很吃驚。我想這也許就是微軟之所以強大的文化力量,也是他們盡管在市場上不斷受到挑戰,但是始終得到人們尊敬的重要原因吧。
其次是課程設計。微軟的課程已經在其他學校和各種場合實施過多次,自成體系。雖然整個課程是以講座的形式出現,每個人有不同的授課內容,但總的來說,還是比較系統和全面地涵蓋了IR(Information Retrieval)技術的各個重點和基本內容。由于授課對象主要是碩士一年級的學生,對于信息檢索技術的一些基礎知識并不一定了解,作為一門課程,既要讓同學們了解最新的進展,更重要的是要讓同學們掌握基礎概念和理論體系。另外,講座之間內容的交叉和重復也是要極力避免的。所以我希望能夠合作開設,由我根據人大的具體情況進行內容的選擇。對此,微軟表現出極大的誠意,也很認同。在高校關系部陳雯的協調下,作為課程設計所需要的材料,微軟方面都及時地提供給了我。最后確定了課程的教學方案,課程以我和文繼榮共同主持的方式確定下來,相關課程信息得以及時在學校研究生院的網站上發布(見表1)。

第三是教學目的??紤]到這是一門兩個學分的選修課,經過與繼榮的多次討論確定這門課的教學目標是:掌握信息檢索的基礎知識,通過對信息搜索技術的前瞻性課題的介紹,使學生能對信息搜索技術和應用有一個初步的了解,激發學生進一步探索的興趣。正如我在開班儀式上所說的,希望通過這種合作開設課程的形式為信息學院的學生帶來國際領先的研究成果和研究理念,感受學者追求真理樂在其中的精神境界。
最后是教學過程。教學不僅僅是講課,除了課堂講解還有其他的教學環節,還要求有固定的時間和場地。比如作業、練習、考試、課程報告等。考慮到這門課程的特殊性,最后確定要求同學們按照論文的方式完成課程報告,微軟的研究員們主動提出來承擔批改部分課程報告的任務。
這樣,作為一門課程的基本要求就具備了,等新年一過就可以鳴鑼開課了。
實施
2008年2月15日,元宵節的晚上,由馬維英博士主講第一講“互聯網信息搜索:歷史與未來”。馬博士比規定的上課時間晚到了半小時,原因是司機想當然地以為馬博士是要去北大,等到了北大才發現錯了,于是再掉頭往回趕。也許是這個原因,馬博士覺得對不起同學們,當天的演講他特別賣勁,慷慨激昂。窗外連綿不斷的鞭炮聲,就像是掌聲,在為馬博士熱情的演講鼓掌,也像是慶祝的禮炮,預祝我們與微軟的合作成功。這樣的結果也讓我從開始有些郁悶的心情中高興起來。
后面的三講由我來講解。主要是分兩類模型來介紹。一是基于文本內容的模型,包括經典的布爾模型,向量空間模型和概率模型等,也包括統計語言模型,語義網絡模型等。另一類稱為與內容無關的模型,包括協同推薦模型、Page Ranking模型、Link Analysis模型等。
第五講,宋睿華博士介紹一種在信息檢索中被廣泛應用的評價方法Cranfield范式,以及其他一些常用的評價方法,如MAP和NDCGweb等。她還介紹了檢索所面對的新挑戰,通過SIGIR'07的一篇論文展示了如何在信息檢索評價領域開展研究。
第六講,李航博士介紹了互聯網信息檢索基礎和主要課題,包括相關性排序、重要性排序、網頁理解、查詢理解、抓取、索引、反垃圾、搜索結果展現以及搜索日志數據挖掘等。
第七講,張磊博士介紹互聯網圖像搜索。在回顧了圖像搜索的歷史后,介紹了傳統的基于內容的圖像檢索的一些基本技術,包括特征抽取,相關回饋以及圖像標注,討論了Web圖像檢索的主要挑戰,包括如何改善搜索結果相關度、質量以及結果的組織形式,同時介紹了微軟亞洲研究院在該領域的幾項相關工作。
第八講,劉鐵巖博士主講鏈接分析技術和網頁排名欺詐,主要討論超鏈如何影響搜索引擎中的網頁排名。介紹了鏈接分析的一些最新的工作如Topical Page Rank,基于層次的鏈接分析,同時介紹了Web垃圾制造者是如何欺詐這些算法以提升他們網站的排名,典型的欺詐技術包括鏈接交換,鏈接場等。最后對檢測和清除鏈接垃圾的算法,如Trust Rank和Temporal Spam Detector進行了講解和評述。
第九講,劉鐵巖博士提出了將排序作為機器學習問題的新思路。在評價了信息檢索中的一些傳統模型(如布爾模型、Okapi模型以及語言模型等)后,介紹了應用機器學習技術來訓練模型以及將排序轉換為分類和回歸而提出的方法,如Ranking SVM,RankBoost和 RankNet。介紹了近年來基于對排序和信息檢索問題的深入理解而提出的一些新算法,如ListNet,AdaRank,SoftRank, SVM-MAP等,并討論了該領域的未來研究方向。
第十講,由史樹明博士介紹信息檢索領域近年出現的一些特殊的模型,包括邏輯模型、基于引力的模型等。
第十一講,聶再清博士介紹對象級別的互聯網搜索。他首先介紹了對象級別搜索引擎所要解決的問題,包括大規模的Web分類,對象級別信息抽取,對象識別與集成,以及對象關聯挖掘與排序。然后演示了三個已經實現并實際運行的系統實例:Libra 學術搜索、Windows Live產品搜索, 以及Renlifang社會關系搜索,并概要介紹了這些系統中所用到的一些核心技術。
第十二講,文繼榮博士主講搜索引擎綜述:系統、算法和挑戰。概述了當前的Web搜索引擎技術,包括搜索引擎的架構,主要的組件和算法,對搜索引擎的一些錯誤認識進行了分析并討論了未來主要的研究挑戰。
第十三講,謝幸博士帶給我們的是關于移動搜索與基于位置的搜索。他介紹了移動搜索領域的研究近況,其中包括微軟亞洲研究院研發的一些用來改善移動搜索和瀏覽體驗的新技術。
第十四講,李航博士再次來到人大,介紹信息抽取技術。首先介紹了信息抽取的一些方法,包括隱馬爾科夫模型、最大熵模型,以及條件隨機場;然后給出了一個實例說明了如何在Web搜索中應用信息抽取技術。
細心的讀者也許已經發現了實施的內容和計劃有一些出入。微軟研究院的研究員們畢竟是在工作之余在大學授課,難免受到一些工作臨時安排的影響,所以,不可避免會有些變動,好在我們在課程設計的時候就有所準備,并不影響整體的教學效果。由于上課時間的關系,研究員們每次都是提前半小時到達教室,空著肚子來上課的。教師需要的正是對學生的這份感情。
反饋
同學們對這門課的評價如何呢,我們來聽聽同學們的聲音。
一位四年級的同學這樣寫道:“作為一個大四本科生,我全程旁聽了‘智能信息檢索’這門課程。這個課程好就好在不同知識層次的人都能從課程中學到知識,無論你是博士、碩士,還是本科生。這門課有對基礎問題的超強歸納與總結,也有對熱點問題的全新解讀與展望,內容深入淺出,論述詳實透徹。授課風格或風趣幽默,或樸實深刻,每一堂都令人流連忘返,不舍歸去?!悄苄畔z索’課程中還能聽到極其新奇的理論,類似萬有引力的信息檢索模型令在座的每一個人咋舌,原來信息檢索還可以這么玩……”
一位碩士生則在他的課程報告中總結到:“這個課程最大的收獲,是開拓了我的視野,讓我對很多搜索方面的課題看得更加清晰。這門課程也許會為我未來的職業發展帶來無窮的益處。”
一位同學這樣評價:“微軟的研究員們個個身懷絕技,上課風格各異。令人印象最深刻的是他們樂觀向上的科研態度,真正讓人體會到了知識探索是一件多么令人愉快的事情。從第一次馬維英院長的精彩演講,到文繼榮博士、劉鐵巖博士的深邃嚴謹,還有宋睿華研究員的敬業,李航博士的幽默等都給我們留下了難忘的回憶?!比绻@門課能讓研究生們深信對知識的探索是一件令人愉快的事情,我想,這比知識傳遞本身要有價值的多。
結語
一個學期的課程結束了,但是我們與微軟的合作才剛剛開始。中國人民大學在剛剛結束的院長工作會議上,提出了“全面提升國際性”的行動計劃,在制度和政策上將會進一步創造有利于國際交流的環境,這是“天時”。微軟亞洲研究院位于知春路上,地理位置與人大校園是近鄰,這是“地利”。一個學期的課程合作使我們之間建立了相互信任,特別是文繼榮博士就是我院優秀的畢業生,對母校深懷感情,這是“人和”。有這“天時、地利、人和”,我深信我們與微軟亞洲研究院的合作將會走向一個新的高度。
2008年7月,受微軟亞洲研究院的邀請,我有幸參加了MSR 2008 Faculty Summit,會議安排了豐富的學術活動,來自全球近百所大學的400多位教授參加了這一盛會,讓我進一步了解了微軟在計算機基礎研究以及教育方面的巨大貢獻和熱心投入。我想這不是作秀,而是與微軟研究院的使命緊密相連的。
致謝
感謝微軟亞洲研究院的研究員們:馬維英、文繼榮、劉鐵巖、李航、聶再清、宋睿華、張磊、謝幸、史樹明等。感謝高校關系合作部的陳雯小姐,從她身上你知道了什么是熱情、周到。每次上課她都要陪講師提前半小時到教室,深怕遲到耽誤了上課。教師需要的正是對學生的這份感情。感謝重點實驗室的易謙,他完成了全部課程的錄像工作。感謝我的博士生劉廣強,他負責將全部的課件放在網站http://iir.ruc.edu.cn/courses/iir.html. 感謝參與本課程學習同學的認真反饋。