Tuesday, 26 July 2011

Corpus Linguistics 第三天略記


第三天也是會議的最後一天,疲憊到極限,幸好早上沒有任務,可以安心聽講座。

早上的第一個session聽了Laurance Anthony的講座,LA是AntConc的作者,原先畢業於UoB,算是系出同門了。自從UoB畢業之後,LA跑到日本供職,現在在Wadeda大學,他介紹的是他利用corpus輔助教學寫作,也就是所謂的DDL (data-driven learning)。這個項目針對的是高年級的技術寫作 (technical writing),是本科教育中三四年級開設的課程。

因為學生數量龐大(一萬人),而LA所在的英語教學部門只有有限師資(九位FT,55位PT),而開設的寫作課程就有七種,針對十七個不同的專業,達五百個學時,所以要在有限的師資條件下達到最好的學習效果,必須採用不同於傳統的教學方法。LA選擇了DDL。DDL的優劣具體可以參照Boulton (2009) 的論文,LA列舉了Boulton的觀點:DDL不需要教學這有相應學科的具體背景知識,而通過這種教學手段,教學者可以很快瞭解相應學科的具體寫作特點和要求,同時DDL也為學習者提供了長久甚至終身學習的可能性。當然DDL的缺點也很明顯,比如使用文本的copyright;比如很多DDL使用的工具都是商業軟件,成本不低;比如教學者可能不一定具備corpus教學的相關經驗;或者教學者不熟悉相關軟件等等。

LA選取了相關學科的high-impact journals構建相應的learner corpora,因為copyright的原因,這些copora都只對內部公開,他使用了gotagger 7.0, qtag, AcnConc等工具做了pos annotation。順便他也提到了AntConc最初是為了學習者使用的,而不是為了研究使用的(唔,我怎麼覺得這玩意是為了研究設計的?開源,跨平台)。

LA已經開發了DDL的專用教材,每本大概有七個section,循序漸進,每個section適合九十分鍾的教學(日本的標準課時),在這九十分鍾裡,他希望50%用於介紹DDL的相關corpus知識,比如什麼是DDL,怎樣使用corpus來學習寫作,而另外的50%用於學習怎樣寫作。LA展示了目前完成的兩本教材,目前在Waseda內部使用,預計今年下半年在日本可能會商業出版。

針對教師的培訓,LA設計了teacher training,face to face discussion forums,online discussion,on-hand software workshops等等方式,而從後來的反饋來看,日本教師普遍非常喜歡這種新穎的教學模式,同時,他們對於怎樣使用corpus不是特別有信心,畢竟他們在接觸DDL之前沒有相應的corpus學習經歷。另外DDL構建corpus學要大量時間和精力,教師也感到採用DDL他們沒有辦法像原先那樣掌控課堂(這個其實符合歐美教育學的理念,即偏向student-centred,而非teacher-centred)。

目前LA已經開發了AntConcWeb,類似CQPWeb的版本,預計在不久的將來,教師或者研究者像使用CQPWeb那樣構建自己的corpus,而後續的annotation等等,都可以利用ACW來完成。

LA最後強調,在每學期九十分鐘*15課時的教學時間裡,他希望教師能分配50%的時間給implicit learning,50%給explicit learning。

LA講得非常快,用二十五分鐘把整個教學模式做了詳細的介紹,並且給我們開了被動語態等等的相關例子,非常有料,讓我感到醍醐灌頂。LA的方法非常有借鑑之處,不過移植到國內尚需時日。個人感覺,這種方法會成為未來教學的流行趨勢,但需要教學者有很強的背景知識,而且需要得到主管領導的絕對支持(不管是教學者或者學習者,都會覺得corpus使用技巧的學習部份可能不是很好入門,學習曲綫較陡)。個人感覺,國內的英語培訓機構可以嘗試引用這種方法,挑戰不小,不過機會更多。

後來很怨念地發現,LA就講座的同時,Stefan Evert在另外一個會場介紹Quantitative measures of productivity and their significance,我同學說,那場非常不錯,偏computational linguistics的,我去聽的話,一定會很喜歡。怨念!!!後來很好玩的是,我的一位大馬女生,拿着那本BNCWeb Manual找SE去簽名,SE欣然接受,認真給她寫下了祝福。這讓我十分後悔沒把那本書帶去!

第二場繼續留在那聽,是一位日本醫科大學指教的學者講的利用DDL培訓醫科學生作doctor-patient consultation培訓。這位學者是我們的distant MA student,結果他導師什麼的都跑來聽(他面子好大,感覺像viva似的)。

日本的醫科本科教學時間長達六年,而其中有一個科目是doctor-patient consultation。普遍的困難是,日本教師要麼有很強的醫學知識,但英語教學經驗欠缺;要麼英語背景很強,而醫科知識不多。

這位學者的介紹其實是他的MA dissertation(太牛逼了,拿着畢業論文來參加這種top conference,忒自信了)。他利用英國醫生的診斷錄像構建了corpus,講所有的多媒體材料轉換成文字資料,目前規模不大,只有  17585 tokens,1667 word types,22 cases。不過他的雛形很不錯,感覺後繼開發的空間很大。通常的doctor-patient consultation分為七個section:greeting, chief concern, history taking, physical exam, diagnosis, treatment, termination,他將22個case按照這個做了歸類。

最後他介紹了使用AntConc生成相關數據,提到了碰到的困難,LA直接給他做了解答(或許這是班門弄斧的好處吧?)。

附上他給的背景知識:   
     John Flowerdew, 1993 specialised corpus
     Avrial Coxhead, 2000 AWL
     Neil Millar, Brian Budgell, 2008
     Jing Wang, 2008 MAWL
     
     AntConc
     BNC (stop list)

第三場跑去聽了open uni的一位學者的講座,他利用corpus來解構online forum的文本,很新穎的角度(或者說我比較無知,這個領域我不曾瞭解)。正常講座圍繞德里達的解構注意展開,講解了針對Guardian網上討論鍾的分析,感覺非常美妙地將corpus和哲學研究結合在了一起。於是幻想,要是corpus發展得快些,薩特,福柯,巴特之流如果採用corpus來研究,又會是怎樣好玩的事?!

在他的研究中,corpus主要用來做keyword analysis,好處是reveals concepts normally used in discussion of a topic,同時減少arbitrariness, subjectiveness。

這個lecture吸引了很多人去聽,幾乎爆滿。後來得知,這位學者也是位大牛,不過採用corpus也算是全新的嘗試。這場講座偏哲學,幾年前粗粗翻過結構/解構主義的書,現在全忘了,所以整場講座跟得很累,不過還是很喜歡他的研究手法。

聽第三場的時候有個小插曲,我師姐跑來說,因為我早上沒任務,所以要我plenary speech的時候去reception那兒服務。我當時沒好拒絕,但心中極其怨念,因為那場ps是Stefan T. Gries的!!!於是第四場開始前,跑到reception那,想和他們換班,爭取去聽STG的ps。結果第四場快開始前,忽然發現Tony McKarney增加了一場Corpora & Ethics,於是慌忙跑上樓,結果會場爆滿了。

TM在第二天早上的時候其實已經講過一場,當時就爆滿,因為會場不允許站立或者席地而坐,所以很多聽眾被薄離開(英國佬這點忒認真)。當天大會就邀TM重新再講一次,TM欣然應允。結果第二場仍舊爆滿,可見這個topic有多火爆!後來我同學告訴我,他們前面去Lancaster參加summer school,TM也講了這個,結果那場講了兩個多小時…

這場其實是介紹TM和Andrew Hardie(典型的geek,深藏不露,不修邊幅,年紀輕輕,成果頗多)在新書所寫的一張(2012年出版)。TM開場就說,CL不怎麼重視研究倫理,只有Hasund(1998), Sampson(2000), Rock (2001)做過簡略的討論。一方面是,cl面對的倫理問題和傳統語言學面對的完全不一樣,另一方面,cl面臨的問題更多,更複雜,所以一直缺少系統性的討論。在BAAL上有general linguistics的倫理介紹,但很多並不適用於cl。

TM以BNC spoken sub-corpus作為例子,詳細介紹了cl的研究倫理問題。熟悉這個sub-corpus的同學清楚,這個corpus是通過錄音材料轉換而成的,在構建的時候,被採集者會簽署知情書,採集時,要求被採集者24小時佩戴採集用的微型錄音機(當時還沒有錄音筆之類的玩意),而採集後的內容會最大程度保留原樣,只會對敏感信息做相應的覆蓋處理。被覆蓋的敏感信息不多,比如信用卡資料什麼的會被覆蓋(如果我沒有記錯的話,TM提到,他們已經開發出能偶自動識別敏感信息並覆蓋的技術,估計是基於speech recognition的,很牛逼,問題是如果這樣的技術被逆向使用,後果相當恐怖)。這類二十四小時的全天錄音難免遇到不少倫理問題,比如,如果被記錄者和他人打電話,電話那頭的那位很可能不知道自己的談話內容被錄音採集作為語料;又比如,如果被記錄者的談話可能設計違法內容,或者極其私密的話題,而被記錄者說這些的時候很可能忘記自己被錄音(可以想象下這樣的情形,在有監控錄像的地方,做出失態的舉動),而這些錄音被採集後,是公開使用的,而使用者可能並不處於研究語言的目的來使用這樣的材料,所以後果很難想象(比如,暴力機關使用這樣的材料作為證據來追究被記錄者的責任)。

TM又以他們構建EMILLE corpus為例,講解了另一種研究倫理問題,即外在因素的影響。當時有個religion背景的組織表示願意慷慨捐贈文本給TM他們構建宗教corpus,大概有一萬五千種文本需要digitalization。TM團隊當時很興奮,心想有這麼好的機會,可以大顯身手。結果看了那些材料後,TM他們很猶豫,因為那些材料覆蓋了很多方面,有些材料直接叫How to hate other  religions。TM看到這樣的材料就覺得很棘手,放進去吧,今後使用者會強烈質疑他們的動機,不放進去吧,語料就不完整。所以猶豫了半天,TM團隊最終婉言謝絕了這個組織的好意。

以上這些都和corpus的multi-function有關,也就是說,corpus的構建目的是用於研究語言,但使用者在使用時,可能不僅僅用於語言研究…

TM另外提到了corpus distribution中面臨的倫理問題,比如collecting data from outlawed groups, who is funding you and why? may the corpus become illegal in certain jurisdiction if certain are made? keeping data and available之類的。

針對使用者,TM提到了另外一些倫理問題,比如what may corpus analysis cause to happen? making your analyses available to future researcher, making your tools available to future researcher, automatic and manual analyses have differing issues, but the imperative to preserve the analysis is constant, how will others interpret your results? what may be the impact of an interpretation of your result?

最後,TM總結道,cl涉及的倫理問題其實是人文學科面臨的普遍問題,當然cl的問題有自己的特點。所以在今後的cl研究中,不光要關注相應的技術問題,要不要忽略類似的倫理問題。corpus使用的數據可以為他人做他用,所以研究者要思考為什麼他人會對自己的數據或者研究成果感興趣,避免不必要的後果。總而言之,cl面對的倫理問題比其他語言學分支面臨的更複雜。

聽完TM的講座,趕回reception,結果我另一位大馬的同學表示,他可以繼續留在那,不需要我幫忙。於是我安心上樓去聽STG的ps。STG的主題是quantitate and exploratory corpus approaches to register and text types,知識點很密集,基本是堂統計課。STG的slide做的非常密集,用open office寫的玩意,和beamer生成的很像(STG是堅定的windows使用者,絕大部份工作在windows平台下完成,部份在linux下完成)。STG的語速超快,結果我基本沒跟上他這堂超快的統計課(即使這樣,他還是超時,可見他的材料有多豐富)。

STG的講座介紹等有時間整理好錄音再放上來吧。

下午的第一二場回到自己的會場做helper,碰到兩個大陸學者的講座,也是整個大會僅有的兩個大陸學者講座。講座前,他們表示這樣的參與不僅僅展示他們的研究成果,更能體現大陸目前的cl研究水平。認真聽了這兩個講座,我不多做評價,也不多做介紹,只想說,如果他們真能代表大陸的研究水平的話,那麼大陸的cl真的落後太多,不光遠遠落後於歐美,也落後於港台地區。差距不是一點點,從語料選擇到研究方法都有很多問題,有極大的提升空間。當然很多問題不僅僅是大陸cl自身的問題,和整個學術環境也有關。大家一起努力吧。

第三場我沒任務,也沒什麼特別感興趣的講座。隨便挑了個會場跑去聽,結果Susan在那坐着聽… 是一個意大利學者講白宮新聞發佈會的分析,很好玩的topic,材料樣本從1993年到2011年,三個總統,五個總統任期。分析了克林頓,布什和歐巴馬不同的語言風格。很好玩的是,在這下材料中,I don't know出現的頻率極高,所以這位學者着重分析了這個pattern的具體用法。按照他的理解,少數情況下,這幾位總統是真不知道,但更多的情況下,這只是他們推脫的藉口。所以,你看政治人物多狡猾,千萬別輕信他們。

第四場是另一位意大利學者的研究,小哥年紀不大,碩士在讀,今年畢業。穿着個小馬甲,在上面不慌不忙地講解appraisal framework的應用,下面的chair是Peter White,af理論的創建者之一,原先在UoB任教,後來去了澳洲。結果小哥的topic非常吸引人,Susan跑來聽了,我導師和co-or也都跑來聽了。我恰好也在使用這一理論,所以很關注他的嘗試。

af的理論延續了韓禮德SFG的思想,利用框架來分類做text evaluation,整個框架有五個dimension,細分的話,每個dimension又有不同的sub-dimension,具體參見Language of Evaluation一書。 

意大利小哥用af來研究兩個公司的文本,一個是BP,一個是Ikea,通過他的分析,兩家公司的語言風格完全不同。講完之後PT和Susan都非常興奮,拉着小哥談了許久,好生羨慕…

下午第五場,也是大會安排的最後一個時間段,跑去聽了一位台灣師大學者的講座,聽完之後,才知道此君頗有建樹。

他的project是構建Chinese learner corpus,為台灣地區學習中文的老外服務。在台灣有許多English learner corpus,而BNC,COCA之類的更是被廣泛使用的corpus。在他的項目完成之前,台灣地區還沒有現成的Chinese learner corpus,不過大陸的北語構建過一個HSK learner corpus(202.112.195.192,沒有具體看過,不好評價實際效果)。

台師大的clc使用corpus workbench(CBW)標註,這位學者提到在標出中文時遇到了困難,恰好哦兩個主要開發者,AH和SE都在場(另外LA也跑來聽了),所以直接在講座時給出了解決方案。

因為是learner corpus,所以標註比general corpus更困難,因為學習者會出現各種錯誤,很多都是稀奇古怪的。所以標註難度大大增加。

第三天的回憶大致如此,從上週五結束後,到現在可能有些細節有出入,所有的回憶都是基於在evernote上的筆記,比前兩天的紙筆筆記要詳細很多,所以力求能最大程度還原吧。

0 comments:

Post a Comment