等了一年,總算等到這個會議了,很幸運參加這個會議。
這幾天伯城是典型的英國雨天,又冷又溼,完全沒有夏天的樣子。
與會總人數大概在300人左右,cl界的巨擘基本都到了,有老一代的如Bill Louw,Susan Hunston,Douglas Biber等等,也有中生代的Tony Mckarney,Stefan T. Gries,Stefan Evert,David Evans, 更年輕的如Andrew Hardie。
因爲是志願者,所以錯過了Susan的pleanary speech,後來我師兄Ben說,那場非常不錯,老太太又有新想法,非常深刻。
因爲是志願者,所以沒有辦法選擇聽什麼,坐在那個hall裏,來誰,將什麼,聽什麼。
第一個session有空閒,去旁邊的hall聽一位臺灣政治大學的PhD講collocation,她研究challenge這個詞,按照她的理解,以往研究collocation只關注動詞,或者名詞,似乎沒有系統性的研究。而她的研究是受一個學生的錯誤啓發的,那個學生寫了這麼一句話:It's really challenging to get sleep... 一般而言change變化位形容詞後,word preference趨向於positive,所以這個句子就非常有意思了。她研究了change做動詞,名詞,還有變化爲形容詞後左右不同的word preference。感覺偏傳統的路綫,整體思路比較清晰。
第二個session乖乖滾回自己的hall做helper,聽了來自比利時Ghent大學的一位學者的講座,講的是研究教師在課堂上用於提醒學生注意的表達方式。所用的corpus是Thompson & Nesi開發的BASE,分析了160個課堂錄音文本,平均每個文本有其次這樣的提醒,統計顯示,英國的老師最愛用the point is that這個pattern。很細的題目,不過研究手法還是比較保守的。
第三個session是來自聖彼得堡州立大學的一位學者,研究俄語演講中的一些指代用法。因爲目標語言是俄語,而與會者中俄羅斯學者很少,所以她的演講基本沒有收到什麼回饋。感覺她的統計很強,用了各種手法做數據,不過解釋得不是很清楚。
下午第一個session是來自日本關西大學的一位學者,研究的是英國主流報紙的不同style。這個project可能是她的PhD dissertation的一部分,所以她整個的slide有八十多頁,開會前才臨時刪的,講了大概四十多頁。講得非常快,但她的口音有點重,估計下面的聽衆沒幾個聽明白。個人對這個topic比較感興趣,因爲這個題目偏language evaluation,所以挺好玩的。她把數據歸爲positive和negative兩個category,然後研究高頻pattern,呵呵,這一部和sentiment analysis類似。她的研究結果是各家報紙有不同的語言風格,比如Guardian偏向於用數據說話,力求客觀,我昨天的感覺和她恰好相符,嘿嘿。感覺她花了很多功夫在數據上,材料紮實,研究也充分。但個人感覺她在做positive/negative categorization不是很嚴謹,也難怪,畢竟sa也不能很好地解決這個問題,所以做到她這樣的程度也不錯了。
第二個session是來自法國布列塔尼大學的一位學者,他希望改進目前的word sketch技術以適應法語的研究。他的手法偏NLP和ML,希望用他們來完善目前的word sketch技術。提到了Bag of words這個模型,對它評價不高(做linguistics的對它評價都不高,只有cs的傢伙對它讚譽有嘉...)。還提到了surface discourse phenomena這一現象。他的training set是LeMonde《世界報》,按照他的介紹,他的改進確實提高了word sketch在法語的準確率。不過chair後面問了一個問題很有價值,word sketch這個技術原來是針對英語開發的,所以所有的結果都是基於英語的,而這位法國學者的數據是法語的,所以這樣的比較有些牽強。
第三個session是來自德國杜伊斯堡-埃森大学的一位學者的講座,他的題目是關於lesbian和gay在dating時不同建議的差異。他希望利用四個gay/lesibian問答網站的數據作爲樣本,從而考察具體的區別。整個研究還在起步階段,但話題非常有趣,所以吸引了大批的聽衆,以至於後面的問答環節也極其火爆。大家的想法非常一致,where is the suitable reference corpus?反覆地討論這一問題,非常有啓發性。
coffee break之後的第一個session是來自巴基斯坦白沙瓦大學的一位學者,介紹Pushto語的corpus建設。Pushto的書寫結構和阿拉伯語類似(不一定準確,我不懂這兩門語言,只是看起來他們使用類似的字母體系),整個會場估計也就他懂這門語言,所以對這個題目感興趣的聽衆似乎不多,有點尷尬地冷場。不過還是很欽佩這位學者的勇氣,在最好的會議上展示這麼小衆的topic真不容易。
第二個session是一個合作項目,是我的一位老師和兩位加拿大學者的合作研究。研究五本醫學學刊中的被動語態的使用變化。其中兩本學刊在投稿說明中強調儘量使用主動語態,而另外三本並沒有。他們希望對比研究這些變化對於讀者理解的影響。我的這位老師做數據非常強,所以他展示了用R做的各種digram,非常漂亮。整個研究非常有趣,這一投稿說明帶來的變化很明顯,五種學刊中,論文的method和result的變化最大,而intro和discussion部分幾乎不受影響。他們發現這一變化似乎影響讀者的理解,不過這個還需要做更多的樣本研究。
第三個session是來自謝菲爾德大學的一位學者,他研究英語中的tempol relations,希望講TimeBank中的這些表達方式能夠模型化,爲將來的automatic recognition提供算法。估計這位是學計算機出身的,slide使用Beam做的,很清晰。按照他的理解,英語中表達時間概念的用法有很多類,大致有五種:tense & aspect, world knowledge, discourse structure, specific time, explicit expression。所以將這些全部識別不是件容易的事,先前的準確性大概在60~70%之間。整個題目很細,角度也很新,把我導師也吸引過來了。所以這個研究其實非常能代表現在英語cl的發展趨勢,研究細化,爲computational linguistics提供具體的語言學支持。
第四個也是今天最後的那個session是來自加拿大阿爾伯塔大學的一位學者。他研究的是英語中的synonym,利用了R中的polytomonous包做數據分析,整個講座幾乎都在講數據分析。STG跑來聽這場,chair是Stefan Evert,所以三人在問答環節討論甚歡...
一天聽下來的感覺是,英語cl向細化,數據化發展,corpus作爲工具的重要性越來越明顯。雖然大家都有數據,但怎麼利用數據才是最大的問題。
可憐中文cl呢?
0 comments:
Post a Comment