Friday, 22 July 2011

Corpus Linguistics 2011 第貳天略記


會議進行到第二天,整個人感覺累垮了,一方面做helper要花很多精力,一方面各種talk消化起來也不容易。

早上被分配到的那個hall是一個workshop,還特別長,從上午一直要講到下午。進去之後,心就涼了,一群巴西人。倒不是我歧視巴西人什麼的,只是他們的研究手法太浪漫化,只有他們自己買帳。果然,大爺在上面用iPad讀keynote讀得起敬,講MDA-multidimensional discourse analysis,從Biber的multi-factor analysis(MFA)發展而來。巴西人果然喜歡做DA,可惜手法太浪漫,沒多少人認可。大爺讀了二十分鐘的keynote,真的是一個詞一個詞讀下來的!果然一講完很多人落荒而逃,連後面本來坐着得big name也逃了。

我也不例外,逃到旁邊的hall和我同學換了(真是可憐她了,午飯時問她如何,一臉苦逼相...)。旁邊這個room是布拉格查理大學的workshop,果然是布拉格學派的發源地,陣容強大,派出一幫人來介紹他們得discourse annotation技術。如果我沒弄錯的話,這樣的嘗試還頗為新穎。corpus的標註有不同的level,從最細的morpheme(下午有大馬的學者講到),word,phrase,clause,sentence,paragraph,而disource還很少有人嘗試。主要是discource的變化更多,很難模式化。這位捷克學者專注與構造Prague Dependency TreeBank的構建,目前大致完成了2.0,據說到年底能更新到3.0。discourse annotation主要關注語篇中得連接成分。而這裡所借鑑的dependency grammar其實和布拉格學派得valency grammar有相似之處。果然是一脈傳承。

第三個session是來自波茨坦大學的一位學者。感覺有很強的計算機背景,做的手法是NLP+ML,基於德語做的discourse annotation,他做的更成熟,感覺比上面這位走得更遠。數據是基於德語的政治評論。比較倒黴的是他的Macbook Air一代的視頻輸出有很大問題,投影效果很差。

三個session結束後,幾位做了長時間的討論,因為原先沒有接觸過,於是在一旁靜靜地聽他們。討論進行得很深入,提到了到底是top-down還是bottom-up做標註,兩者似乎都有些極端,所以傾向於將兩者結合起來做。

上午的coffee break之後,是Paul Baker的plenary speech,錯過了昨天的ps,今天特地去聽。co-or做了chair,介紹了Paul,確實是大牛,九年寫了十本書,三十五份學刊的author/co-author,還要帶PhD學生,感嘆他是怎麼分配時間的!問題是,他看起來極年輕,沒有謝頂,真是精力旺盛!

演講的主題是利用corpus做cda,非常精彩。很多人都認為cda和corpus是兩碼事,很難結合(我也這麼認為,嘗試過一次,覺得太難了)。但不少大牛都有嘗試,從2000年開始,陸續有大牛在前面開路,比如Susan Hunston之類的,但跟進者不多,主要還是結合不好。Paul做了先驗性的研究,提出了corpus-based cda的研究模型。選取了英國報紙中報道穆斯林恐怖襲擊的報道,構築了一個歷時性語料庫,然後請五位學者分別做cda研究。

Paul的模型比較靈活,他自己說,這個是一個基礎模型,但可以根據需求改動。五位研究者用了不同的工具遵照這個模型來分析。Paul特別留意了他們選取的關鍵詞,發現只有一個詞組被五個研究者同時選取,而大約只有35%的詞被兩個或以上的研究者同時選取,剩下的都是各自為政。由此可見,即使遵照相同的模型,研究者的研究喜好還是有很大的不同,所以這個approach的發展還是不確定。不過至少Paul的模型為後繼者開拓了一個比較容易上手的門路。

大牛的想法果然很有啟發性,當然我永遠不會做cda啦~ (被老頭子知道,又要fail我了,可憐兩天都還沒見到他的影子)。

下午的會場有調整,那個MDA的workshop換了地方,萬幸!我那個會場是Pecha Kucha,結果是我導師做chair。唔,他是所有chair中最累的!Pecha Kucha有嚴格的時間限制,所以slide都需要做轉換,他花了整整一天時間把那些PPT轉換成keynote,多絕望的事啊!兩場Pecha Kucha都是他chair,所以一共17個slide需要轉換...

第一個PK是西班牙格拉纳达大學的一位學者做的詩篇分析。她去年在我們這兒做visiting scholar,所以之前聽過她的介紹,分析一個lesbian詩人的詩篇,主題大致是後殖民主義的女性解放。今天沒仔細聽,大致和上次的一致。

第二個PK是台灣成功大學的一位學者,講的是西語糾錯腳本的開發,基於台灣CATE corpus,結果會場有Spanish native speaker,評價說舉的樣本有問題,那個樣本可能只是方言間的差異,並不是錯誤。其實這是一個很難定性的問題,對於初學者而言,需要有嚴格的語法來保證他們的語言規範性,所以可能基於比較嚴格的語法規則,那些可以被認為是錯誤。

第三個PK是波蘭波茲南大學的一位學者,研究波斯語的phraseology,不是太感興趣,沒細聽。不過引用了韓禮德的一句話,還是挺有意思的,大致說20million規模的corpus就足夠用了,回來查了一下,這句話是韓禮德1969年說的。

第四個是講BootCat的,來自意大利博洛尼亚大学大學的學者做了介紹,這是款開源誇平台的corpus構建軟件,基於web as corpus的概念。給定最少五個關鍵詞之後,就能自動搜集樣本。理念不錯,產品也做得比較成熟(剛才嘗試了一番,結果跑死機了,暈!)。問了一個問題,這樣的產品類似於spider/crawler,如果網頁有anti-bot怎麼辦?答曰,那就不要了,本來我們也就是一個網站下載一個網頁的。結束後,拉着導師討論了下,覺得這樣的樣本代表性有些不靠譜。因為他們的網頁選取是基於yahoo的搜索結果,所以就相當於搜索排名高的被選取(可以把這個問題極端到百度的競價搜索),那麼選取的網頁不是基於語用功能,而是social impact了,和Sinclair的理念不符。

第五個PK是紐卡斯爾大學的一位nursing專業的學者做的。佩服她的勇氣,一個毫無linguistics背景的nursing學生嘗試用corpus來輔助nursing教學,而且跑到這個領域的top conference來做展示!她的項目很龐大,縱跨三年,橫跨三個校區。看了下具體的應用,覺得還是比較淺,和英語教學中的應用完全沒法比。無論如何,這樣大膽的嘗試都值得讚許!

第六個PK是來自雷丁大學大學的一位突尼斯裔學者的研究,基於突尼斯語使用者學習英語的研究,樣本是學術文章,50篇soft science文章和50篇hard science文章。

第七個PK是奧地利科學院語料庫的兩位研究者做的。兩位利用德語的歷史預料來做研究,講這些材料digitalization,然後為今後研究提供方便。他們提出了一個container的概念,希望將文本根據主題分類。因為材料數量很大,有500m,所以分類是一個很重要的環節。後來導師提的問題很有意思,因為自己也是德國人,所以問了關於左翼樣本的問題,兩位研究者回答,確實不好找,很多都被銷毀了。不過經過努力還是在俄羅斯找到了部份。

第八個PK是來自赫爾辛基大學的研究者關於descriptive grammar的介紹,口音很重,聽眾幾乎沒人聽懂,囧~

coffee break之後,聽了大馬女學者的mopheme annotation,計算機出身,用Beamer做的slide,昨天那位謝菲爾德大學的學者也是用Beamer,看來linguistics也在慢慢向cs靠近,開始用更樸素的工具。講的很細,使用linguistica做的標註。可惜她的talk和其他幾位大牛的talk撞車,結果只有一位聽眾,加上chair,下一位演講者和我,只有四個人聽她講,真可憐。

今天最後一場,跑去聽Peter White的講座。大叔也是Birmingham出身,後來跑去澳洲做學問。今天講的是news machine translation的translatablity和untranslatability,構建了英語,法語(未來有中文)的parallel corpus,舉了idiot/fool在英法兩種語言中的不同對應用法。

唔,花了兩個小時,對照programm和abstract總算寫完了,力求沒有錯誤吧...

0 comments:

Post a Comment