<?xml version='1.0' encoding='UTF-8'?><?xml-stylesheet href="http://www.blogger.com/styles/atom.css" type="text/css"?><feed xmlns='http://www.w3.org/2005/Atom' xmlns:openSearch='http://a9.com/-/spec/opensearchrss/1.0/' xmlns:georss='http://www.georss.org/georss' xmlns:gd='http://schemas.google.com/g/2005' xmlns:thr='http://purl.org/syndication/thread/1.0'><id>tag:blogger.com,1999:blog-3584987101701240647</id><updated>2012-01-29T20:02:35.154Z</updated><category term='newspaper'/><category term='corpus'/><category term='Douban'/><category term='comment'/><category term='linguistics'/><category term='GNU'/><category term='tool'/><category term='riot'/><category term='reference'/><category term='twitter'/><category term='mac'/><title type='text'>Corpus, NOT Corpse</title><subtitle type='html'>In or Out!</subtitle><link rel='http://schemas.google.com/g/2005#feed' type='application/atom+xml' href='http://micarum.blogspot.com/feeds/posts/default'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default?max-results=100'/><link rel='alternate' type='text/html' href='http://micarum.blogspot.com/'/><link rel='hub' href='http://pubsubhubbub.appspot.com/'/><author><name>S</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><generator version='7.00' uri='http://www.blogger.com'>Blogger</generator><openSearch:totalResults>13</openSearch:totalResults><openSearch:startIndex>1</openSearch:startIndex><openSearch:itemsPerPage>100</openSearch:itemsPerPage><entry><id>tag:blogger.com,1999:blog-3584987101701240647.post-1212892318707689898</id><published>2012-01-29T11:26:00.003Z</published><updated>2012-01-29T11:27:01.475Z</updated><title type='text'>How do I use Goodreader to read a paper?</title><content type='html'>&lt;div class="separator" style="clear: both; text-align: center;"&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="separator" style="clear: both; text-align: center;"&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;I have used my&amp;nbsp;iPad&amp;nbsp;for about 6 months, and one main usage is to read academic papers. My recent research interest include linguistics and computer science, and the format of CS paper are often two-column, so a powerful PDF annotation software is needed.&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;I tried Preview.app on Mac (not perfect, mainly for signing my documents, lol); and Skim (more robust than Preview, but still not perfect, b/c it cannot handle the two-column papers).&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;Luckily, I found &lt;a href="http://www.goodiware.com/goodreader.html" target="_blank"&gt;Goodreader.app&lt;/a&gt; on iPad platform. So far, it is the most powerful PDF reader I've ever used, and the price is fairly reasonable.&lt;/div&gt;&lt;br /&gt;&lt;div style="text-align: justify;"&gt;Basically, I can show you some screenshots of Goodreader:&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;This is a very typical CS paper, ACM two-column formatted. If you use some other PDF software to highlight the text, they may occur some errors, because the software cannot&amp;nbsp;recognise&amp;nbsp;the right position of the text. However, here as you can see, Goodreader.app can perfectly identify the right row position.&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="separator" style="clear: both; text-align: center;"&gt;&lt;a href="http://4.bp.blogspot.com/-HPw2QOHDvls/TyUnpLsCaqI/AAAAAAAAG6g/uyVk-e8qnvA/s1600/2.PNG" imageanchor="1" style="margin-left: 1em; margin-right: 1em; text-align: justify;"&gt;&lt;img border="0" height="640" src="http://4.bp.blogspot.com/-HPw2QOHDvls/TyUnpLsCaqI/AAAAAAAAG6g/uyVk-e8qnvA/s640/2.PNG" width="480" /&gt;&lt;/a&gt;&lt;/div&gt;&lt;div class="separator" style="clear: both; text-align: center;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;br /&gt;&lt;div style="text-align: justify;"&gt;This is a very old paper (written in 1957, and scanned by JSTOR later). It is not a typed PDF, but a scanned PDF, so it is really difficult to identify the text. Again, Goodreader.app can&amp;nbsp;recognise&amp;nbsp;them perfectly. &amp;nbsp;However, sometimes, when you export the highlighted text to other software, there are some&amp;nbsp;formatting&amp;nbsp;errors. This may caused by the imperfect OCR technology. Hope Goodreader.app will improve it.&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;br /&gt;&lt;div class="separator" style="clear: both; text-align: center;"&gt;&lt;a href="http://3.bp.blogspot.com/-8Y2Y05yDJtM/TyUn6xW-ErI/AAAAAAAAG6w/KPKr7Gi1zL0/s1600/old.PNG" imageanchor="1" style="margin-left: 1em; margin-right: 1em; text-align: justify;"&gt;&lt;img border="0" height="640" src="http://3.bp.blogspot.com/-8Y2Y05yDJtM/TyUn6xW-ErI/AAAAAAAAG6w/KPKr7Gi1zL0/s640/old.PNG" width="480" /&gt;&lt;/a&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;Also, you can use Goodreader.app export you annotations easily (I&amp;nbsp;recommended&amp;nbsp;this to my boss and other friends, and this is the main reason they chose Goodread.app). You can choose email your annotation or original file to others in the right lower corner. For myself, I choose "Email Summary" to my Evernote account (you can find this in your Evernote setting if you have one). Then, the all the annotations will appear in my Evernote.&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="separator" style="clear: both; text-align: center;"&gt;&lt;a href="http://4.bp.blogspot.com/-JeAxx9MFnek/TyUnzeF3dFI/AAAAAAAAG6o/lbpv6rH5b4k/s1600/mail.PNG" imageanchor="1" style="margin-left: 1em; margin-right: 1em; text-align: justify;"&gt;&lt;img border="0" height="640" src="http://4.bp.blogspot.com/-JeAxx9MFnek/TyUnzeF3dFI/AAAAAAAAG6o/lbpv6rH5b4k/s640/mail.PNG" width="480" /&gt;&lt;/a&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;Because the exported&amp;nbsp;annotation contains some metadata, such as the text position and annotated time, I need to clean them.&amp;nbsp;Then I copy the annotations from Evernote to Vim (You can use any text editor you prefer, but Vim is really efficient). &amp;nbsp;With some simple regular expression, I can easily clean the exported annotations. Then I export the clean&amp;nbsp;annotations to MoinMoin to build my wiki.&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;You see, with Goodreader.app, the&amp;nbsp;procedure&amp;nbsp;is quite easy.&amp;nbsp;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;Take a try and buy it (do not tell me that you wanna jailbreak it. It is only $2.99, fairly cheap for such an awesome app!)&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;NB: Goodreader.app use annotated time as the index, so all exported annotation will be classified by the&amp;nbsp;annotated&amp;nbsp;by the time instead of the text position.&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="separator" style="clear: both; text-align: justify;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/3584987101701240647-1212892318707689898?l=micarum.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://micarum.blogspot.com/feeds/1212892318707689898/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://micarum.blogspot.com/2012/01/how-do-i-use-goodreader-to-read-paper.html#comment-form' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/1212892318707689898'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/1212892318707689898'/><link rel='alternate' type='text/html' href='http://micarum.blogspot.com/2012/01/how-do-i-use-goodreader-to-read-paper.html' title='How do I use Goodreader to read a paper?'/><author><name>S</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://4.bp.blogspot.com/-HPw2QOHDvls/TyUnpLsCaqI/AAAAAAAAG6g/uyVk-e8qnvA/s72-c/2.PNG' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-3584987101701240647.post-474880274575635693</id><published>2012-01-28T23:39:00.000Z</published><updated>2012-01-29T00:34:00.249Z</updated><title type='text'>So, here I am</title><content type='html'>&lt;div style="text-align: justify;"&gt;&lt;span style="font-family: 'Helvetica Neue', Arial, Helvetica, sans-serif;"&gt;Several years ago, I started&amp;nbsp;blogging. I had&amp;nbsp;several&amp;nbsp;blogs&amp;nbsp;in blogchina, iblog, blogbus, blog, wordpress and here (damn, how could I have so many?), but none of them is still alive. What a pity! However, I still keep posting some articles on Douban or other social network. Gradually, I found that collecting them is a tedious job.&amp;nbsp;&lt;/span&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;span style="font-family: 'Helvetica Neue', Arial, Helvetica, sans-serif;"&gt;&lt;br /&gt;&lt;/span&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;span style="font-family: 'Helvetica Neue', Arial, Helvetica, sans-serif;"&gt;The one year pg life makes me realise the importance of self-advertising. Among them, blogging is an very important way, especially a regularly-updated blog. Also, &lt;a href="http://matt.might.net/articles/" target="_blank"&gt;Matt Might&lt;/a&gt; suggested that keep writing is critical to a graduate student. For me, a non-native&amp;nbsp;speaker, this is extremely important.&lt;/span&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;span style="font-family: 'Helvetica Neue', Arial, Helvetica, sans-serif;"&gt;&lt;br /&gt;&lt;/span&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;span style="font-family: 'Helvetica Neue', Arial, Helvetica, sans-serif;"&gt;Forget to say, yesterday was the three-year birthday of my Twitter account. Hooray, I already posted 17000+ tweets, which is longer than a PhD thesis!&lt;/span&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;span style="font-family: 'Helvetica Neue', Arial, Helvetica, sans-serif;"&gt;&lt;br /&gt;&lt;/span&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;span style="font-family: 'Helvetica Neue', Arial, Helvetica, sans-serif;"&gt;Ok, the point is that, although I&amp;nbsp;stopped&amp;nbsp;blogging for a long while, I still keep posting online. I tried to write some articles on my google sites, but they are not easy to&amp;nbsp;organise.&amp;nbsp;&amp;nbsp;&lt;/span&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;span style="font-family: 'Helvetica Neue', Arial, Helvetica, sans-serif;"&gt;&lt;br /&gt;&lt;/span&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;span style="font-family: 'Helvetica Neue', Arial, Helvetica, sans-serif;"&gt;Thus, I am back.&lt;/span&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;span style="font-family: 'Helvetica Neue', Arial, Helvetica, sans-serif;"&gt;&lt;br /&gt;&lt;/span&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;span style="font-family: 'Helvetica Neue', Arial, Helvetica, sans-serif;"&gt;I WILL keep posting here, mainly in English, and&amp;nbsp;occasionally&amp;nbsp;some Chinese posts. The topic may cover some academic ideas, some comments, and some geeky notes.&lt;/span&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;span style="font-family: 'Helvetica Neue', Arial, Helvetica, sans-serif;"&gt;&lt;br /&gt;&lt;/span&gt;&lt;/div&gt;&lt;div style="text-align: justify;"&gt;&lt;span style="font-family: 'Helvetica Neue', Arial, Helvetica, sans-serif;"&gt;OK, see you then.&lt;/span&gt;&lt;br /&gt;&lt;span style="font-family: 'Helvetica Neue', Arial, Helvetica, sans-serif;"&gt;&lt;br /&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style="font-family: 'Helvetica Neue', Arial, Helvetica, sans-serif;"&gt;P.S.:&amp;nbsp;I migrated some good posts from Douban. You can read from &lt;a href="http://micarum.blogspot.com/search/label/Douban" target="_blank"&gt;here&lt;/a&gt;, but none of them is in English.&lt;/span&gt;&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/3584987101701240647-474880274575635693?l=micarum.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://micarum.blogspot.com/feeds/474880274575635693/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://micarum.blogspot.com/2012/01/so-here-i-am.html#comment-form' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/474880274575635693'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/474880274575635693'/><link rel='alternate' type='text/html' href='http://micarum.blogspot.com/2012/01/so-here-i-am.html' title='So, here I am'/><author><name>S</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-3584987101701240647.post-5884999370702036375</id><published>2012-01-18T15:00:00.000Z</published><updated>2012-01-29T20:02:35.165Z</updated><category scheme='http://www.blogger.com/atom/ns#' term='tool'/><category scheme='http://www.blogger.com/atom/ns#' term='Douban'/><title type='text'>mac拖延症患者的福音</title><content type='html'>&lt;br /&gt;上網是拖延症患者的最大禍首吧？&lt;br /&gt;&lt;br /&gt;有人推薦過chrome的&lt;a href="http://https//chrome.google.com/webstore/detail/laankejkbhbdhmipfmgcngdelahlfoji"&gt;stayfocused&lt;/a&gt;插件， 或者firefox上的&lt;a href="http://https//addons.mozilla.org/en-US/firefox/addon/leechblock/"&gt;leechblock&lt;/a&gt;，用着其實挺好。&lt;br /&gt;&lt;br /&gt;可是有時手賤，chrome用不了，換firefox， ff用不了，換safari，safari用不了，換opera，整了半天，這些插件都不湊效。&lt;br /&gt;&lt;br /&gt;把網線吧，還有wifi。用guest帳戶限制上網權限，又要重新配置桌面，實在太麻煩。&lt;br /&gt;&lt;br /&gt;所幸，遇見了SelfControl，這玩意用兩個詞來形容最恰當，簡單，暴力！&lt;br /&gt;&lt;br /&gt;你可以從作者主頁上下載： &lt;a href="http://visitsteve.com/made/selfcontrol/"&gt;http://visitsteve.com/made/selfcontrol/&lt;/a&gt;，這貨是個藝術家，今天參加反對SOPA（別問我是啥，你自己wiki一下就明白了），所以在主頁上你看不到任何文字。所以你可以去github上下源碼：&lt;a href="http://https//github.com/slambert/selfcontrol/"&gt;https://github.com/slambert/selfcontrol/&lt;/a&gt;。 或者去程序主頁： &lt;a href="http://dev.eyebeam.org/projects/selfcontrol-app/tickets"&gt;http://dev.eyebeam.org/projects/selfcontrol-app/tickets&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;安裝後，你可以看到這個主頁面：&lt;br /&gt;&lt;br /&gt;&lt;div class="separator" style="clear: both; text-align: center;"&gt;&lt;a href="http://3.bp.blogspot.com/-cHS1vGVjhaA/TySS-WqSIrI/AAAAAAAAG6I/3_mWvNrsZbA/s1600/Domain+Blacklist.jpg" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"&gt;&lt;img border="0" height="367" src="http://3.bp.blogspot.com/-cHS1vGVjhaA/TySS-WqSIrI/AAAAAAAAG6I/3_mWvNrsZbA/s400/Domain+Blacklist.jpg" width="400" /&gt;&lt;/a&gt;&lt;/div&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;中間那個是時間軸，左右拖動可以調節你self control的時間。點右下方那個edit blacklist，你可以進入下面這個界面：&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;div class="separator" style="clear: both; text-align: center;"&gt;&lt;a href="http://1.bp.blogspot.com/-6mT3VF3HzsU/TySTAayW4yI/AAAAAAAAG6U/YGBlpKrEI_M/s1600/SelfControl.jpg" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"&gt;&lt;img border="0" height="110" src="http://1.bp.blogspot.com/-6mT3VF3HzsU/TySTAayW4yI/AAAAAAAAG6U/YGBlpKrEI_M/s400/SelfControl.jpg" width="400" /&gt;&lt;/a&gt;&lt;/div&gt;&lt;br /&gt;在這個上面你可以手動添加地址到blacklist，比如www.douban.com什麼的。添加到blacklist的玩意，在self-control啟用之後就沒法訪問了（你用瀏覽器打開，會得到一個apache的錯誤提示）。當然了，如果你也可以添加到whitelist上，那樣就算啟用你也可以繼續訪問。另外，你也可以導入列表。&lt;br /&gt;&lt;br /&gt;編輯完blacklist，就回到第一張圖的主頁面，設置下時間，點擊start即可。&lt;br /&gt;&lt;br /&gt;嗯，就是這麼簡單。&lt;br /&gt;&lt;br /&gt;當然你可以到Preference裡配置一下&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;div class="separator" style="clear: both; text-align: center;"&gt;&lt;a href="http://2.bp.blogspot.com/-cmG_4IeGCAc/TySS_phws_I/AAAAAAAAG6Q/bn6hk3hIsDg/s1600/Preferences-1.jpg" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"&gt;&lt;img border="0" height="357" src="http://2.bp.blogspot.com/-cmG_4IeGCAc/TySS_phws_I/AAAAAAAAG6Q/bn6hk3hIsDg/s400/Preferences-1.jpg" width="400" /&gt;&lt;/a&gt;&lt;/div&gt;&lt;br /&gt;嗯，就這麼簡單。不過好像必須是mac才能用這玩意（這個好像不簡單）。&lt;br /&gt;&lt;br /&gt;最後呢，提醒一下，這玩意很暴力，如果你中途想偷懶，把這玩意關掉去瀏覽blacklist上的網頁，沒門！想重啟去瀏覽blacklist上的網頁，還是沒門。我試過用cmd+q強制退出，沒用，試着從activity monitor查找進程，找不到；至於重啟麼，我還沒試過。&lt;br /&gt;&lt;br /&gt;反正我是蠻喜歡這簡單又暴力的玩意，你也可以試試！&lt;br /&gt;&lt;br /&gt;嗯，我得打開self control了，bye douban！&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/3584987101701240647-5884999370702036375?l=micarum.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://micarum.blogspot.com/feeds/5884999370702036375/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://micarum.blogspot.com/2012/01/mac.html#comment-form' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/5884999370702036375'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/5884999370702036375'/><link rel='alternate' type='text/html' href='http://micarum.blogspot.com/2012/01/mac.html' title='mac拖延症患者的福音'/><author><name>S</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://3.bp.blogspot.com/-cHS1vGVjhaA/TySS-WqSIrI/AAAAAAAAG6I/3_mWvNrsZbA/s72-c/Domain+Blacklist.jpg' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-3584987101701240647.post-2038607797900886516</id><published>2011-11-07T08:00:00.000Z</published><updated>2012-01-29T00:25:08.990Z</updated><category scheme='http://www.blogger.com/atom/ns#' term='comment'/><category scheme='http://www.blogger.com/atom/ns#' term='Douban'/><title type='text'>也談國內民營書店的消逝</title><content type='html'>&lt;br /&gt;昨天和國內的友人打電話，聊起了民營書店，電子書和網絡書店的關係，對比一下覺得，還是蠻好玩的，遂記錄於此。&lt;br /&gt;&lt;br /&gt;上個月，家鄉最早的一家咖啡館關門，老闆也算熟識，算是大齡文藝青年一枚。咖啡店裡上上下下全是老闆的書，大概有千餘冊，除了書還有雜誌。老闆的閱讀興趣很雜，哲學，藝術，地理，歷史什麼的全有，書的選擇也很廣。因而咖啡店的顧客群體也很雜。&lt;br /&gt;&lt;br /&gt;我大概高中起就會去那坐坐，有時純粹去打發時間，有時與友人相約暢談（包括我十六歲喜歡的那個人），一年大概去個十幾回。反正就是那麼個地，讓我能坐下來，慢慢地靜一會。對了，那地確實不錯，一個繁忙的十字路口，對面靠河，是一個公園，鬧中取靜。旁邊有西點店，也有快餐店。有次和友人在裡面坐了一下午，忽然覺得肚子很餓，於是跑到街對面吃了燒鴨面，記憶猶新。&lt;br /&gt;&lt;br /&gt;去年出來前，一個人吃完飯去那坐了會。和夥計聊了一會，那夥計基本從開業就在那工作了，每天十一點上班，十點下班，雷打不動。小夥子是安徽人，話不多，手腳也算勤快。沒人的時候，自己跑下來看書，要麼玩玩電腦。大家都和他很熟，也不把他當夥計看。那天晚上，整晚就我一個顧客，一壺薄荷紅茶，二十塊，多年不變。和夥計聊了聊生意，他說現在越來越難做了，自己的工資也沒漲，還好老闆待人不錯。&lt;br /&gt;&lt;br /&gt;今年回去的時候，約好要去見友人，因為沒有用手機，所以特意背了友人的電話。結果出門玩了一圈，忘了號碼，於是跑去咖啡店，問老闆，有沒有那傢伙的號碼。老闆手往後一指，他在那啊。於是大夥相視大笑...&lt;br /&gt;&lt;br /&gt;上個月，這家店關門了...&lt;br /&gt;&lt;br /&gt;八年，雖然有些可惜，但這店倒閉是必然的。在我看來，這家店賣的不是咖啡，而是閱讀。這家店最早的顧客群就是我那友人他們，一批人，彼時的文藝青年，現在的文藝中年。沒有那批人，這家店根本開不出。八年來，主要顧客群就是這麼一批穩定的人。其餘的，都是些零散的顧客。而支撐這批顧客的，就是那些書，那些閱讀。&lt;br /&gt;&lt;br /&gt;八年的店倒掉，並不是說那批主要顧客群不愛讀書了，而是隨着租金等各方面的成本上漲，沒有新增的顧客，就無法支撐運營。而這個城市本來就是文化荒漠，所以哪來那麼多愛閱讀的顧客？&lt;br /&gt;&lt;br /&gt;這家八年的店其實剛好是國內閱讀習慣的一個縮影。在我看來，國內民營書店倒閉的主要因素，既不是新華書店的壟斷，也不是電子書的衝擊，更不是網絡書店的價格戰。最主要的原因是，國內悲催的閱讀習慣。&lt;br /&gt;&lt;br /&gt;不信的話，你跑國內的公車或者地鐵上去看看，有多少人在讀書看報或者讀電子書？肯定是個位數。大多數的人，要麼用手機看網頁，要麼拿手機玩遊戲。剩下的呢？發呆...&lt;br /&gt;&lt;br /&gt;對比英國呢，最多的肯定是拿metro等免費報紙看，要麼買guardian這樣的報紙看（英國的人均報紙消費量很高），要麼拿kindle之類的電子書閱讀，拿手機的反倒是少數。基本上一個車廂裡空着的都是外籍的，比如，你很少可以看到中國人在車廂裡看書看報。&lt;br /&gt;&lt;br /&gt;按照老羅的說法，一本書在中國只要賣出五千本，就穩賺不賠，問題是大多數都達不到這個數。按照這樣計算，中國的人均閱讀量能有多少呢？&lt;br /&gt;&lt;br /&gt;我不否認，新華書店，網絡書店，電子閱讀等等客觀因素，但這些都不是最關鍵的因素，為什麼呢？&lt;br /&gt;&lt;br /&gt;英國有大量的二手書店，反觀中國卻沒有，按理說，電子閱讀，網絡書店的衝擊應該是沒有國界的，可是英國的二手書店都活得好好的。倫敦Bloombury那一片全是二手書店啊。為什麼呢？最近遇到一個housemate，是個讀體育的大一新生，British local，每次做飯的時候，都帶一本小說過來，等手上有閒的時候，捧起來就讀。拿小說倒也不是什麼經典名著，大概是幾年前的暢銷小說。後來和他聊起這事，他說，嗯，我的確挺喜歡讀書的，這書是二手的，兩磅，很便宜。&lt;br /&gt;&lt;br /&gt;體育生，大一，男生，把這三個組合放到國內，呵呵，不是我歧視，這大半和閱讀扯不上邊吧？&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;再來說電子閱讀的問題。看了豆瓣上這麼多的討論，簡單說，兩點：第一，拒絕電子閱讀的傢伙，基本是沒有嘗試過電子閱讀的，或者說沒有好好嘗試過電子閱讀的。我並不覺得電子閱讀一定會替代紙質閱讀，但是電子閱讀是一種趨勢，好的電子閱讀，也可以帶來痛快伶俐的閱讀感受。第二，國內的電子出版基本為零，中文電子閱讀內容基本都是盜版（目前只有iOS平台上有正版的中文出版物吧，如果我沒有遺漏的話），很多優秀的中文出版物都沒有電子版，巧婦難為無米之炊，沒有好的內容，何談好的閱讀體驗？電子書不等於盜版書，現在中文電子書無非就是網友自行製作，然後在各個平台上發佈，但質量實在是... (我個人的確是受益者，身在國外，購買中文書基本是不可能，所以只能下載，如果將來有成熟的電子書平台，我還是願意購買上面的正版書籍）&lt;br /&gt;&lt;br /&gt;剛才問一個姑娘為何不升級iOS5，答曰，沒有破解；問為何要破解，答曰，要免費的app；再問你買得起iPhone4，為何不買app，答曰，那是不該花的錢。&lt;br /&gt;&lt;br /&gt;不該花的錢？&lt;br /&gt;&lt;br /&gt;所以你們可以理解中國的民營書店會一個個倒掉，最後中文出版業也會消失殆盡吧？&lt;br /&gt;&lt;div&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/3584987101701240647-2038607797900886516?l=micarum.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://micarum.blogspot.com/feeds/2038607797900886516/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://micarum.blogspot.com/2011/11/blog-post.html#comment-form' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/2038607797900886516'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/2038607797900886516'/><link rel='alternate' type='text/html' href='http://micarum.blogspot.com/2011/11/blog-post.html' title='也談國內民營書店的消逝'/><author><name>S</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-3584987101701240647.post-6964730431191560734</id><published>2011-08-11T07:00:00.000+01:00</published><updated>2012-01-29T00:20:49.959Z</updated><category scheme='http://www.blogger.com/atom/ns#' term='comment'/><category scheme='http://www.blogger.com/atom/ns#' term='riot'/><category scheme='http://www.blogger.com/atom/ns#' term='Douban'/><title type='text'>关于谣言</title><content type='html'>&lt;br /&gt;&lt;div class="p1"&gt;经历了两天的骚乱，今晚伯城总算消停了。警方大约有一千警力在街上巡逻，ring road通往市中心方向全都封闭，和昨晚一样。加上今晚下大雨，所以市区基本没事。看了下其他地区，狼城也说没事，所以大体West Midlands地区都平安无事。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;其实这几天我基本没什么担心，主要原因并非我相信英国警方（虽然还不错），而是因为我有自由的信息来源。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;首先是英国各大媒体的实时直播，最棒的当属卫报的直播。我一直以为卫报是所有英国媒体中，数字化最牛逼的那个，这回果然不赖，实时blog会自动更新，消息相当及时。另外BBC的也不错，因为他们有自己的视频，所以即时信息的形式更丰富，可以看到很多视频直播，不过他们的文字直播做得没有卫报的好。另外镜报，Channel 4，Sky News也都不赖，参考这些媒体，心里基本有底了。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;其次是通过twitter，英国各地警方，各地政府，议员几乎都有自己的账号，实时更新内容。以WM警局为例，它是WM地区的中心警局，也就是大伯明翰地区的中心警局。他们在自己的网页上有新闻更新，几乎每小时都有更新，内容非常详细，与此同时，他们的twitter保持实时更新，耐心回答市民的疑虑。除了官方的这些账号，前面提到所有的媒体也都保持twitter的内容更新。在这里，大家可能会拿国内的围脖来比较，的确可以比比，我摘录几条昨晚的tweet：&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;WMPolice: Still pockets of disorder at St. Johns Retail Park, Wolverhampton which are being dealt with by local officers &lt;a href="http://bit.ly/ntSFx3"&gt;&lt;span class="s1"&gt;http://bit.ly/ntSFx3&lt;/span&gt;&lt;/a&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;WMPolice: There is also a group remaining in West Bromwich town centre.Officers the location tackling the issues &lt;a href="http://bit.ly/ntSFx3"&gt;&lt;span class="s1"&gt;http://bit.ly/ntSFx3&lt;/span&gt;&lt;/a&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;WMPolice: Police continue to tackle two groups in the Birmingham city.Officers still on the ground tackling these people &lt;a href="http://bit.ly/ntSFx3"&gt;&lt;span class="s1"&gt;http://bit.ly/ntSFx3&lt;/span&gt;&lt;/a&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;WMPolice: Received 224 calls from the public this afternoon about disorder.Detectives will use info to make further arrests &lt;a href="http://bit.ly/ntSFx3"&gt;&lt;span class="s1"&gt;http://bit.ly/ntSFx3&lt;/span&gt;&lt;/a&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;WMPolice: National Express:West Midlands buses will start to return to garages at 9.30pm,except in Coventry and local Walsall services&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;这里可以看到，WM中心警局给出了很详细的数据和事实，并没有掩饰或者模糊事实，我觉得这就最大的区别吧？&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;媒体和twitter是我的两个信息源，虽然我住的地方离骚乱中心很近，但我基本没怎么担心，出门前，会看下这两个信息源，保证自己的安全。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;的确在这几天中，有不少谣言，我也曾对部分谣言深信不疑，比如说，第一天晚上Bullring的牛首被斩首，但当晚很快就有人指出这是谣言。所以在我看来，谣言并非止于智者，而是止于信息自由。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;同时，我也理解为什么华人社群会那么恐慌，虽然不能排出华人担心自己被袭击的忧虑（以前确实发生过），但主要的问题是，华人社群基本是自成一体，和当地主流社会并没有很好的接触，我并非贬低华人社群，只是这样以来，华人社群几乎是消息闭塞的，没有完全信息自由。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;我举两个例子，我室友也是中国人，不过是个女生。第一天晚上，很晚来敲我门，说伯明翰也出事了。然后说她朋友给她打电话，说blabla。我的第一反应是，嗯，这回肯定有事，而且估计不小；但一听她说是朋友的消息，我就知道肯定有夸张的成分。今天下午我出门步行去学校，路上一点动静都没有，等我回家，她又拉住我，说听到有枪击，然后今晚其他城市的looters会流窜到伯城，会有大规模的报复。我一听，笑了，问她为啥？她说，她朋友在网上看到looters发的消息。这么一说，我就知道这肯定不靠谱。为啥呢？这几天，英国的民众反响很强烈，那些looters一开始还在Facebook，twitter上炫耀，后来一看不对，因为这等于留下罪证，所以连组织都不敢用那些玩意，全换BBM了。我进房间在网上看了一圈，既没有枪击的消息，也没有报复的消息。打开围脖一看，住我楼下的另一个女生也吓得咬死，在那哭天喊地，结果她妈也被她吓着了。你说，这是何苦呢，自己把自己吓傻了。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;另外是这篇&lt;a href="http://www.douban.com/group/topic/21636036/"&gt;&lt;span class="s1"&gt;《王铮 Icy：伯明翰惊魂 亲历英国骚乱》&lt;/span&gt;&lt;/a&gt;，我特地跑校内看了那哥们的身份，是BCU的孩子，我没别的意思，BCU那儿确实比较乱，所以他的担心不无道理。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;可关键是，这哥们写得文章极不靠谱。他说伯城的LV和Apple Store都被洗劫了。首先，Apple Store是在Bullring里面，那是一个极大的mall，人家mall的经理都跑出来接受采访说，我们只是部分的玻璃门，卷闸门被破坏，问题不大。那端坐在里面的Apple Store又怎会洗劫一空呢？广为流传的那张照片其实是曼城的，他们为了预防looting，把所有的样机全都收起来了。那哥们又说，LV店给砸了，洗劫一空。确实伯城的LV店就在骚乱中心地区，不过我看了很多报道，只是说被袭击，并没有说被洗劫。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;那哥们后面的推论也很有意思，说英国大涨学费，所以很多人毕业就会破产。实际上呢？英国所有公民都可以申请教育贷款，而且是全额的！毕业后，按目前的学费水平每月需要还的只要几十磅，即使涨到今后的九千榜（大概是翻番），每月的还款额也应该不高，所以这个推论也不成立。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;所以你们看，这不是自己吓自己吗？&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;做梦的猫说，其实BBC中文网功不可没，确实。我之前还在twitter上fo过他们，结果发现他们的信息极不靠谱，很多常识性的错误，于是大半年前就unfo了～&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;谣言并非止于智者，并非止于辟谣，而是止于信息的自由流通。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;P.S.: 上回在EMNLP上听到几位在美国学NLP的中国学生希望识别tweet中的谣言，很好的点子，但难度很大，他们做的初步实验还有很大空间，希望今后能看到更成熟的模型吧～&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/3584987101701240647-6964730431191560734?l=micarum.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://micarum.blogspot.com/feeds/6964730431191560734/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://micarum.blogspot.com/2011/08/blog-post.html#comment-form' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/6964730431191560734'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/6964730431191560734'/><link rel='alternate' type='text/html' href='http://micarum.blogspot.com/2011/08/blog-post.html' title='关于谣言'/><author><name>S</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-3584987101701240647.post-5421807733584019776</id><published>2011-07-26T19:00:00.000+01:00</published><updated>2012-01-29T00:17:30.631Z</updated><category scheme='http://www.blogger.com/atom/ns#' term='corpus'/><category scheme='http://www.blogger.com/atom/ns#' term='Douban'/><title type='text'>Corpus Linguistics 第三天略記</title><content type='html'>&lt;br /&gt;&lt;div class="p1"&gt;第三天也是會議的最後一天，疲憊到極限，幸好早上沒有任務，可以安心聽講座。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;早上的第一個session聽了Laurance Anthony的講座，LA是AntConc的作者，原先畢業於UoB，算是系出同門了。自從UoB畢業之後，LA跑到日本供職，現在在Wadeda大學，他介紹的是他利用corpus輔助教學寫作，也就是所謂的DDL (data-driven learning)。這個項目針對的是高年級的技術寫作 (technical writing)，是本科教育中三四年級開設的課程。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;因為學生數量龐大（一萬人），而LA所在的英語教學部門只有有限師資（九位FT，55位PT），而開設的寫作課程就有七種，針對十七個不同的專業，達五百個學時，所以要在有限的師資條件下達到最好的學習效果，必須採用不同於傳統的教學方法。LA選擇了DDL。DDL的優劣具體可以參照Boulton (2009) 的論文，LA列舉了Boulton的觀點：DDL不需要教學這有相應學科的具體背景知識，而通過這種教學手段，教學者可以很快瞭解相應學科的具體寫作特點和要求，同時DDL也為學習者提供了長久甚至終身學習的可能性。當然DDL的缺點也很明顯，比如使用文本的copyright；比如很多DDL使用的工具都是商業軟件，成本不低；比如教學者可能不一定具備corpus教學的相關經驗；或者教學者不熟悉相關軟件等等。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;LA選取了相關學科的high-impact journals構建相應的learner corpora，因為copyright的原因，這些copora都只對內部公開，他使用了gotagger 7.0, qtag, AcnConc等工具做了pos annotation。順便他也提到了AntConc最初是為了學習者使用的，而不是為了研究使用的（唔，我怎麼覺得這玩意是為了研究設計的？開源，跨平台）。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;LA已經開發了DDL的專用教材，每本大概有七個section，循序漸進，每個section適合九十分鍾的教學（日本的標準課時），在這九十分鍾裡，他希望50%用於介紹DDL的相關corpus知識，比如什麼是DDL，怎樣使用corpus來學習寫作，而另外的50%用於學習怎樣寫作。LA展示了目前完成的兩本教材，目前在Waseda內部使用，預計今年下半年在日本可能會商業出版。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;針對教師的培訓，LA設計了teacher training，face to face discussion forums，online discussion，on-hand software workshops等等方式，而從後來的反饋來看，日本教師普遍非常喜歡這種新穎的教學模式，同時，他們對於怎樣使用corpus不是特別有信心，畢竟他們在接觸DDL之前沒有相應的corpus學習經歷。另外DDL構建corpus學要大量時間和精力，教師也感到採用DDL他們沒有辦法像原先那樣掌控課堂（這個其實符合歐美教育學的理念，即偏向student-centred，而非teacher-centred）。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;目前LA已經開發了AntConcWeb，類似CQPWeb的版本，預計在不久的將來，教師或者研究者像使用CQPWeb那樣構建自己的corpus，而後續的annotation等等，都可以利用ACW來完成。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;LA最後強調，在每學期九十分鐘*15課時的教學時間裡，他希望教師能分配50%的時間給implicit learning，50%給explicit learning。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;LA講得非常快，用二十五分鐘把整個教學模式做了詳細的介紹，並且給我們開了被動語態等等的相關例子，非常有料，讓我感到醍醐灌頂。LA的方法非常有借鑑之處，不過移植到國內尚需時日。個人感覺，這種方法會成為未來教學的流行趨勢，但需要教學者有很強的背景知識，而且需要得到主管領導的絕對支持（不管是教學者或者學習者，都會覺得corpus使用技巧的學習部份可能不是很好入門，學習曲綫較陡）。個人感覺，國內的英語培訓機構可以嘗試引用這種方法，挑戰不小，不過機會更多。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;後來很怨念地發現，LA就講座的同時，Stefan Evert在另外一個會場介紹Quantitative measures of productivity and their significance，我同學說，那場非常不錯，偏computational linguistics的，我去聽的話，一定會很喜歡。怨念！！！後來很好玩的是，我的一位大馬女生，拿着那本BNCWeb Manual找SE去簽名，SE欣然接受，認真給她寫下了祝福。這讓我十分後悔沒把那本書帶去！&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;第二場繼續留在那聽，是一位日本醫科大學指教的學者講的利用DDL培訓醫科學生作doctor-patient consultation培訓。這位學者是我們的distant MA student，結果他導師什麼的都跑來聽（他面子好大，感覺像viva似的）。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;日本的醫科本科教學時間長達六年，而其中有一個科目是doctor-patient consultation。普遍的困難是，日本教師要麼有很強的醫學知識，但英語教學經驗欠缺；要麼英語背景很強，而醫科知識不多。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;這位學者的介紹其實是他的MA dissertation（太牛逼了，拿着畢業論文來參加這種top conference，忒自信了）。他利用英國醫生的診斷錄像構建了corpus，講所有的多媒體材料轉換成文字資料，目前規模不大，只有&amp;nbsp; 17585 tokens，1667 word types，22 cases。不過他的雛形很不錯，感覺後繼開發的空間很大。通常的doctor-patient consultation分為七個section：greeting, chief concern, history taking, physical exam, diagnosis, treatment, termination，他將22個case按照這個做了歸類。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;最後他介紹了使用AntConc生成相關數據，提到了碰到的困難，LA直接給他做了解答（或許這是班門弄斧的好處吧？）。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;附上他給的背景知識：&amp;nbsp; &amp;nbsp;&lt;/div&gt;&lt;div class="p1"&gt;&amp;nbsp;&amp;nbsp; &amp;nbsp; John Flowerdew, 1993 specialised corpus&lt;/div&gt;&lt;div class="p1"&gt;&amp;nbsp;&amp;nbsp; &amp;nbsp; Avrial Coxhead, 2000 AWL&lt;/div&gt;&lt;div class="p1"&gt;&amp;nbsp;&amp;nbsp; &amp;nbsp; Neil Millar, Brian Budgell, 2008&lt;/div&gt;&lt;div class="p1"&gt;&amp;nbsp;&amp;nbsp; &amp;nbsp; Jing Wang, 2008 MAWL&lt;/div&gt;&lt;div class="p2"&gt;&amp;nbsp; &amp;nbsp; &amp;nbsp;&lt;/div&gt;&lt;div class="p3"&gt;&lt;span class="s1"&gt;&amp;nbsp;&amp;nbsp; &amp;nbsp; &lt;a href="http://www.emp-tmu.net/"&gt;&lt;span class="s2"&gt;www.emp-tmu.net&lt;/span&gt;&lt;/a&gt;&lt;/span&gt;&lt;/div&gt;&lt;div class="p1"&gt;&amp;nbsp;&amp;nbsp; &amp;nbsp; AntConc&lt;/div&gt;&lt;div class="p1"&gt;&amp;nbsp;&amp;nbsp; &amp;nbsp; BNC (stop list)&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;第三場跑去聽了open uni的一位學者的講座，他利用corpus來解構online forum的文本，很新穎的角度（或者說我比較無知，這個領域我不曾瞭解）。正常講座圍繞德里達的解構注意展開，講解了針對Guardian網上討論鍾的分析，感覺非常美妙地將corpus和哲學研究結合在了一起。於是幻想，要是corpus發展得快些，薩特，福柯，巴特之流如果採用corpus來研究，又會是怎樣好玩的事？！&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;在他的研究中，corpus主要用來做keyword analysis，好處是reveals concepts normally used in discussion of a topic，同時減少arbitrariness, subjectiveness。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;這個lecture吸引了很多人去聽，幾乎爆滿。後來得知，這位學者也是位大牛，不過採用corpus也算是全新的嘗試。這場講座偏哲學，幾年前粗粗翻過結構/解構主義的書，現在全忘了，所以整場講座跟得很累，不過還是很喜歡他的研究手法。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;聽第三場的時候有個小插曲，我師姐跑來說，因為我早上沒任務，所以要我plenary speech的時候去reception那兒服務。我當時沒好拒絕，但心中極其怨念，因為那場ps是Stefan T. Gries的！！！於是第四場開始前，跑到reception那，想和他們換班，爭取去聽STG的ps。結果第四場快開始前，忽然發現Tony McKarney增加了一場Corpora &amp;amp; Ethics，於是慌忙跑上樓，結果會場爆滿了。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;TM在第二天早上的時候其實已經講過一場，當時就爆滿，因為會場不允許站立或者席地而坐，所以很多聽眾被薄離開（英國佬這點忒認真）。當天大會就邀TM重新再講一次，TM欣然應允。結果第二場仍舊爆滿，可見這個topic有多火爆！後來我同學告訴我，他們前面去Lancaster參加summer school，TM也講了這個，結果那場講了兩個多小時…&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;這場其實是介紹TM和Andrew Hardie（典型的geek，深藏不露，不修邊幅，年紀輕輕，成果頗多）在新書所寫的一張（2012年出版）。TM開場就說，CL不怎麼重視研究倫理，只有Hasund(1998), Sampson(2000), Rock (2001)做過簡略的討論。一方面是，cl面對的倫理問題和傳統語言學面對的完全不一樣，另一方面，cl面臨的問題更多，更複雜，所以一直缺少系統性的討論。在BAAL上有general linguistics的倫理介紹，但很多並不適用於cl。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;TM以BNC spoken sub-corpus作為例子，詳細介紹了cl的研究倫理問題。熟悉這個sub-corpus的同學清楚，這個corpus是通過錄音材料轉換而成的，在構建的時候，被採集者會簽署知情書，採集時，要求被採集者24小時佩戴採集用的微型錄音機（當時還沒有錄音筆之類的玩意），而採集後的內容會最大程度保留原樣，只會對敏感信息做相應的覆蓋處理。被覆蓋的敏感信息不多，比如信用卡資料什麼的會被覆蓋（如果我沒有記錯的話，TM提到，他們已經開發出能偶自動識別敏感信息並覆蓋的技術，估計是基於speech recognition的，很牛逼，問題是如果這樣的技術被逆向使用，後果相當恐怖）。這類二十四小時的全天錄音難免遇到不少倫理問題，比如，如果被記錄者和他人打電話，電話那頭的那位很可能不知道自己的談話內容被錄音採集作為語料；又比如，如果被記錄者的談話可能設計違法內容，或者極其私密的話題，而被記錄者說這些的時候很可能忘記自己被錄音（可以想象下這樣的情形，在有監控錄像的地方，做出失態的舉動），而這些錄音被採集後，是公開使用的，而使用者可能並不處於研究語言的目的來使用這樣的材料，所以後果很難想象（比如，暴力機關使用這樣的材料作為證據來追究被記錄者的責任）。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;TM又以他們構建EMILLE corpus為例，講解了另一種研究倫理問題，即外在因素的影響。當時有個religion背景的組織表示願意慷慨捐贈文本給TM他們構建宗教corpus，大概有一萬五千種文本需要digitalization。TM團隊當時很興奮，心想有這麼好的機會，可以大顯身手。結果看了那些材料後，TM他們很猶豫，因為那些材料覆蓋了很多方面，有些材料直接叫How to hate other&amp;nbsp; religions。TM看到這樣的材料就覺得很棘手，放進去吧，今後使用者會強烈質疑他們的動機，不放進去吧，語料就不完整。所以猶豫了半天，TM團隊最終婉言謝絕了這個組織的好意。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;以上這些都和corpus的multi-function有關，也就是說，corpus的構建目的是用於研究語言，但使用者在使用時，可能不僅僅用於語言研究…&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;TM另外提到了corpus distribution中面臨的倫理問題，比如collecting data from outlawed groups, who is funding you and why? may the corpus become illegal in certain jurisdiction if certain are made? keeping data and available之類的。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;針對使用者，TM提到了另外一些倫理問題，比如what may corpus analysis cause to happen? making your analyses available to future researcher, making your tools available to future researcher, automatic and manual analyses have differing issues, but the imperative to preserve the analysis is constant, how will others interpret your results? what may be the impact of an interpretation of your result?&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;最後，TM總結道，cl涉及的倫理問題其實是人文學科面臨的普遍問題，當然cl的問題有自己的特點。所以在今後的cl研究中，不光要關注相應的技術問題，要不要忽略類似的倫理問題。corpus使用的數據可以為他人做他用，所以研究者要思考為什麼他人會對自己的數據或者研究成果感興趣，避免不必要的後果。總而言之，cl面對的倫理問題比其他語言學分支面臨的更複雜。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;聽完TM的講座，趕回reception，結果我另一位大馬的同學表示，他可以繼續留在那，不需要我幫忙。於是我安心上樓去聽STG的ps。STG的主題是quantitate and exploratory corpus approaches to register and text types，知識點很密集，基本是堂統計課。STG的slide做的非常密集，用open office寫的玩意，和beamer生成的很像（STG是堅定的windows使用者，絕大部份工作在windows平台下完成，部份在linux下完成）。STG的語速超快，結果我基本沒跟上他這堂超快的統計課（即使這樣，他還是超時，可見他的材料有多豐富）。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;STG的講座介紹等有時間整理好錄音再放上來吧。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;下午的第一二場回到自己的會場做helper，碰到兩個大陸學者的講座，也是整個大會僅有的兩個大陸學者講座。講座前，他們表示這樣的參與不僅僅展示他們的研究成果，更能體現大陸目前的cl研究水平。認真聽了這兩個講座，我不多做評價，也不多做介紹，只想說，如果他們真能代表大陸的研究水平的話，那麼大陸的cl真的落後太多，不光遠遠落後於歐美，也落後於港台地區。差距不是一點點，從語料選擇到研究方法都有很多問題，有極大的提升空間。當然很多問題不僅僅是大陸cl自身的問題，和整個學術環境也有關。大家一起努力吧。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;第三場我沒任務，也沒什麼特別感興趣的講座。隨便挑了個會場跑去聽，結果Susan在那坐着聽… 是一個意大利學者講白宮新聞發佈會的分析，很好玩的topic，材料樣本從1993年到2011年，三個總統，五個總統任期。分析了克林頓，布什和歐巴馬不同的語言風格。很好玩的是，在這下材料中，I don't know出現的頻率極高，所以這位學者着重分析了這個pattern的具體用法。按照他的理解，少數情況下，這幾位總統是真不知道，但更多的情況下，這只是他們推脫的藉口。所以，你看政治人物多狡猾，千萬別輕信他們。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;第四場是另一位意大利學者的研究，小哥年紀不大，碩士在讀，今年畢業。穿着個小馬甲，在上面不慌不忙地講解appraisal framework的應用，下面的chair是Peter White，af理論的創建者之一，原先在UoB任教，後來去了澳洲。結果小哥的topic非常吸引人，Susan跑來聽了，我導師和co-or也都跑來聽了。我恰好也在使用這一理論，所以很關注他的嘗試。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;af的理論延續了韓禮德SFG的思想，利用框架來分類做text evaluation，整個框架有五個dimension，細分的話，每個dimension又有不同的sub-dimension，具體參見Language of Evaluation一書。&amp;nbsp;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;意大利小哥用af來研究兩個公司的文本，一個是BP，一個是Ikea，通過他的分析，兩家公司的語言風格完全不同。講完之後PT和Susan都非常興奮，拉着小哥談了許久，好生羨慕…&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;下午第五場，也是大會安排的最後一個時間段，跑去聽了一位台灣師大學者的講座，聽完之後，才知道此君頗有建樹。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;他的project是構建Chinese learner corpus，為台灣地區學習中文的老外服務。在台灣有許多English learner corpus，而BNC，COCA之類的更是被廣泛使用的corpus。在他的項目完成之前，台灣地區還沒有現成的Chinese learner corpus，不過大陸的北語構建過一個HSK learner corpus（202.112.195.192，沒有具體看過，不好評價實際效果）。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;台師大的clc使用corpus workbench（CBW）標註，這位學者提到在標出中文時遇到了困難，恰好哦兩個主要開發者，AH和SE都在場（另外LA也跑來聽了），所以直接在講座時給出了解決方案。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;因為是learner corpus，所以標註比general corpus更困難，因為學習者會出現各種錯誤，很多都是稀奇古怪的。所以標註難度大大增加。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;第三天的回憶大致如此，從上週五結束後，到現在可能有些細節有出入，所有的回憶都是基於在evernote上的筆記，比前兩天的紙筆筆記要詳細很多，所以力求能最大程度還原吧。&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/3584987101701240647-5421807733584019776?l=micarum.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://micarum.blogspot.com/feeds/5421807733584019776/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://micarum.blogspot.com/2011/07/corpus-linguistics.html#comment-form' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/5421807733584019776'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/5421807733584019776'/><link rel='alternate' type='text/html' href='http://micarum.blogspot.com/2011/07/corpus-linguistics.html' title='Corpus Linguistics 第三天略記'/><author><name>S</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-3584987101701240647.post-8726715508568950889</id><published>2011-07-22T06:00:00.000+01:00</published><updated>2012-01-29T00:15:35.284Z</updated><category scheme='http://www.blogger.com/atom/ns#' term='corpus'/><category scheme='http://www.blogger.com/atom/ns#' term='Douban'/><title type='text'>Corpus Linguistics 2011 第貳天略記</title><content type='html'>&lt;br /&gt;&lt;div class="p1"&gt;會議進行到第二天，整個人感覺累垮了，一方面做helper要花很多精力，一方面各種talk消化起來也不容易。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;早上被分配到的那個hall是一個workshop，還特別長，從上午一直要講到下午。進去之後，心就涼了，一群巴西人。倒不是我歧視巴西人什麼的，只是他們的研究手法太浪漫化，只有他們自己買帳。果然，大爺在上面用iPad讀keynote讀得起敬，講MDA-multidimensional discourse analysis，從Biber的multi-factor analysis（MFA）發展而來。巴西人果然喜歡做DA，可惜手法太浪漫，沒多少人認可。大爺讀了二十分鐘的keynote，真的是一個詞一個詞讀下來的！果然一講完很多人落荒而逃，連後面本來坐着得big name也逃了。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;我也不例外，逃到旁邊的hall和我同學換了（真是可憐她了，午飯時問她如何，一臉苦逼相...)。旁邊這個room是布拉格查理大學的workshop，果然是布拉格學派的發源地，陣容強大，派出一幫人來介紹他們得discourse annotation技術。如果我沒弄錯的話，這樣的嘗試還頗為新穎。corpus的標註有不同的level，從最細的morpheme（下午有大馬的學者講到），word，phrase，clause，sentence，paragraph，而disource還很少有人嘗試。主要是discource的變化更多，很難模式化。這位捷克學者專注與構造Prague Dependency TreeBank的構建，目前大致完成了2.0，據說到年底能更新到3.0。discourse annotation主要關注語篇中得連接成分。而這裡所借鑑的dependency grammar其實和布拉格學派得valency grammar有相似之處。果然是一脈傳承。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;第三個session是來自波茨坦大學的一位學者。感覺有很強的計算機背景，做的手法是NLP+ML，基於德語做的discourse annotation，他做的更成熟，感覺比上面這位走得更遠。數據是基於德語的政治評論。比較倒黴的是他的Macbook Air一代的視頻輸出有很大問題，投影效果很差。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;三個session結束後，幾位做了長時間的討論，因為原先沒有接觸過，於是在一旁靜靜地聽他們。討論進行得很深入，提到了到底是top-down還是bottom-up做標註，兩者似乎都有些極端，所以傾向於將兩者結合起來做。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;上午的coffee break之後，是Paul Baker的plenary speech，錯過了昨天的ps，今天特地去聽。co-or做了chair，介紹了Paul，確實是大牛，九年寫了十本書，三十五份學刊的author/co-author，還要帶PhD學生，感嘆他是怎麼分配時間的！問題是，他看起來極年輕，沒有謝頂，真是精力旺盛！&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;演講的主題是利用corpus做cda，非常精彩。很多人都認為cda和corpus是兩碼事，很難結合（我也這麼認為，嘗試過一次，覺得太難了）。但不少大牛都有嘗試，從2000年開始，陸續有大牛在前面開路，比如Susan Hunston之類的，但跟進者不多，主要還是結合不好。Paul做了先驗性的研究，提出了corpus-based cda的研究模型。選取了英國報紙中報道穆斯林恐怖襲擊的報道，構築了一個歷時性語料庫，然後請五位學者分別做cda研究。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;Paul的模型比較靈活，他自己說，這個是一個基礎模型，但可以根據需求改動。五位研究者用了不同的工具遵照這個模型來分析。Paul特別留意了他們選取的關鍵詞，發現只有一個詞組被五個研究者同時選取，而大約只有35%的詞被兩個或以上的研究者同時選取，剩下的都是各自為政。由此可見，即使遵照相同的模型，研究者的研究喜好還是有很大的不同，所以這個approach的發展還是不確定。不過至少Paul的模型為後繼者開拓了一個比較容易上手的門路。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;大牛的想法果然很有啟發性，當然我永遠不會做cda啦～ （被老頭子知道，又要fail我了，可憐兩天都還沒見到他的影子）。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;下午的會場有調整，那個MDA的workshop換了地方，萬幸！我那個會場是Pecha Kucha，結果是我導師做chair。唔，他是所有chair中最累的！Pecha Kucha有嚴格的時間限制，所以slide都需要做轉換，他花了整整一天時間把那些PPT轉換成keynote，多絕望的事啊！兩場Pecha Kucha都是他chair，所以一共17個slide需要轉換...&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;第一個PK是西班牙格拉纳达大學的一位學者做的詩篇分析。她去年在我們這兒做visiting scholar，所以之前聽過她的介紹，分析一個lesbian詩人的詩篇，主題大致是後殖民主義的女性解放。今天沒仔細聽，大致和上次的一致。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;第二個PK是台灣成功大學的一位學者，講的是西語糾錯腳本的開發，基於台灣CATE corpus，結果會場有Spanish native speaker，評價說舉的樣本有問題，那個樣本可能只是方言間的差異，並不是錯誤。其實這是一個很難定性的問題，對於初學者而言，需要有嚴格的語法來保證他們的語言規範性，所以可能基於比較嚴格的語法規則，那些可以被認為是錯誤。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;第三個PK是波蘭波茲南大學的一位學者，研究波斯語的phraseology，不是太感興趣，沒細聽。不過引用了韓禮德的一句話，還是挺有意思的，大致說20million規模的corpus就足夠用了，回來查了一下，這句話是韓禮德1969年說的。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;第四個是講BootCat的，來自意大利博洛尼亚大学大學的學者做了介紹，這是款開源誇平台的corpus構建軟件，基於web as corpus的概念。給定最少五個關鍵詞之後，就能自動搜集樣本。理念不錯，產品也做得比較成熟（剛才嘗試了一番，結果跑死機了，暈！）。問了一個問題，這樣的產品類似於spider/crawler，如果網頁有anti-bot怎麼辦？答曰，那就不要了，本來我們也就是一個網站下載一個網頁的。結束後，拉着導師討論了下，覺得這樣的樣本代表性有些不靠譜。因為他們的網頁選取是基於yahoo的搜索結果，所以就相當於搜索排名高的被選取（可以把這個問題極端到百度的競價搜索），那麼選取的網頁不是基於語用功能，而是social impact了，和Sinclair的理念不符。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;第五個PK是紐卡斯爾大學的一位nursing專業的學者做的。佩服她的勇氣，一個毫無linguistics背景的nursing學生嘗試用corpus來輔助nursing教學，而且跑到這個領域的top conference來做展示！她的項目很龐大，縱跨三年，橫跨三個校區。看了下具體的應用，覺得還是比較淺，和英語教學中的應用完全沒法比。無論如何，這樣大膽的嘗試都值得讚許！&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;第六個PK是來自雷丁大學大學的一位突尼斯裔學者的研究，基於突尼斯語使用者學習英語的研究，樣本是學術文章，50篇soft science文章和50篇hard science文章。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;第七個PK是奧地利科學院語料庫的兩位研究者做的。兩位利用德語的歷史預料來做研究，講這些材料digitalization，然後為今後研究提供方便。他們提出了一個container的概念，希望將文本根據主題分類。因為材料數量很大，有500m，所以分類是一個很重要的環節。後來導師提的問題很有意思，因為自己也是德國人，所以問了關於左翼樣本的問題，兩位研究者回答，確實不好找，很多都被銷毀了。不過經過努力還是在俄羅斯找到了部份。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;第八個PK是來自赫爾辛基大學的研究者關於descriptive grammar的介紹，口音很重，聽眾幾乎沒人聽懂，囧～&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;coffee break之後，聽了大馬女學者的mopheme annotation，計算機出身，用Beamer做的slide，昨天那位謝菲爾德大學的學者也是用Beamer，看來linguistics也在慢慢向cs靠近，開始用更樸素的工具。講的很細，使用linguistica做的標註。可惜她的talk和其他幾位大牛的talk撞車，結果只有一位聽眾，加上chair，下一位演講者和我，只有四個人聽她講，真可憐。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;今天最後一場，跑去聽Peter White的講座。大叔也是Birmingham出身，後來跑去澳洲做學問。今天講的是news machine translation的translatablity和untranslatability，構建了英語，法語（未來有中文）的parallel corpus，舉了idiot/fool在英法兩種語言中的不同對應用法。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;唔，花了兩個小時，對照programm和abstract總算寫完了，力求沒有錯誤吧...&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/3584987101701240647-8726715508568950889?l=micarum.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://micarum.blogspot.com/feeds/8726715508568950889/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://micarum.blogspot.com/2011/07/corpus-linguistics-2011_22.html#comment-form' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/8726715508568950889'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/8726715508568950889'/><link rel='alternate' type='text/html' href='http://micarum.blogspot.com/2011/07/corpus-linguistics-2011_22.html' title='Corpus Linguistics 2011 第貳天略記'/><author><name>S</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-3584987101701240647.post-3309305478757955641</id><published>2011-07-21T06:00:00.000+01:00</published><updated>2012-01-29T00:14:39.300Z</updated><category scheme='http://www.blogger.com/atom/ns#' term='corpus'/><category scheme='http://www.blogger.com/atom/ns#' term='Douban'/><title type='text'>Corpus Linguistics 2011 第一天略記</title><content type='html'>&lt;br /&gt;&lt;div class="p1"&gt;等了一年，總算等到這個會議了，很幸運參加這個會議。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;這幾天伯城是典型的英國雨天，又冷又溼，完全沒有夏天的樣子。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;與會總人數大概在300人左右，cl界的巨擘基本都到了，有老一代的如Bill Louw，Susan Hunston，Douglas Biber等等，也有中生代的Tony Mckarney，Stefan T. Gries，Stefan Evert，David Evans， 更年輕的如Andrew Hardie。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;因爲是志願者，所以錯過了Susan的pleanary speech，後來我師兄Ben說，那場非常不錯，老太太又有新想法，非常深刻。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;因爲是志願者，所以沒有辦法選擇聽什麼，坐在那個hall裏，來誰，將什麼，聽什麼。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;第一個session有空閒，去旁邊的hall聽一位臺灣政治大學的PhD講collocation，她研究challenge這個詞，按照她的理解，以往研究collocation只關注動詞，或者名詞，似乎沒有系統性的研究。而她的研究是受一個學生的錯誤啓發的，那個學生寫了這麼一句話：It's really challenging to get sleep... 一般而言change變化位形容詞後，word preference趨向於positive，所以這個句子就非常有意思了。她研究了change做動詞，名詞，還有變化爲形容詞後左右不同的word preference。感覺偏傳統的路綫，整體思路比較清晰。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;第二個session乖乖滾回自己的hall做helper，聽了來自比利時Ghent大學的一位學者的講座，講的是研究教師在課堂上用於提醒學生注意的表達方式。所用的corpus是Thompson &amp;amp; Nesi開發的BASE，分析了160個課堂錄音文本，平均每個文本有其次這樣的提醒，統計顯示，英國的老師最愛用the point is that這個pattern。很細的題目，不過研究手法還是比較保守的。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;第三個session是來自聖彼得堡州立大學的一位學者，研究俄語演講中的一些指代用法。因爲目標語言是俄語，而與會者中俄羅斯學者很少，所以她的演講基本沒有收到什麼回饋。感覺她的統計很強，用了各種手法做數據，不過解釋得不是很清楚。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;下午第一個session是來自日本關西大學的一位學者，研究的是英國主流報紙的不同style。這個project可能是她的PhD dissertation的一部分，所以她整個的slide有八十多頁，開會前才臨時刪的，講了大概四十多頁。講得非常快，但她的口音有點重，估計下面的聽衆沒幾個聽明白。個人對這個topic比較感興趣，因爲這個題目偏language evaluation，所以挺好玩的。她把數據歸爲positive和negative兩個category，然後研究高頻pattern，呵呵，這一部和sentiment analysis類似。她的研究結果是各家報紙有不同的語言風格，比如Guardian偏向於用數據說話，力求客觀，我昨天的感覺和她恰好相符，嘿嘿。感覺她花了很多功夫在數據上，材料紮實，研究也充分。但個人感覺她在做positive/negative categorization不是很嚴謹，也難怪，畢竟sa也不能很好地解決這個問題，所以做到她這樣的程度也不錯了。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;第二個session是來自法國布列塔尼大學的一位學者，他希望改進目前的word sketch技術以適應法語的研究。他的手法偏NLP和ML，希望用他們來完善目前的word sketch技術。提到了Bag of words這個模型，對它評價不高（做linguistics的對它評價都不高，只有cs的傢伙對它讚譽有嘉...）。還提到了surface discourse phenomena這一現象。他的training set是LeMonde《世界報》，按照他的介紹，他的改進確實提高了word sketch在法語的準確率。不過chair後面問了一個問題很有價值，word sketch這個技術原來是針對英語開發的，所以所有的結果都是基於英語的，而這位法國學者的數據是法語的，所以這樣的比較有些牽強。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;第三個session是來自德國杜伊斯堡-埃森大学的一位學者的講座，他的題目是關於lesbian和gay在dating時不同建議的差異。他希望利用四個gay/lesibian問答網站的數據作爲樣本，從而考察具體的區別。整個研究還在起步階段，但話題非常有趣，所以吸引了大批的聽衆，以至於後面的問答環節也極其火爆。大家的想法非常一致，where is the suitable reference corpus？反覆地討論這一問題，非常有啓發性。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;coffee break之後的第一個session是來自巴基斯坦白沙瓦大學的一位學者，介紹Pushto語的corpus建設。Pushto的書寫結構和阿拉伯語類似（不一定準確，我不懂這兩門語言，只是看起來他們使用類似的字母體系），整個會場估計也就他懂這門語言，所以對這個題目感興趣的聽衆似乎不多，有點尷尬地冷場。不過還是很欽佩這位學者的勇氣，在最好的會議上展示這麼小衆的topic真不容易。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;第二個session是一個合作項目，是我的一位老師和兩位加拿大學者的合作研究。研究五本醫學學刊中的被動語態的使用變化。其中兩本學刊在投稿說明中強調儘量使用主動語態，而另外三本並沒有。他們希望對比研究這些變化對於讀者理解的影響。我的這位老師做數據非常強，所以他展示了用R做的各種digram，非常漂亮。整個研究非常有趣，這一投稿說明帶來的變化很明顯，五種學刊中，論文的method和result的變化最大，而intro和discussion部分幾乎不受影響。他們發現這一變化似乎影響讀者的理解，不過這個還需要做更多的樣本研究。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;第三個session是來自謝菲爾德大學的一位學者，他研究英語中的tempol relations，希望講TimeBank中的這些表達方式能夠模型化，爲將來的automatic recognition提供算法。估計這位是學計算機出身的，slide使用Beam做的，很清晰。按照他的理解，英語中表達時間概念的用法有很多類，大致有五種：tense &amp;amp; aspect, world knowledge, discourse structure, specific time, explicit expression。所以將這些全部識別不是件容易的事，先前的準確性大概在60～70%之間。整個題目很細，角度也很新，把我導師也吸引過來了。所以這個研究其實非常能代表現在英語cl的發展趨勢，研究細化，爲computational linguistics提供具體的語言學支持。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;第四個也是今天最後的那個session是來自加拿大阿爾伯塔大學的一位學者。他研究的是英語中的synonym，利用了R中的polytomonous包做數據分析，整個講座幾乎都在講數據分析。STG跑來聽這場，chair是Stefan Evert，所以三人在問答環節討論甚歡...&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;一天聽下來的感覺是，英語cl向細化，數據化發展，corpus作爲工具的重要性越來越明顯。雖然大家都有數據，但怎麼利用數據才是最大的問題。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;可憐中文cl呢？&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/3584987101701240647-3309305478757955641?l=micarum.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://micarum.blogspot.com/feeds/3309305478757955641/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://micarum.blogspot.com/2011/07/corpus-linguistics-2011.html#comment-form' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/3309305478757955641'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/3309305478757955641'/><link rel='alternate' type='text/html' href='http://micarum.blogspot.com/2011/07/corpus-linguistics-2011.html' title='Corpus Linguistics 2011 第一天略記'/><author><name>S</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-3584987101701240647.post-8018044980301302087</id><published>2011-07-20T09:00:00.000+01:00</published><updated>2012-01-29T00:12:19.695Z</updated><category scheme='http://www.blogger.com/atom/ns#' term='newspaper'/><category scheme='http://www.blogger.com/atom/ns#' term='twitter'/><category scheme='http://www.blogger.com/atom/ns#' term='Douban'/><title type='text'>Twiiter與默多克</title><content type='html'>&lt;br /&gt;&lt;div class="p1"&gt;昨晚回家一看，Twitter上就鄧文迪的護夫行爲炸開了鍋，當時的第一反應是，mass media應該會關注Twitter上的反應。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;果然，翻了下，不少mass media都在twitter上推薦了自己的報道，看到幾篇報道Twitter上民衆反應。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;Guardian一直走在技術前沿，大規模運用技術量化數據，印象很深的是Wikileaks的時候，他們提供了大量的&lt;a href="http://www.guardian.co.uk/news/datablog+media/wikileaks"&gt;&lt;span class="s1"&gt;統計數據&lt;/span&gt;&lt;/a&gt;。這回也不例外，他們的工程師+編輯+記者的組合做了不少努力：&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p3"&gt;&lt;a href="http://www.guardian.co.uk/media/interactive/2011/jul/19/rupert-murdoch-twitter-pie"&gt;Rupert Murdoch: How Twitter tracked the MPs' questions - and the pie&lt;/a&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;這篇是根據Twitter的keyword做的實時分析。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p3"&gt;&lt;a href="http://www.guardian.co.uk/technology/blog/2011/jul/19/twitter-sentiment-analysis-wendi-deng"&gt;http://www.guardian.co.uk/technology/blog/2011/jul/19/twitter-sentiment-analysis-wendi-deng&lt;/a&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;這篇是談sentiment analysis，他們所用的搜索引擎是這個：&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p3"&gt;&lt;a href="http://twittersentiment.appspot.com/"&gt;Twitter Sentiment&lt;/a&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;這個是由Stanford的幾個PhD去年開發的，目前最好的sentiment analysis應用之一。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;翻翻更早的數據如下：&lt;/div&gt;&lt;div class="p3"&gt;&lt;a href="http://www.guardian.co.uk/media/interactive/2011/jul/13/news-of-the-world-phone-hacking-twitter"&gt;How Twitter tracked the News of the World scandal&lt;/a&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;有意思的是，Mirror也做了類似的報道，可惜他們沒有好的技術團隊，對於數據的處理手法很傳統，類似做discourse analysis：&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p3"&gt;&lt;a href="http://www.mirror.co.uk/news/top-stories/2011/07/19/celebrity-reaction-on-twitter-to-rupert-murdoch-and-son-james-select-committee-evidence-115875-23282309/#ixzz1SbXyB8Gy"&gt;Twitter reaction to Rupert Murdoch and son James select committee evidence and custard pie attack&lt;/a&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;從這些我們大概可以理解，新技術在傳統媒體的報道中也大有舞臺。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;國內的媒體們，好好看看應該怎麼用micro-blog這個平臺做新聞吧，別以爲這就是新技術：派出記者去現場，用微博發佈報道，結果鬧了半天連個事故原因都不敢報道。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p3"&gt;&lt;a href="http://news-hzrb.hangzhou.com.cn/system/2011/07/15/011421343.shtml"&gt;钱江三桥封闭 实行临时交通管制措施&lt;/a&gt;&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/3584987101701240647-8018044980301302087?l=micarum.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://micarum.blogspot.com/feeds/8018044980301302087/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://micarum.blogspot.com/2011/07/twiiter.html#comment-form' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/8018044980301302087'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/8018044980301302087'/><link rel='alternate' type='text/html' href='http://micarum.blogspot.com/2011/07/twiiter.html' title='Twiiter與默多克'/><author><name>S</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-3584987101701240647.post-4406404720253493979</id><published>2011-07-16T19:30:00.000+01:00</published><updated>2012-01-29T00:10:34.074Z</updated><category scheme='http://www.blogger.com/atom/ns#' term='linguistics'/><category scheme='http://www.blogger.com/atom/ns#' term='Douban'/><title type='text'>orange和橙，孰先孰後？</title><content type='html'>&lt;br /&gt;&lt;div class="p1"&gt;昨天聽系裏的seminar，同系的師兄介紹了intertextuality的概念，後來大家因爲infinity的問題爭論不休，於是這位老兄講了orange的例子，頗爲有趣。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;他提到orange是英語中唯一一個同時表示顏色和水果的詞。orange出現在英語中，首先表示水果，那是1380年，大約兩百年後的1512年，orange用來表示顏色。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;他關心的不是orange到底什麼時候出現，而是在在orange這個詞出現之前，人們怎樣表示這種顏色。沒錯，這種水果是在十四世紀左右進入大不列顛的，因爲水果的引進，所以1380年有了這個詞；可問題是1512年之前，英國人用什麼來表示這種顏色。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;顏色一直存在，並不因爲水果的引入而有所變化。根據他的研究，英國人最先沒有ornage這個概念，有可能用rēad (red) 或者geolu、geolwe (yellow)來表示這一概念，之後有了geoluhread(yellow-red)。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;他的解釋基本如此，不過我比較好奇的是，中文中，橙既可以表示顏色，也可以表示水果，和英文的一致。那麼這樣的用法到底是先出現在中文中，還是英文中？兩者有沒有聯繫呢？&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/3584987101701240647-4406404720253493979?l=micarum.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://micarum.blogspot.com/feeds/4406404720253493979/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://micarum.blogspot.com/2011/07/orange.html#comment-form' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/4406404720253493979'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/4406404720253493979'/><link rel='alternate' type='text/html' href='http://micarum.blogspot.com/2011/07/orange.html' title='orange和橙，孰先孰後？'/><author><name>S</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-3584987101701240647.post-2050012953680041244</id><published>2011-07-13T03:30:00.000+01:00</published><updated>2012-01-29T00:09:08.658Z</updated><category scheme='http://www.blogger.com/atom/ns#' term='tool'/><category scheme='http://www.blogger.com/atom/ns#' term='GNU'/><category scheme='http://www.blogger.com/atom/ns#' term='Douban'/><title type='text'>Testdisk 牛逼的數據恢復軟件</title><content type='html'>&lt;br /&gt;&lt;div class="p1"&gt;前陣子買了不到半年的一塊WD硬盤掛了，其實早有徵兆，只是一隻沒在意，突然死亡也就在所難免。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;死亡的症狀是再mac下無法讀取數據，但假死的時候，用ubunutu讀出了部分數據，之後在任何操作系統下都無法識別。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;悲催的我手頭沒有可用的win系統，因為原來在win下用過一個免費的數據恢復軟件，叫&lt;a href="http://www.piriform.com/recuva"&gt;&lt;span class="s1"&gt;Recuva&lt;/span&gt;&lt;/a&gt;，非常不錯，效果比一些收費軟件都好。誰讓她系出名門呢？同門的還有叫&lt;a href="http://www.piriform.com/ccleaner"&gt;&lt;span class="s1"&gt;CCleaner&lt;/span&gt;&lt;/a&gt;，win下一塊牛掰的系統維護軟件，也是免費的。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;下午跑去Apple Store，那個genius幫我檢查了之後說，非常抱歉，我們無能為力，我們不提供數據恢復服務。我估計主要原因是那塊屬於外置硬盤，又不是Time Capsule，否則他們肯定得負責。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;求人不如求己，試用了n款mac數據恢復軟件無果后（廢話，系統都無法識別盤符，怎麼讓人家做恢復！orz～），我都快放棄了，準備徹底格式化之後，寄回給Amazon（他們服務很贊，寫投訴郵件一小時后，就把replacement寄出了，還是加急郵遞）。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;剛才在網上翻了翻，想最後試試運氣，誰知讓我找到了&lt;a href="http://www.cgsecurity.org/wiki/TestDisk"&gt;&lt;span class="s1"&gt;Testdisk&lt;/span&gt;&lt;/a&gt;這款軟件。下載之後很鬱悶，發現是tar文件，解壓之後，以為需要命令行安裝，看看doc，並沒有明確寫怎麼安裝，幾個文件也沒有常見的configue或者make文件，心想，這是什麼玩意啊！&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;仔細看了看，發現裡面有三個bash腳本，分別是fidentify，testdisk和photorec，於是一一點開，第一個不清楚是什麼腳本，點開就是不停地下載掃描，有些奇怪，第二個應該是磁盤檢測工具，暫時沒用到，第三個才是真正的數據恢復腳本。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;打開全部是命令行操作，上面有詳細的介紹，不必慌張，只是有些不習慣吧。按照步驟一個個選擇，沒啥難處。本以為讀不出那個外置硬盤，隨便敲了下去。誰想，這玩意居然全都能識別，現在正跑得還，把數據一點點全恢復出來了...&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;看了下部分數據，效果相當不錯，大讚！&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;忘了說，Testdisk這玩意是GNU工具，也就是開源的，完全免費。更加牛逼的是，這玩意是跨平台的！&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;強烈推薦！&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;P.S.: 另一個好消息是CCleaner推出了mac版，試用之後，覺得還是&lt;a href="http://www.macupdate.com/app/mac/11582/onyx"&gt;&lt;span class="s1"&gt;Oynx&lt;/span&gt;&lt;/a&gt;強大，暫時不做推薦。&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/3584987101701240647-2050012953680041244?l=micarum.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://micarum.blogspot.com/feeds/2050012953680041244/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://micarum.blogspot.com/2011/07/testdisk.html#comment-form' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/2050012953680041244'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/2050012953680041244'/><link rel='alternate' type='text/html' href='http://micarum.blogspot.com/2011/07/testdisk.html' title='Testdisk 牛逼的數據恢復軟件'/><author><name>S</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-3584987101701240647.post-4166838989758824003</id><published>2011-06-06T10:00:00.000+01:00</published><updated>2012-01-29T00:06:27.826Z</updated><category scheme='http://www.blogger.com/atom/ns#' term='twitter'/><category scheme='http://www.blogger.com/atom/ns#' term='Douban'/><title type='text'>我爲什麼還在用Twitter</title><content type='html'>&lt;br /&gt;&lt;div class="p1"&gt;昨晚見到友鄰分享了那篇《&lt;a href="http://www.douban.com/note/154667561/"&gt;&lt;span class="s1"&gt;我为什么不想用微博&lt;/span&gt;&lt;/a&gt;》，說實話，沒太看懂。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;以我粗淺的理解，作者大概想說自己是不插電的人，所以仍舊過得好好的，用爛手機也行，不看電視也行。大致的邏輯和當年電池出來時，人們的反應一致。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;不插電的人不少，比如馮象，比如舒國治，沒錯，他們都過得挺好，那位作者過得也挺好。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;不過我想說，我也過得挺好，我也不用微博，準確地說，我不用國內的micro-blog服務。但我使用Twitter兩年多，仍舊好好地活着。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;以下只是分享一些我自己的感受，無他。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;註冊Twitter賬號應該是蠻早的事，註冊完就丟在那，沒管。直到生活中的一位朋友在其他SNS上大喊自己用，這才跑上去加他，然後認識了本地的一幫朋友。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;註冊的時候，Twitter可以順利訪問，回去玩的時候，Twitter可以方便地使用第三方API訪問，以至於有朋友說，Twitter如同一個水罐接了無數水龍頭，永遠封不了。想來這話不錯，只是水龍頭的水量越來越小了。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;一開始加了本地的一幫朋友，大多都是年輕人，有學生，也有剛上班不久的年輕人。要說大傢有什麼特點，無非是愛搗鼓電子產品，嚮往自由而已。其他，好像沒了。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;於是組織過不少綫下活動，那時後話。比如觀影，彼時，本地有傢广告公司的老闆在做獨立影片觀片會，陸陸續續放了差不多一年，大多是國內的獨立電影，比如《圓明園》，《遠山》什麼的。一開始是在豆瓣上做的活動，參加的主體是豆友，漸漸地，豆友少了，剩下的只是那些Twitter用戶，最後，堅持下來的，只有Twitter用戶。其實並不是Twitter用戶的觀影水平高或者他們耐心多，只是，他們有Twitter，用戶黏性比一般SNS更強。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;後來陸續fo過一些意見領袖，比如連岳，還有剛被失蹤的那位，彼時他們很熱鬧，在Twitter上掐架，直播。看得多了，也就煩了，隨手點了unfo，自此世界清靜。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;Twitter上互相掐架的不少，而且掐得很兇，綫上綫下一起掐，拉幫結派一起掐。大有老死不相往來的架勢。大概可以依稀看到democracy的影子，有時覺得很煩，但大傢都是公平的，在那沒有人享有特權，所以只要輕點unfo即可，你仍舊可以擁有自己的世界。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;再後來，在Twitter上fo過一批90後的孩子，大概比我小這麼幾年，但生活遠比我精彩。比如Doriscafe，jiehanzheng之類的。也fo了一幫國內的IT從業者，大概可以瞭解業界的生態。再然後，fo過一些時差党，和大傢分享時差的點點滴滴。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;我也曾經糾結過，是否繼續用Twitter。確實，那時玩得有點過，一天能貼一百多條，還是在牆內，基本上是在那兒自言自語，純粹吐槽。但後來慢慢習慣了，畢竟我不是什麼意見領袖，所以使用Twitter的主要目的還是以接受信息爲主。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;Twitter上的信息很雜，真假皆有，所以需要自己去分辨。最好玩的例子是，最近李娜奪冠，於是有一條tweet說，李娜原來練跳水，成名之後歸隱，然後出道唱了《青藏高原》，再然後苦練網球奪冠... 查查wiki，娜姐哪有那麼多時間玩其他啊？類似的例子有不少，於是在Twitter上接受信息的同時，還練就了怎樣辨別假消息的本領。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;現在Twitter已經取代Google reader成爲我的主要信息渠道，信息更自由，更快捷。我不知道這是不是好事，至少讓我明白，我還活着，還有一口新鮮的空氣。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;再往後，就是把自己的dissertation定爲Twitter的相關研究，和導師談過，欣然應允。原來導師也玩Twitter，還主動跑來加我。因爲客戶端有翻譯功能，所以還能看得懂我的中文tweet，突然有一天，Google關閉了API，他看不懂我的tweet，於是又在那抱怨了一下。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;於是Twitter成爲我和導師交流的另一個平臺。原本只是電郵，大概他屬於那種純粹的geek，電子產品的重度用戶。雖然手邊的所有產品都是Apple的，但用起來純粹是geek的道道，mbp下跑的大多是命令行界面。於是，一天給我三四封郵件也就不足爲奇了，有了Twitter之後，一天三四條reply也在情理之中吧？&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;兩年多的經歷大致如此，我也依舊好好活着。我只是想說，用不用，怎麼用，都取決於你。但是，時代在變，永遠不要以不變的眼光看待變化的事物。依我的判斷，Twitter之類的micro-blog大致會和電視一樣，越來越流行，然後陪伴我們很久...&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;至於那位老兄，如果你真想玩不插電，索性痛快點，學學舒國治或者馮象，連豆瓣都別玩了。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;huh～&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/3584987101701240647-4166838989758824003?l=micarum.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://micarum.blogspot.com/feeds/4166838989758824003/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://micarum.blogspot.com/2011/06/twitter.html#comment-form' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/4166838989758824003'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/4166838989758824003'/><link rel='alternate' type='text/html' href='http://micarum.blogspot.com/2011/06/twitter.html' title='我爲什麼還在用Twitter'/><author><name>S</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-3584987101701240647.post-173717454328956589</id><published>2011-01-14T15:30:00.000Z</published><updated>2012-01-29T00:01:13.613Z</updated><category scheme='http://www.blogger.com/atom/ns#' term='reference'/><category scheme='http://www.blogger.com/atom/ns#' term='mac'/><category scheme='http://www.blogger.com/atom/ns#' term='Douban'/><title type='text'>免二次登录论文全文获取方式配置(ezproxy)</title><content type='html'>&lt;br /&gt;&lt;div class="p1"&gt;［按］此文为纯技术文，不适用天朝各大高校（UNNC适用），如需进一步配置，请自行搜索。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;昨天到学校后碰到第一件脑残的事：本来有个叫ezproxy的服务，通过这个学校代理，上许多论文数据库可以免登陆直接获取全文。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;我一开始没搞清怎么在mac下的Papers这款软件里怎么配置，找IT service帮忙，结果那家伙请示了之后表示，请使用图书馆的eLibrary服务。那样很多数据库都要二次登陆，极其麻烦！&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;刚才打开Papers重新做了配置，发现这个ezproxy还是可以用的，而且贼他妈好用。现在真不明白学校怎么想的，花了巨资买了ezproxy，又投入巨资维护，却建议学生不要使用，这是什么逻辑？&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;简单说来ezproxy是由Chris Zagar开发的一套图书馆数据库服务系统，和Athens类似，但比Athens更为强大。准确的说，两者目的不同，Athens实际上是让使用者能够使用若干个论文数据库，而exproxy是为了让使用者能够享受校园图书馆的检索便利。举个例子，我们学校使用的是Shibboleth（与Athens类似，只是不同的系统而已），通过这个，我可以很方便地获取许多论文全文，但是有若干个数据库。在offcampus的情况下，无法登陆，无法获取全文（比如ACM）。而在学校IP范围内，我根本无需登陆我的Shibboleth帐号，即可获得ACM的全文。依此推论，借助ezproxy，可以免登陆获得全文。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;一般国外高校都会投资建设ezproxy，这是一个很便利的服务，大大提高论文检索效率。不在天朝的各位，可以用“ezproxy+学校域名”的字符串，在google下检索，如果有结果，那么恭喜，你可以用学校帐号登陆使用ezproxy。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;回来说说mac下的Paper这款软件，这是一款“神器”，一般做学术的，玩mac的，都会买这个软件（有学生优惠，额度是40%）。可以去官网下载试用版，试用期30天，我敢保证，用过之后你一定会心甘情愿地掏腰包买下（虽然有非法的方式可以获取，但还是奉劝一句，毕竟你将所有论文资料全都用这个管理，万一那天非法帐号出现异常，这个损失恐怕不小吧？）。我当时试用了十几天，还是乖乖地买下了。尽管王老板表示使用Jabref或者Bibtex也可以做文献管理，我还是比较懒～&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;进入Papers之后，可以在Preference看到有个Sources的tab，点击后，下面有个文本框提示可以配置library proxy，在这里添上学校的ezproxy地址（请使用google或者咨询学校图书馆，但愿你们不会碰到我们学校那样蛋疼的家伙）。然后在末尾添加“/login?url=%@”的字符串，退出即可。&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;配置完之后，可以试试，在Papers里用内置搜索引擎插件检索文献，点击目标文献后，会提示你输入学校图书馆帐号。登陆之后，在目标网页上方，会提示你使用学校的IP登陆，那么恭喜，你已经在使用ezproxy了～&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p2"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="p1"&gt;如果我没有猜错的话，在浏览器下也可以做类似配置，具体方法请google或者咨询学校图书馆，好运！&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/3584987101701240647-173717454328956589?l=micarum.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://micarum.blogspot.com/feeds/173717454328956589/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://micarum.blogspot.com/2011/01/ezproxy.html#comment-form' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/173717454328956589'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/3584987101701240647/posts/default/173717454328956589'/><link rel='alternate' type='text/html' href='http://micarum.blogspot.com/2011/01/ezproxy.html' title='免二次登录论文全文获取方式配置(ezproxy)'/><author><name>S</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry></feed>
