引き続き、先週鳥取で行われた自然言語処理年次大会(NLP2009)の本会議3日目について書きます。
まずは、個人的に興味のあった発表について。
超大規模ウェブコーパスを用いた分布類似度計算
(京大 柴田さん他)
超大規模ウェブコーパスとして、検索エンジンTSUBAKIの1億ページを使って分布類似度を計算し、類義語を求めました、というお話。
「超大規模」と銘うってある割には、高速化や近似処理などの「超大規模ならでは」の話があまり無かったように思える点は残念である。一点、ふんだんなコーパスサイズを利用して、「コーパスサイズを変えると分布類似度の性能はどう変化するか」が詳細に調査されてて、この研究で扱った1.6G文ほどあれば十分のようだ、という結果である。
個人的な経験としては、分布類似度の計算には、文脈の量も大事だが、それよりも「多様さ」(異なり数)がけっこう利くので、ある程度量を確保したら、それ以上コーパスサイズを増やしても多様性は少ししか(コーパスサイズのlogを下回るペースでしか)増えないので性能が飽和するのだろう。直感的に。
これに関連して、超大規模コーパスから文脈類似度を計算する話としては、
が詳しくてオススメ。ここでは、大規模コーパスからの分布類似度の計算のために、
- RI; Random Indexing
- LSH; Locality Sensitive Hashing
- VPT; Vantage Point Tree
- PLEB; Point Location in Equal Balls
- SASH; Spatial Approximation Sample Hierarchy
などの、ベクトルモデルでk近傍を高速に求めるための近似手法がいくつか比較されている。結果的には、速度ではRandom Indexingが、近似精度ではSASHが良かったという話である。ベクトル間の類似度を求める処理は自然言語処理に限らず色んなところに出てきて、どれがうまく行くか、というのはある程度タスク依存なところも有ると思うが、こういった手法をカタログ的に知っておくのは有用である。
グラフカーネルに基づく非分かち書き文からの意味的語彙カテゴリの抽出
(自分の発表) 発表スライド
自分の発表したD4:マイニング(1)のセッションに面白そうな話が集まっていたのが理由だと思うけど、とてもたくさんの人に見に来て頂いて圧倒されそうだった。質問・コメント等に関しても、セッション中およびセッションの後にまで及んで本当に数え切れないぐらいの人から有用なフィードバックを頂いて、ただただ感謝するばかりである。こういう点に関して、自分は他人の研究に質問・コメントしたりするのが全然まだまだだなぁと感じるので、微力ながらこうやってブログで紹介等を書くのがせめてもの罪滅ぼしである。
実は今回の話、NAISTの小町さんらのグループの話にかなりの部分が依存していて、論文等も引用しまくっている。それもあって、原稿を投稿した直後に「論文引用したので、ちゃんと引用できてるか、よかったら読んでください」といって本人に直接、原稿を送ったのだった。結局、引用をチェックしてもらえただけではなく、脚注中のタイポまで指摘してもらい(!)とても有用な経験だったので、今後もできるだけ続けていきたい。(参考文献がほとんど英語なので、これを実行しようとすると自動的に論文は英語でしか書けなくなるけど)
この「論文を引用したら著者に見せる」メソッド、実は前コメントでshimaさんに紹介してもらった、MSRのSimon Peyton JonesのHow to write a great research paperの中にあった、
A good plan: when you think you are done, send the draft to the competition saying “could you help me ensure that I describe your work fairly?”
(「関連研究」を書き終えた時点で、論文のドラフトを引用した競合相手に送り、「あなたの研究をちゃんと引用できているか確認してもらえますか?」と言うと良い)
というアドバイスを愚直に実行してみたものである。思えば、引用される側からしても、自分の論文が引用されていれば嫌な気はしないし(というかけっこう嬉しいし)、それを元にどんな研究がなされたのか、論文中でどのように言及されているかは気になるところであるので、両者ともハッピーなのではないだろうか。
ちなみに上の「How to write a great research paper」、これ以外にも
- 研究をやる前に論文を書け
- 論文の目的はシステムの紹介ではない
- 本論文の構成は、以下の通りである・・・はやめれ
- 例を使え
- 従来研究を高く評価しても、自分の研究の評価を下げることにならない
等々、有用なコメントがたくさんあるので、論文書く前に何度でも読み返したい。




