Microsoft Research@シアトルでのインターンから帰ってきました。コネ・社会経験ナシの情報系大学院生が、腕一本で「世界で一番アツい会社」に就職するまでの記録
9 4月
COLINGに原稿を提出してほっとしたのもつかの間、人工知能学会全国大会の付属ワークショップJURISIN 2008
http://www.ntt.dis.titech.ac.jp/jurisin2008/
に出すための実験と原稿書きにとりかかる。なにせインターン出発前のこの忙しい時期で、もともと出すのはあんまり乗り気じゃなかったのだが、研究室の先生が委員で、「法律情報学+統計的自然言語処理」で一発殴り込みをかけたいという想いから、締め切りがExtendされてから!5日間で、アルゴリズム考えて実験やって論文出すという急行スケジュールで滑り込む。おかげでまた週末が一つ研究で潰れてしまった・・。
内容は、分かち書きされてない、長い日本語文書(今回は法律文書)から特定の意味カテゴリに属する単語群をブートストラップ的に獲得するにはどうしたら良いか?という話。具体的には、研究室で公開している法令翻訳用の標準対訳辞書に載せるような重要語を自動的に獲得するタスク。一部の重要語は既に分かっているので、それを種にしてブートストラップ的に増やしていきましょう、というアイデアに基づいている。
アルゴリズムは基本的にEspressoやTchaiに基づいていて、文脈パターンの作り方とreliabilityの計算のしかたがカギ。内容的には小粒な話なんだけど性能がものすごく良いので、法律情報処理の分野に殴り込みをかける目的としては十分だったと思う。日本の法律は、書かれている文体の定型性が非常に強く(というか、法制執務にかかわる人は、法律を書く際に過去の法律を参照して同じ定型表現を用いて書くように厳しく教育されるらしい)、自然言語処理技術がかなり適用しやすく、かつ良い結果が得られやすい傾向にある。なかなか面白い応用分野だと思う。
そういえば弾さんが、前ブログでプログラムを書くよりも文書を書くほうが頭を使う、とかいうことをちらっと書いていた気がするが、全く同感。プログラムは、調子に乗って一日に数百行~千数百行でも書けてしまうが、文章というのはなぜか時間に対して線形の量しか書けないんだよな。
自分が文書(この場合、英語論文に限るが)を書くスピードというのはこれまでの経験上、驚くほど均一的で、予想可能で、そして遅い。その平均スピードというのが、ACLの2段組フォーマットでぴったり1ページ/日で、だいたい国際学会は最大8ページぐらいが相場なので、締め切りの1週間前にはスタイルファイルをダウンロードして書き始めないと大変なことになる。もちろん、実験を進めたり、足らないデータを補足したりしながら書くので完全に一定ではないが、平均すると限りなくこのスピードに近い。今回のはLNCSのフォーマットだから1ページの分量がかなり少ないとは言え、10ページを4日ぐらいで書いたのでかなりはぁはぁな感じだった。文章書きは得意だし嫌いじゃないけど、プログラムとはまた別の頭の部分を使うので、筆が進まないときは一向に進まないし、書いた後の疲労感も文章のほうが圧倒的に強い。もっと会話をするようにすらすらと文章を書ける人になりたいものである。
Leave a reply