Microsoft Research@シアトルでのインターンから帰ってきました。コネ・社会経験ナシの情報系大学院生が、腕一本で「世界で一番アツい会社」に就職するまでの記録
29 3月
先週末、友人4人でプチ卒業旅行として韓国旅行に行ってきた。元々はバンド一緒にやったりとかとか音楽とかで話が合って仲良くなった友人らだけど、今では仕事のこと、芸術のこと、人生のことなど深く語り合える仲間になった。韓国では、クラブ遊びに行ったり、東大門市場でゲテモノの食べ歩きしたり、夜中までカジノで遊んだり、ゲストハウスで大部屋に泊まったり、人生で初~3回目ぐらいの体験が多かった。そもそも韓国自体も2回目だし。学会で旅行にはたくさん行けるけど、教授に気を遣いながら会議に出たり観光するだけで、本当に「遊ぶ」のはなかなか難しいと思う。研究室の雰囲気自体の問題もあるんだけど、年に1度ぐらいはこうやってプライベートで旅行に行きたいかな。
一緒に行ったうちの一人が、4月から服飾を学びにイタリアのミラノに留学するそうで、ビザの話とかで色々と共感する。イタリアのビザ事情はさっぱりだけど、ペイパーワークに追われるのはどこも同じのようで、自分のインターンとほぼ同時期に出発することになる。せっかく友人が留学するのなら、訪問と卒業旅行を兼ねて、1年後ぐらいにヨーロッパ一人旅を計画してみたりする。実はヨーロッパ本土(?)にも、完全なる一人旅にもはまだ行ったことがないのでちょっと楽しみ。おそらくその時はその時で忙しくてそれどころではなくなってる、っていうのが現実かもしれないけど。
先週の東京出張+旅行で無理しすぎたせいか、帰国してから高熱で寝込む。食あたりじゃなかったのでよかったけど、COLINGの締め切りは待ってくれないのでがんばる。最近、論文を書く、っていうことは、突き詰めていけば目的じゃなくて結果なんだよな、としみじみ感じる。もちろん人によって違うだろうけど、研究者を突き動かしてるのは、芸術家が「自己を表現したい」と感じる気持ちと同じで、よく知的好奇心と呼ばれるものだけど、元を辿れば本能のようなものだと思う。それが人に認めら得れれば嬉しいけど、認められないからといって止められるものでもない。
そういう意味では、自分が言語処理やってるっていうのは「たまたま」にしか過ぎなくて、もしそうでなければ単に違う何かで自己の表現欲とか知的好奇心を満足させていただけなんじゃないかなと思う。ちょっと間違えてたら自分はスタジオ・ミュージシャンか何かになっていたのではないかと本気で疑っている。という話を前述の友人とも話していたら激しく同意された。彼も、たまたま服飾を学んでいるけど、そうでなければ単に別の何かで自己表現していただろうし、将来的にも服飾に囚われるつもりはないとのこと。日本有数のコンテストで受賞してイタリア行きが決定した優秀な彼の口から出る言葉としては興味深い。
この人は優秀だと思える人とディスカッションとかをしていると、よく「面白い」という言葉が出るのに気づく。このアプローチ面白い、とか。論文を投稿してレビューワーが「interesting」と言ってくれると無類の喜びを感じる。この「面白い(interesting)」、まったくもって主観的で意味不明な言葉なんだけど、おそらく「研究者の表現欲や知的好奇心を的確に突くような」っていう連体句の省略形だと思うようになった。そこに読者はいないし、必ずしも実用性が伴っているとも限らないけど、通したくなる論文というのはこういうものだと思う。そういう意味で研究者コミュニティっていうのはある程度自己完結的なものなのかもしれない。
20 3月
今週18日, 19日, 20日と、東大駒場で開かれた言語処理学会全国大会(NLP2008)に行ってきた。今回は他のやるべきこととの兼ね合いで発表は無し。聴講だけで行くのは初めてかも。
研究については、自分の興味のある研究が語彙・辞書のセッションに集中してた。語彙関係の自動抽出系の研究も、派手な流行り廃りは無いにしろ相変わらず盛んなようでこういう系の話がたくさん聞けるのは嬉しい限り。
大会中に、僕の類義語獲得の論文をreferしてくれている研究を3つぐらい見つけた。2~3年前ぐらいに出したもので今から見たら突っ込みどころがありまくるし、発表中での言及も従来研究として「萩原らはこうやってやってますが、これではまだまだです」みたいなものもあるんだけど、やはりこうして参照してくれるのは嬉しいものだと思う。思うに、どんどん良い研究をすればするほど、それだけで引用という形で自分だけでなく他の研究者が勝手に宣伝してくれるので、最小限の努力で波及効果が期待できる。逆に中途半端な研究をやってしまうと、(研究室内の空気的に)研究会や全国大会とかで頑張って宣伝しなければならずコストパフォーマンスが悪い上に他の研究をやる時間も減ってしまう。投資みたいに、研究にも損切りって大事だな。
一日目の夜は若手の会の懇親会。参加者がすごい人数だったけど、いろんな人と話せてよかった。最近よく思うのは、同じ研究分野の友人というのは、学生の時にどんどん作っておくべきだなということ。(特任)助教ぐらいになってくると色々と気を遣うので、純粋に同じ立場で接することのでき、多少の非礼も許されるという学生のメリットは大きいと思う。こういう小さいことが、将来共同研究とか転職とか大きなことに発展する可能性が十分にあるのでなかなかあなどれない。
二日目の夜の本会議の懇親会のほうにも出席。色んな層の人がいて楽しい。失礼ながらNYUの関根先生をこれまで拝見したことがなかったので、最初絡まれたときはよく分からなかった(笑。研究について色々議論できたのだが、興味を持ってもらえたようでよかった。Nグラム+パターンを使った関連語の獲得って、広い意味で言えば文脈に基づいた語彙関係獲得なので特有の問題も大体同じ。文脈依存性とか多義語とか。この辺はいつまで経ってもFuture Worksの域を出ないのがもどかしいところなので今後ちょっとやってみたいなぁ。
ちなみに今回の滞在は宿を取らずに、一日目の夜は上北沢の友人宅、二日目の夜は王子のnobuyuki-sさん宅にお邪魔させていただく。噂の(?)60インチ+5.1chのホームシアターを鑑賞させてもらったせいか、自分でもこういうシステムが欲しくなった・・・。ホテル代わりにお邪魔された方には極めて迷惑な話なんだけど、こうして友人宅を訪れるとそこにその人の個性が出ててとても面白いなぁと思う。
10 3月
今日は最近使い始めて意外と便利だったものについて3部立てぐらいでちょっと書いてみる。2chにも似たようなスレがあったような気がするけど気にしない。まずはPodcastから。
* 便利なので書かずにはいられない1 — Podcast
最近といっても2年ぐらい前からちょくちょく使い始めたPodcast。何を今さら感があるけど、基本的にテレビを見ない生活を続けているので情報源として欠かせない。自分のまわりで活用している人をあんまり見かけないけどお勧めですよ。一人暮らししていると、通学中、移動中、家事中など、手や目は酷使するけど耳は意外と手持ちぶさた、みたいな状況がけっこうあるので時間を取らずに「ながら情報収集」ができる点が良い。
今んところ自分が愛聴してる番組は「ESL Podcast」, 「くりぃむしちゅーのオールナイトニッポン」, 「週刊 日経トレンディ」,「長谷部瞳は日経1年生!」あたり。iTunes Music StoreのPodcastランキングを眺めるだけでも面白い番組が見つかるはず。今ならMacworld 2008でのSteve JobsのKeynote Speechが映像付きで聞けたりする。英語は極めて平易なのでMacな人はチェックしてみては。
この中でも特に「ESL Podcast」は、英語を勉強している人全員に激しくオススメできる番組で、Jeff McQuillan先生が、short conversationを通じてマターリと文法とか単語とかについて解説してくれる英語学習番組。有名すぎて解説の必要がないかも。このESL Podcast、普段はshort conversationを中心とするepisodeだけど、そのほかに週一で配信される「English Cafe」のコーナーが秀逸だと思っていて、「Tooth Fairyとは何か」「アメリカで警察官になるためには?」みたいな、アメリカ人なら当然知ってることでも外国人にはさっぱりなトピックを取りあげて、10分ぐらいかけてそれについてわざわざゆっくり解説してくれる。面白くて英語の勉強を忘れて聞き入ってしまうぐらいで、むしろこの部分「だけ」を集めたような英語教材があったらいいなあなんて思うこのごろです。
あと、日本の番組に飽きたら、ほかの国のiTMSのPodcastランキングを見てみるのも面白い。特に非英語圏だと、良質な語学番組が見つかることも。日本はアメリカほど車社会ではないのでPodcastが普及しないなんて話も聞くけど、通学時間が自転車で5分の自分でもこれだけ便利だと思ってるのでまだの人はぜひ試してみましょう。
6 3月
九十九式: [blog] 「です・ます」と「だ・である」と、ブログに向くのはどっち?
http://type99.net/2005/07/blog_21.html
自分がブログの更新をなかなか気軽にできないのは、自分がO型で「空気を読みすぎる」性格に加え、ブログを敬体(ようするにです・ます調)で書いてるから、というような気がひしひしとしてきたので今日から常体(だ・である調)に変えてみる。実際ブログ頻繁に更新してる人は常体使ってるほうが多い気がする。独り言のように気軽に書けるからだと思うけど、このあたり誰か統計取ってくれないかな。データさえあれば自然言語処理やってる人なら1時間もあればできる仕事だと思う。
昔友人と、俗に言うアルファブロガー(笑)の人たちの記事の投稿頻度や文体・文字種の特徴、リンク数などの統計情報を取って公開したらおもしろい(純粋にデータとして面白いし、アルファブロガーに近づきたい人の参考になる)んじゃないかというアイデアを話し合ったことがあるが、常体・敬体って一番簡単に把握できる文体の特徴なのでぜひとも統計取ってみたい。来年うちの研究室に入って来る人がこういうことに興味を持ってくれれば良いのだけれども、なぜかうちの研究室ではこういうミーハー(?)なことをやる人がいない。もうすこし詰めれば修士レベルなら十分研究になると思うのだけど、先生が指導しにくいからだろうか。
ACL、今回は2本出して1勝1敗だった。とはいっても、通ったのは本会議じゃなくてSRW(Student Research Workshop)のほうなので全然威張れるもんでもない。SRWは5人(!)のレビューワーから徹底的に批評・コメントをもらえるので、もし通らなかったとしても出してコメントもらうだけでも有用かも。コメントの質も高いし、レビューワー間の言ってることや点数のバラツキが異様に低いのはびっくりした(つまりinter-reviewer agreementがものすごく高い。評価の信頼性が高い証拠)。出せるのは学生のうちなので、博士課程の人とか、新しい研究ネタに対してコミュニティからの高品質なフィードバックが欲しい人とかはぜひ出してみてはどうでしょう。