「不自然言語処理コンテスト」第2弾 開催決定!

重要なので日本語で。

今夏に開催し、おかげさまで好評をいただいた

Baidu.jp「不自然言語処理コンテスト」

ですが、第2弾の展開として、

言語処理学会第17回年次大会(NLP2011)

のテーマセッション化が決定しました。開催要項は以下の通りで、ブログ・ミニブログ・SNS 等のウェブに散見される「不自然な言語現象」に関する研究発表を募集します。

今回は「コンテスト」という形式ではなく、テーマセッションの一つという位置づけですが、よりアカデミックに立脚し、セッション当日は、不自然言語に関する処理について、認識・議論を深められたらと思っています。提案者は自分 @mhagiwara に加え、荒牧さん@ARAMAKIさん, 橋本さん@taiichi84, 村上さん@kmura, 水野さん@mizuno_takaaki です。

また、アドバイザーとして、関根先生(楽天&NYU)と竹迫さん(サイボウズ・ラボ)@takesakoにもご協力いただいています。

不自然なことばの大好きな研究者・エンジニアの皆さまのご投稿・ご参加をお待ちしています。

テーマセッション2: 不自然言語処理 枠に収まらない言語表現の処理

ウェブの発展,およびそれに伴うブログ・ミニブログ・SNS等の一次情報の増加によって,口語表現,異表記・表記ゆれ,誤字脱字等々の「不自然な言語」に対する処理は実用上ますます重要性を増しています.その他にも,変則的な固有名詞,顔文字,未知語など,実データには様々な種類の「やっかいな」言語現象が見られます.従来の新聞記事や,教科書的な自然言語処理ではとらえ切れないこれらの言語現象をどのように処理するかは,実用的なシステムにとって大きな課題の一つです.本セッションでは,「不自然言語処理(UNLP; Unnatural language processing)」というテーマのもとに,不自然言語の処理に関する研究発表,システム,デモ等に関する発表・報告を募集し,また,ディスカッションを通じて理解を深める場を設けます.

具体的には以下のようなトピックに関する研究発表を募集しますが,これだけに限りません.

* 変則的な固有表現・未知語の検出・分類
* 口語表現・オノマトペ・新語の解析・獲得
* 異表記・表記ゆれ・略語等の抽出・獲得・解消
* 顔文字・AA・絵文字の分析・抽出
* スパム検出,不正検出
* スペル訂正・文章校正(誤字脱字等の検出訂正)・可読性評価・難読化
* ブログ,ミニブログ,SNS,掲示板等を対象とした処理
* ことわざ・慣用句・回文・なぞなぞ・駄洒落等の処理・生成
* 上記各トピックに関するデモ,システム等

Posted in nlp | Leave a comment
add to hatena hatena.comment (19) add to del.icio.us (0) add to livedoor.clip (2) add to Yahoo!Bookmark (0) Total: 21

Will be presenting at Nagoya area NLP seminar

I’m going to be presenting at Nagoya area NLP seminar

名古屋地区NLPセミナー (Nagoya Area NLP Seminar)

which my ex-advisor Prof. Toyama kindly invited me to talk at. The seminar is held on Wednesday, 24th Nov.

The topic is going to be the “Lexical knowledge acquisition from unsegmented Japanese text via graph kernels.” This is basically the same topic as the talk at NLP2009 (which was awarded the outstanding presentation award at the conference, by the way), which is about a graph kernel-based algorithm “g-Monaka.” Some additional topics, e.g., how we can apply similar technologies to the Web large scale data, will be presented as well. Another presentation at the seminar is by Mr. Takamura from TITECH, and is about a mathematical model for Twitter summarization. Sounds quite interesting.

I also have a small announcement regarding the coming NLP2011 conference, which is to be held in Toyohashi, Aichi Prefecture. So stay tuned.

Posted in nlp | Leave a comment
add to hatena hatena.comment (0) add to del.icio.us (0) add to livedoor.clip (0) add to Yahoo!Bookmark (0) Total: 0

“Introduction to Natural Language Processing” published from O’Reilly Japan

I’m glad to introduce the book

O’Reilly Japan – 入門 自然言語処理

which is the translation of the original English book:

Natural Language Processing with Python – O’Reilly Media

I’ve been working on translation of this book into Japanese with my ex-colleagues at Baidu Japan, Takaaki Mizuno and Takahiro Nakayama, for almost a year.

The title of the Japanese translation (which may be translated to “Introduction to Natural Language Processing” doesn’t have “with Python” in it. This is partially because of sales reasons, and partially because we didn’t want to limit the audience only to people with Python language knowledge. This book is open to anyone interested in NLP.

Because the original English book only talks about English NLP, this time I wrote an entirely new chapter devoted to Japanese NLP from scratch.

The chapter is already freely available, under the same license condition as the original book. And we are currently working on the “back-translation” of the chapter (by the way, we are still looking for somebody who can help translate the chapter to English.

Surprisingly, the sales of the book is really good. It even got the second rank in the “Computer, IT” top sales list at Amazon.co.jp. I’d like to thank all the people who gave us warm support, especially Mr. Atsushi Ito at O’Reilly and Mr. Steven Bird, who is the first author of the original book.

Posted in japanese, nlp | Leave a comment
add to hatena hatena.comment (0) add to del.icio.us (0) add to livedoor.clip (0) add to Yahoo!Bookmark (0) Total: 0

北京生活2週目 ー 大きいことはいいことだ

アパート探しも一段落、知春路(zhi1 chun1 lu4)に無事短期用アパートを借りられ、妻も日本から北京に来て合流して、生活も安定してきた。キッチンやバス用品などを色々と買いそろえる必要があり、ホテルではないところで生活するのがいかに不便かを感じさせてくれるが、それがまた楽しかったりする。引っ越してきた直後は、テレビが壊れていたり調理道具が無かったりネットにどうやって接続するか分からなかったり色々と大変だったけど、これまた仲介の人がすごいスピードで解決してくれ、この感じがとても中国的だと思う。幸い周囲に何でもあるので、徒歩の範囲内で食事から買い物まで済んでしまう良い地域である。

出張に来ると好例の、連日の食事や飲み会、会議や人との挨拶のラッシュも一段落して、ゆっくりと論文読みや開発ができるようになった。新しい環境で新しい人たちと新しいトピックに取り組むのはとても刺激的で、まるでインターンの頃の神経が研ぎ澄まされる感じを思い出す。

金曜には同僚と北京ダック(烤鴨 kao3 ya1)名門の店、全聚德(quan2 ju4 de2)へ。行くことが決まる数日前に何の巡り合わせか妻が北京ダックのことを全力で dis っていたが、確かに始めて食べた時ほど美味しいとは思わなかった。北京ダックは切るところを見せてくれたり、自分で皮に野菜などと一緒に包んで食べるのを楽しむエンターテイメント的要素が強いと思う。ちなみに切り取った残りの鴨の骨を持ち帰る(打包 da3 bao1)ことができるのを始めて知った。家で食べたら、ただの鶏肉だと言われても気づかないかもしれない。

週末には頤和園(yi2 he2 yuan2)と国家図書館(国图 guo2 tu2)に行ってみる。頤和園は典型的な中国の庭園という感じだが、池(昆明湖 kun1 ming2 hu2)が大きく風も涼しくて良い。国家図書館の新館の閲覧室の広さはハンパ無く、5~6階分の吹き抜け空間を一望できる形で閲覧席がぐるっと囲んでいるのはただひたすら壮観だ。設備だけで言ったら東京の都立図書館や国会図書館よりも良いかもしれない。

北京に来ると、建物は大きく、車線は多く、空は広くて、東京には無い空間の広がりを感じる。「大きいことはいいことだ」という、日本よりもむしろアメリカ的な価値観を見直させてくれる。内陸部の首都も捨てたもんじゃない。

Posted in Baidu | Leave a comment
add to hatena hatena.comment (0) add to del.icio.us (0) add to livedoor.clip (0) add to Yahoo!Bookmark (0) Total: 0

けいおん!効果で大人気のAKG K701を、もっと「こうおん!しつ」で楽しむ方法 [入門者向け]

私事で恐縮だけど、我が弟がブログを始めたらしいので、ちょっと宣伝も兼ねて紹介してみる。

あなろぐ・らいふ – DUBSTEP/CLUB MUSIC総合情報ブログ

http://d.hatena.ne.jp/hagipon/

けいおん!効果で大人気のAKG K701を、もっと「こうおん!しつ」で楽しむ方法 [入門者向け]

http://d.hatena.ne.jp/hagipon/20090515/1242385781

今回はPC環境で音楽を再生する方を対象にした、AKG K701をより高音質で楽しむための方法の一部をご紹介したいと思います。

ということで、ついに、という感じである。正直な話、彼の音楽のセンス(と、オーディオ・バンド・DTM etc.も合わせた周辺知識)は自分の知る知人・友人・そしてヘタな「音楽評論家」を加えた中でも群を抜いていると思っていて、履歴書の趣味の欄に、本当の意味で堂々と「音楽鑑賞」と書けるレベルだと思う。(一方、ほとんどの人の「音楽鑑賞」は、履歴書の単なる穴埋め・ストップワードである)

こういった人にこそブログを書いて欲しいということで、「ネットで情報発信しようぜー」と一年ぐらい前から散々言っていたのだが、ついに重い腰を上げて始めたようだ(どうやら自分が twitter を始めたのにも影響されたらしい) 実家に帰るといつも、最近の音楽事情の情報交換会がすごい勢いで始まるのだが、こういう情報がネットで一般に公開されるというのはとても良いことだなーと思う。

こういう例って、まさしく

読まれる記事を書くために、文章技術よりもはるかに有効なこと

http://d.hatena.ne.jp/fromdusktildawn/20090512/p1

に書いてある、「(4)本屋とネットを探しても見つけられなかった情報を書く」にあたると思う。音楽に限らず、映画などの「レビュー・評論」いうのが、実のところ、作品そのものをレビューしてるようでいて、実は「作品にまつわるウンチク・関連情報」を語っているだけ、というのがけっこうあるが(それでいて、そういうのに限って面白いので、ついつい作品そのものを知った気になってしまう)、そういった意味で、純粋に音楽を楽しむための情報源として役に立つと思う。

そんな感じで、今日も Benga の 『Diary Of An Afro Warrior』を聞きながら、上海の地下鉄に揺られるのだった・・・。もちろん、イヤホンは去年から愛用しているAKGですよー

Posted in general, music | Leave a comment
add to hatena hatena.comment (1) add to del.icio.us (0) add to livedoor.clip (0) add to Yahoo!Bookmark (0) Total: 1

twitter はじめました

始めたら絶対にハマると分かってたので、これまで約2年間確信犯的に(←誤用)近づかないでいたtwitterだけど、長期で海外にいる今こそアウトプットの必要性をひしひしと感じているのではじめてみました。ブログにするまでもない、くだらないネタや日記的なものを更新していこうと思う。

http://twitter.com/mhagiwara

そうしたら自分が書く内容のほとんどがブログにするまでもないものであることに気づいたので、しばらくはそっち中心に更新していくかも。たぶん中国語の話が多いです。

しかし twitter がほとんどのブロガーの執筆欲を奪ってるっていうのは本当かもなー。twitter がなかったらブログ界はもっと良記事であふれるに違いない。(だらだらと雑談 or 独り言 を書きながらそれがアウトプットになってるっていうのは確かに良いかも)

Posted in Uncategorized | Leave a comment
add to hatena hatena.comment (1) add to del.icio.us (0) add to livedoor.clip (1) add to Yahoo!Bookmark (0) Total: 2

中国上海でのソフトウェア・エンジニア生活

p1010053.jpg p1010108.jpg

バイドゥ(百度)の上海研究開発センターにリロケーションして3週間経った。日本ではGW真っ盛りの週末、中国でも3.5連休(なぜ3.5連休かは後述)が取れてやっと少しゆっくりできたので、そろそろ上海でのエンジニア生活について書いてみる。

仕事について

中国側の社員は総じてみんな若い。上で3.5連休と書いたけど、実は中国の5月4日は青年節といって、28歳以下の社員はみんな半休がもらえる。上海オフィスで該当するのはマネージャ職2人を除く全員(自分も含む)らしいということで、その平均年齢の低さが分かる。でもみんなすごく優秀なのが、一緒に仕事をしているとすぐ分かる。

インターンが社員に混ざってバリバリ仕事をしているのは自分が行ったGoogleやMicrosoftと同じで、しばらく社員だと思ってたぐらい。インターンから正社員になる条件付き確率はここでもけっこう高い一方で、インターンの選考はかなり熾烈らしい。この時期、面接も随時行われていて、受付で待っている緊張した面持ちのインターン達とすれ違うと、少し応援したくなってくる。

雰囲気は、ベンチャーっぽい雰囲気の日本法人よりもさらにGoogleに近い。特に会議の雰囲気とか(でもこの辺はどっちかっていうとマネジメントの上手さによるものかも) Google(本社)の雰囲気は、どのベンチャーとも大企業とも一線を画していると思う。

言語について

英語・中国語・日本語が飛び交う社内は、自他ともに認める言語オタクとしてタマラナイ環境である。今、関わっているプロジェクトの共通言語は英語で、マネージャー級はもちろん、社内のエンジニアの英語力は総じて高いので、とても快適に仕事をさせてもらっている。下手したら、去年アメリカでインターンしていた時(上司が日本人)よりも英語しゃべってる割合はずっと高い。

でも、中国人同士で議論が白熱した時はやっぱり中国語に切り替わって自分はついて行けないし、このままでは快適に仕事が出来すぎて中国語が全然上達しないままリロケーション期間が終わって帰国する可能性がある。それじゃあなんかもったいないし、仕事以外の生活もあるので、とりあえずプライベートでは意地でも英語話さないようにしている(というか、そもそも街では英語がほとんど通じないのだけど)

日本でとりあえず中国語検定3級までは取っていって、中学卒業レベルの英語程度なら話せるのだけど、やっぱりそれじゃあ全然足りないので、語学学校や家庭教師等を同僚の助けで色々と探しているところ。上海で有名な巨大書店の上海書城上海外文書店に行ってみたのだけど、中国語学習関連の書籍がこれでもか!というほど揃っていて、勉強するモチベーション的にも最高。これは英語圏で生活するよりも全然楽しいなー。

宿について

リロケーションして最初の2週間はホテル住まいをしながら仕事+アパートを探しつつ、その後引っ越しというスケジュールだった。来て数週間で、言葉も不十分なままアパート探しは大変だなぁと思っていたら、日本で言うマンスリーマンション的なものを会社側が手配してくれたのでその心配は無かったのだった。

実は近年の上海の不動産価格の上がり様は異常のようで、家賃も下手したら東京に肩を並べるぐらいなんじゃないかと思う(実際、東京の自分のアパートより高い)。去年のインターン時のMSRもそうだったが、なんだか待遇が良くてこっちが申し訳ないぐらい。

あと、上海で、宿について気をつけたいのが「騒音」の問題だと思う。上海万博に向けて(かどうか知らないが)上海は建設ラッシュで、町中のいたるところで道や建物を、夜中・休日構わず工事していて、出来るならなるべく上の階の部屋を借りたほうが良い。たとえるなら、市全体からずっと「ゴォー」という地鳴りがしている感じ。あと、同じ階でも高架道路の方に面しているかどうかでも全然違う。

食事について

普段は昼からさっそく同僚達とぐーるぐーる回る式の中華レストランに行っているのだけど、一人あたり20元(=約300円)も出せば美味しい中華がお腹いっぱい食べられる。上海の料理は中国各地の料理と比べても日本人の口にも合うようで(辛すぎず、油っこすぎず)、食事については文句の付けようがない。住んでるアパートのキッチンが、中国らしからぬショボさ(ただの電熱プレートに、100均で買ったかのようなフライパン)なのも、自炊するモチベーションを急激に下げている一因である。

もちろん、「地球の歩き方」系のガイドブックに載っている店に適当に行ってみてもそれなりに旨い。ただしこの場合、必ずしも安いとは限らないのでちょっと注意かも。

一人の時は、街角で、日本で言う肉まん(肉包)系を1個0.5元で買ったり、街角の拉麺屋(日本式ではない)に入ったりもするけど、これも10元(=約150円)以下でお腹いっぱい食べられる。味は店やメニューによりけりだけど、今のところボラれたり、変な病気になったりした事はないので大丈夫だとおもう。

あと、朝早くバイドゥのオフィスに行くと軽い朝食が無料で出る。あと、同じビルにある施設で卓球やビリヤードで遊べたり。この辺もなんだかGoogleっぽい。(どうでも良いが、中国語で「卓球」と言うとビリヤードのことである。自分も含めて、みんなビリヤードを英語で何と言うかよく分からないので、ここだけ中国語だったり。)

生活について

アパートは地下鉄2号線の静安寺駅から歩いてすぐのところにあって、ちょっとうるさいけど、同僚いわく「上海の新宿」と言うだけあって住むには超便利なスポットである。「久光」という日系デパート+スーパーもあって、ちょっと高いが何でも揃う。一駅行くと南京西路駅(こっちは雰囲気的に「上海の銀座」にちかい)、もう一駅行くと市の中心である人民公園駅で、他の主要な場所も乗り換えてどこでも行ける。

上海は下手したら東京よりも都会で何でもあって便利だし、車が無いと基本的に生活できないアメリカと違って、自転車と地下鉄、そして、タクシー(初乗りが約150円程度と、これがまた安い)でどこでも行けるのでずっとこっちのほうが好きだな。

他にも、自転車買った話、携帯無くしてまた買った話、観光行った話、「上海の秋葉原」徐家汇の話などいろいろあるけど、よく考えたら「ソフトウェアエンジニア」全く関係ないのでこの辺で。上海においでの際はぜひご一報ください~

Posted in Baidu, general | Leave a comment
add to hatena hatena.comment (13) add to del.icio.us (0) add to livedoor.clip (1) add to Yahoo!Bookmark (0) Total: 14

学生のうちにベンチャー的雰囲気を味わっておくべき – バイドゥ(百度)での1週目

社会人1週目(正確には1週間と3日)も無事終わったので、ちょっと感想を書いてみる。

「1週間が始まったと思ったら、いつの間にか金曜日になっていた」感を味わったのは、Microsoft Researchでのインターンの時以来だと思う。その時は、「朝に相談した内容を昼に実装して夕方報告した後に夜に修正するとかいうペース」と書いたけど、研究のプロジェクトなんて、民間企業で働くことに比べたらまだまだ固定的で秩序立っていて粒度が荒いもんだなぁと感じる。

自分が所属するプロダクト事業部では毎朝(!)、企画会議が行われる。ここで全員が、今自分が担当していることの内容や、今日取り組む内容、問題点などをさらっと報告するのだけど、それは他の人たちが何やっているかを確認できたり、自分の頭の中を整理できたりするとても良い機会だと思う。それでも間に合わないぐらい、日中はやることの内容や優先度がどんどん変化していく。

3月までは、研究でやることをTO DOリストとしてPost-Itや手帳などにイチイチ書いて管理していたけど、TO DOリストを書いているヒマがあったら、仕事を片付けた方が早いので、それすらもしなくなった。TO DOリストは、来週締め切りの優先度の低い書類書きとかを備忘録的にメモしておくぐらい(NOT TO FORGETリスト?)。

たまにPC上のソフトやWebサービスなどで、優先順位付きの綺麗なTO DOリストを完璧に管理している(しようとしている)人がいるけど、講義ノートを色マーカーなどを使って完璧に取ろうとする学生と同じで、単にマメなのか、ヒマなのか、もしくはその両方なんだろうなと思う。

とにかく、小さい会社で、ビジネスが凄いスピードで回っているってこういうことなんだなー、と実感する。一言で言うと超楽しいので、学生のうちにこういった「ベンチャー的な環境で働く」ということを、いずれ大企業に就職を希望するにしても、アカデミックの道に進むことを希望するにしても、体験しておくのが良いかもしれない。自分は、前に友人とWebサービスを作ったりしてだいたい雰囲気は分かっていたので、それほど躊躇せずに挑戦することができた。実は、今の会社の雰囲気は、これまでにインターンや見学に行ったどの企業よりも、友人と3人で試行錯誤してWebサービスを作ってたときのあのワクワク感に限りなく近い。

ただし、インターン制度を提供できるような大企業では、既に業務が細分化されて秩序立っているところが多いし、インターンの課題も決まっていることも多々あるので、企業で働くというよりは学校で学ぶということに近いところがあって、なかなかそういう、ベンチャー的な雰囲気を学生のうちに体験できる機会が無いのが残念なところだけどね。

Posted in Baidu | Leave a comment
add to hatena hatena.comment (20) add to del.icio.us (0) add to livedoor.clip (2) add to Yahoo!Bookmark (0) Total: 22

査読は研究スキルを鍛えるのに良い機会

週末第2弾はACL Student Research Workshop(SRW)の査読などをこなす。

これまでに、他の人の査読を論文読んでコメント書いたりして間接的に手伝ったことはあったのだけど、自分がちゃんと担当するのは初めて。自分がやっていることズバリな内容とは少し違ったので、関連する論文等を見直していたらだいぶ時間がかかってしまって締め切りギリギリとなる。

以前のEMNLP 2008や、小町さんの査読のまとめ記事などで聞いていたが、査読者として査読内容を投稿すると、他の人の査読内容(評価点+コメント)が名前付きで見ることができる(ここだけは「匿名」ではない)。つまり、その論文に対して誰がどんな評価・コメントを下したのかが分かる。これは、自分の評価観点の確認と、論点の見落としが無いかどうかなどの確認にとても有用なのだが、同時に研究者間の評判にダイレクトに響くので、うかつに不正確な評価はできず、これが査読の質を保つための一つの要因になっていて、なかなか良くできたしくみである。

このACL SRW、このワークショップの運営や査読を通じて、主に若手研究者から構成されるプログラム委員の査読スキルや運営スキルの向上も狙えて、とても良い制度だと思う(と前から機会あるごとに人に勧めている)。ただ、このワークショップに通るぐらいの論文が書ける人なら、ACLの本会議のほうに出しても採択される可能性が高いので、なかなか棲み分けは難しいところではあるけど・・・。

夜は、これまた会社も住まいもご近所の某社の某氏と食事など。アカウント名などについて語る。自然言語処理やってる人に「名前」について語らせると止まらないのは同じ分野にいる人なら分かってもらえるかと思う(大学ではよく研究ミーティングそっちのけで「名前ウンチク披露大会」になった 笑)。「姓@baidu.com」を(当然ながら)取れた自分は幸せで、こういう細かいことが、細部に神が宿ると信じるエンジニアのモチベーションにダイレクトに響くよね、というのが今日の結論だったり。

最後に、査読についての名言を贈ります。

『ともかく査読せよ。
もし君が良い論文に当たれば、幸福になるだろう。
もし君が悪い論文に当たれば、哲学者になるだろう』
ソクラテスの名言より

実は今考えた。

Posted in general | Leave a comment
add to hatena hatena.comment (6) add to del.icio.us (0) add to livedoor.clip (2) add to Yahoo!Bookmark (0) Total: 8

飛鳥山公園 & 目黒川でお花見

1128849154_215.jpg 1128849154_116.jpg

4/13からさっそく上海の長期出張に出ることが濃厚になってきたので、早速だけど(当分の)東京暮らし最初で最後の週末を満喫中です。

今日はお花見に誘われて2件ほどハシゴ。1件目は東大でお世話になっている研究員・先生方などとご一緒して、王子の飛鳥山公園あたりでお花見。王子の駅を下りたすぐに音無川とかいう川があって、桜の綺麗な風景が続く。駅からこんなすぐに桜の名所はあるし、王子は実に良いところだと思う(実は東大に就職したら住んでみたかった場所No. 1である)

2件目は、去年の夏に東京サイクリング・ツアーでお世話になって、その後色々と交流が続いているYukikoさんのお誘いで目黒川(自分のアパートから徒歩数分の桜の名所)で夜桜を楽しんでくる。自分が東京で住まいを見つけた後になって、偶然ご近所だったことが発覚して、なんだかご縁が深いなぁという感じ。

天気もあまり良くないので、川沿いにぶらぶら歩いた後、家にお呼ばれして、他のご近所の方々と一緒に美味しい食事をいただく。こういう「宅飲み」とはちょっと違ったホームパーティー的なもの、アメリカではけっこう呼ばれていたけど、日本でやるのもけっこう良いなぁと思う。

しかし中目黒は住めば住むほど良いとこだなー。特に自分みたいな男の一人暮らしにはもってこい。出張で長期間留守にするのは名残惜しいけど、また帰ってくる時を心待ちにして自然と仕事のモチベーションも上がる日々でした。

Posted in general | 3 Comments
add to hatena hatena.comment (0) add to del.icio.us (0) add to livedoor.clip (0) add to Yahoo!Bookmark (0) Total: 0