バイドゥ(百度)株式会社で働くR&Dエンジニアとして、世界一楽しい検索エンジンを作っています。情報系大学院生が、腕一本で「世界で一番アツい会社」に就職するまで&してからの記録。
19 3月
(写真:香港大学から見た高層アパート群と、ヴィクトリア・ピークからの夜景)
週末から今日にかけて、研究室で参加している
日本法令翻訳プロジェクト
http://www.kl.i.is.nagoya-u.ac.jp/told/
の関係で香港大学を訪問していました。
自分は法律文に統計的自然言語処理を適用する話について研究紹介。基本的には、去年の夏に参加した、法律情報学の国際ワークショップJURISIN 2008で発表した内容と同じ。前にも書いたけど、日本の法律文というのは定型性が高いので、自然言語処理の分野で提案された統計的手法などを適用したら嬉しいよね、という話。
もう一つの研究紹介は、小川先生のBilingual KWICで、単語のアラインメントをさせながらパラレルコーパスをKWIC形式で検索できるツールである。KWICとアラインメントという、どちらもそれ単体では既に枯れた技術だが、それを組み合わせるとものすごく便利になるよ、という話の好例だと思う。
この「対応単語がわかるパラレルコーパス検索エンジン」、shimaさんのブログのエントリ:
外国語学習に役立つ、対応単語がわかるパラレルコーパス検索エンジン「LINEAR B」
http://w-it.jp/shima/2009/03/linear_b.html
には、「どなたか英語<–>日本語あたりで似たようなシステムを作ってみてはいかがでしょう?」とあるが、既にここにあるよ~!ということで紹介してみました。
この「Bilingual KWIC」、今コーパスとしては法律文が入っているが、一般のパラレルコーパスを入れて英語学習者向けに公開したらウケるのは間違いない。法律関係の用語にはめっぽう強く、例えば「証券会社」と入れるとちゃんと「securities corporation」「securities company」といった訳語を推定してくれて賢い。
香港について
今回、香港に行ったのは初めてだったけど、歴史的経緯のせいで、英語、広東語、標準中国語(普通話)が街中に飛び交う、なかなかマルチリンガルな地域である。それだけで自他ともに認める自分のような「語学マニア」にはたまらない。たとえば、地下鉄のアナウンスは、広東語、普通話、英語の順に3言語で同じ内容を言うのでなんだか長ったらしくて騒がしいが、聞いてみると単に「列車とホームの隙間にご注意ください」ぐらいしか言っていなかったりする。
そのためあって、法律の言語関係は色々大変とのことで、カナダ(英語+フランス語)と同様に中国語と英語で、最初からパラレルに法律が書かれるそうな。
英語の通用範囲はかなり広いし、標準中国語もけっこう通じるようだし(拙いフレーズを買い物するときに少し使ってみたが、こっちのほうが地元の店の人には通用するみたい)、何より書いてあるのが繁体字なので、標準中国語で使われる簡体字よりも日本人に優しいというのが良い。アジアの典型的な(カオスな)町並みと近代的なビル群が混ざったような風景は面白いし、言葉の関係もあって海外旅行初心者には良い目的地だと思う(あと料理がホントおいしい!)。そのためあって、空港まで迎えに来てくれた弟夫婦に激しくオススメしておいた。
2 Responses for "対応単語がわかるパラレルコーパス検索エンジン、あります。"
なるほど、すでにあったんですね。LinearBは企業としてやっているみたいなので、こういうアプリケーションはニーズがあるんでしょうね。KWICまでついていますし、これからが楽しみです。
なるほど、企業でやってたのですか。ニーズがあるのでドメインとマーケティングの仕方によってはけっこうウケそうですね。うちもがんばらないと。
Leave a reply