Category Archives: language

不自然言語処理~枠に収まらない言語表現の処理(言語処理学会全国大会テーマセッション) を開催しました

先日 3月10日、豊橋技術科学大学にて言語処理学会全国大会テーマセッションの1つとして「不自然言語処理コンテスト第2弾」となる「不自然言語処理~枠に収まらない言語表現の処理」を開催した。本大会の3日目となる当日は、他に日本語入力等面白そうなセッションが目白押しの中、多数の方に聴講に来ていただき、テーマセッション提案側として嬉しい限りである。 不自然言語処理テーマセッションでの発表はいずれも興味深いもので、当日も、自分のもう1件の発表(機械翻訳セッションでの「原言語の起源に基づく潜在クラス翻字モデル」)で参加できない時間を除き全ての発表を聞かせてもらった。あまりに面白いので帰ってから予稿集も全部読んだ。自分の理解を深める目的も兼ねて、各発表のまとめとコメント等を下に書いてみた。 E3-1 文頭固定法による効率的な回文生成 ○鈴木啓輔, 佐藤理史, 駒谷和範 (名大) 「回文条件」頭から読んでも尻から読んでも同じ音 「通意条件」無理なく意味が通じること を満たすもの。回文候補を大量に生成、通意条件を満たす候補を選択。 1. 折り返し固定法 シード文節を折り返す文節とし、回文条件を満たすように左右に伸ばす 4文節では遅すぎて高速化が必要 2. 文頭固定法 シードを文頭に固定し、回文条件を満たすように残りの文節を埋める 候補の網羅率を保ったまま高速化 文節集合のスリム化 「雨」「委」などの語構成要素、「愛育されろ」などの実際にコーパスには出現しない活用を削除 (: 回文という言葉遊びに極めて工学的に取り組んだ、純粋に知的好奇心をくすぐる研究。 質問もしたが、結局は通意条件もチェックすることになるので、回文条件と一緒に効率よくチェックできるような手法が今後必要となるだろう) E3-2 日本語常用漢字熟語の選好変化と自然言語処理 ○砂岡和子 (早大), 羅鳳珠 (台湾元智大) 漢字の功罪 情報機器の普及により漢字の意味弁別機能の高さが好まれて積極的に使用されている 中国人の成語好き 小学生の作文にすら、80文字中に16種もの四字熟語や成句が使われている 日本人中国語学習者、在日中国人留学生に、「日本語の」常用慣用句や成語を認識しているかどうかチェック 「大所高所」「特筆大書」「多士済済」「衆議一決」などは中国語履修クラスの80%以上が認知できない 「粗製乱造」「薄利多売」「一利一害」を政治経済専攻の学生が理解できない 中国人留学生は、中国語伝来の成語の認識率が上がる (: … Continue reading

Posted in language, nlp, technology | Leave a comment
add to hatena hatena.comment (5) add to del.icio.us (0) add to livedoor.clip (0) add to Yahoo!Bookmark (0) Total: 5

春節の中国をゆく(3/3) ー グルメ・マカオ編

前2編(春節の中国をゆく(1/3) – 広州・言語編 春節の中国をゆく(2/3) – 文化風習編)では意識的に書かずにいたが「食は広州にあり」(食在广州 shi2zai4guang3zhou1)との言葉通り、広東は食事が本当に豊かで美味しいところだと思う。 ■ 食は広州にあり 中国の北の方では面食(餃子や馒头 man2tou2 など、小麦粉を練って作る系の食物)が主食であるのに対して、中国の南の方では、主食はお米(米饭 mi3fan4)である。どちらかと言えば南方のほうが日本人の口に合う。前に、河南省の友人宅で春節を過ごした時には水饺(shui3jiao3; 水餃子)や八宝饭(ba1bao3fan4)などをご馳走になったが、申し訳ないが個人的にはあまり口に合わなかった。 この地(広東省)の名産の一つが 腊肠 la4chang2 と呼ばれる腸詰で、基本的にはサラミソーセージと同じなのだが、独特の風味が楽しめる。切ってそのまま食べても、ご飯と一緒に炊いても風味付けになって美味しい。日本でもしばしば食べるようになった好物の一つである。 また、春節をはじめよく食べられるのが、 鸡汤 ji1tang1 すなわちチキンスープである。前回に書いた農村部で飼育した鶏を生きたまま連れて帰り、街中の精肉屋に行って処理してもらい、そのままスープを作って飲む。皆、骨付きの部分を好んで食べる。食べるのが簡単なもも肉は子供にあげるようだ。 ちなみに、農村部ではその場で豆腐を作っているところを見せてもらった。豆浆(dou4jiang1; 豆乳)を絞り、そこに石膏(shi2gao1; にがり)を入れて凝固させてできた豆腐花(dou4fu hua1)を絞る。豆乳をその場で飲ませてもらったが、これがまた新鮮で美味しい。 ■ 春節の定番軽食 春節といえば忘れてはいけないのが、家族・親戚や知人・友人などを家に招いた時におしゃべりをしながら食べる軽食である。ポピュラーなのが瓜子(gua1zi)と呼ばれる炒ったカボチャやひまわりの種である。歯を使って器用に殻を割って中身を出して食べる(自分はまだまだ練習中)。これ、ただ塩味が付いているだけで別に美味しくも何とも無いのだが、食べるのがある程度面倒くさいので、お喋りをしながらもしくはテレビを見ながらひたすら食べるのにちょうどよい。 他にも、开心果(kai1xin1guo3; ピスタチオ) や花生(hua1sheng1; 落花生) などもこのバリエーションとしてある。落花生は色々な味付けの付いているもの(多味花生; duo1wei4hua1sheng1)や煮たものもある。ちなみに落花生をまぶした煎餅である花生饼(hua1sheng1bing3)もこの地方の名物だ。 春節にちなんだグルメとしては他にも、元宵节(yuan2xiao1jie2)と呼ばれる春節の2週間後に食べる汤圆(tang1yuan2)もある。これは日本で言う白玉団子に近いもので、胡麻が入っていたりするが、甘いスープに具として入れて食べる。日本の普通のスーパーではなかなか売っていないので、我が家では白玉で代用して週末にプチお祝いをした。 ■ マカオ と、グルメの事ばかり書いていたらなんだか時間が無くなってしまったが、春節中国滞在の最後の日はマカオを観光。「半日あれば回れる」との知人の言葉通り、ほとんどの名所が歩いて回れる距離に固まっており、かなり効率よく回ることができる。一方、南の氹仔(タイパ)島まではバスで行く。关闸(guan1zha2; 出入国審査場)とホテル間は無料送迎バスが出ているので便利である。 … Continue reading

Posted in china, language | Leave a comment
add to hatena hatena.comment (0) add to del.icio.us (0) add to livedoor.clip (0) add to Yahoo!Bookmark (0) Total: 0

春節の中国をゆく(2/3) – 文化風習編

前回に引き続き春節の中国滞在日記。中国の春節には色々な風習があって興味がつきない。特に食事などは地域差もかなり多く、自分は河南省の友人宅と、今回の広東省韶关市でしか春節を過ごしたことがないので、どこまでがその地域に特有か把握し切れていないが、簡単に紹介してみたいと思う。 ■ 温泉 春節の時期の中国は寒い。だいたいの家庭には湯船が無く、温かいお湯で体を温めたいので、義父の運転する車で近くの温泉 (wen1quan2) へ。日本でいう健康センターの温水プール的なもの(大池 da4chi2)があって、そこで皆で浸かる。個人や家族単位で貸し切ることができる個室(单间 dan1jian1) もある。「シャワーを浴びる」は洗澡 (xi3zao3) だが、温かいお湯にゆっくりと浸かるのは泡 (pao4) という。「お茶を沸かす」と同じ動詞だ。 ■ 農村 旧正月の恒例行事は、普段なかなか揃わない親戚と会うこと。街の中心から離れたところに住む親戚を訪問しに行くが、そこは農村部。今回行ったのは罗围村と水口村 というところ。ここには、電気やガス、上水に頼らず、自ら野菜・魚等を栽培して自給自足の生活を営む集落がある。中国の都市部から車で1時間も走ればこういう光景をいたるところで見ることができる。 ここでの主な目的は、年越しに備えた準備、具体的には、家の門に貼る縁起の良い言葉の書かれた掛け軸(对联 dui4lian2)を貼ること。中国に行くと壁に「福」の字が逆さまに貼ってあるのを見ることがよくあるが、これはそれのバリエーション。ちなみに逆さまに貼るのは、中国語の「逆さまの福 倒福 dao4fu2」を、発音が同じ「福がやって来る 到福 dao4fu2」にかけたもの。日本のおせち料理と同じで、中国にはこのような「言葉掛け」が本当に多い。 門の両側に貼るものを对联(dui4lian2)、門の上に貼るのを横联(heng2lian2)という。また、門そのものに貼る守り神の書かれたものは门神(men2shen2)という。ここには、関羽や張飛など、三国志の登場人物を神格化したものが書かれていた。なぜ門に守り神が必要かは後の「爆竹」のところで書く。 对联そのものは、春節の時期になると街中の露天や雑貨屋等で売りだされる。こういった年越しに必要なグッズをまとめて年货(nian2huo4)という。街中では他にも、旧正月の時期の装飾用の花や樹木を売る市場である花市(hua1shi2)が良く見られる。これは特に広東に特有の風習らしい。一番ポピュラーなのが、小さいみかん(橘子 ju2zi)がなった木で、これはお金を表しているらしいが、飲食店などでも多くのところで飾られている。 ■ 爆竹 中国の旧正月に欠かせないのが、けたたましい音で鳴り響く爆竹(鞭炮 bian1pao4)である。爆竹を「鳴らす」は 放(fang4)、「点火する」は点(dian3)という動詞を使う。これがまた激しい。 中国の爆竹は、日本でお祭りの時に使われるような、細くて小さくてカラフルなものとは違い、真っ赤で太くて耳を覆いたくなるほどうるさい。小さいものでも 30cm ほどが一連になっていて、手で持つとずっしりしている。大きいものでは大人でないと抱えられないような大きな段ボールにとぐろを巻いて入っていて、伸ばすと数メートルにもなる。もちろん音もそれだけ大きいが、さらに追い打ちをかけるように、一番最後に火薬が多く入っている一層大きい「かたまり」があり、爆発し終わる瞬間に一番大きな音を出す。 爆竹は、旧正月の時期になると街中の雑貨屋等で買うことができる。爆竹や花火(烟花 yan1hua1)を専門に扱う店も出るほどだ。中国では旧正月以外の祭日や、冠婚葬祭の時にも頻繁に爆竹を使うので、そういったニーズは年中あるのだろう。 2月2日の除夕(chu2xi1; 大晦日)の日の深夜、旧暦で年が変わる瞬間には、街のあらゆるところでほぼ同時に爆竹や花火が上がり、街中が爆発音と煙で包まれる様はかなり壮観だ。当然のことながらうるさくて寝られない。まるで戦争中の市街戦のよう(生で見たことないけど)。 実は、この旧正月の時期に爆竹をひたすら鳴らすのにはれっきとした由来があり、この時期になると年兽(nian2shou4; 兽は獣の簡体字)とよばれる鬼が山から民家に下りてきて人を襲うので、火薬で大きい音で追っ払ったという昔の故事なのだそうだ。上で書いた门神もそういった鬼から我が家を守るためのものらしい。鬼は赤い色を嫌う(のと、赤は中国では縁起の良い色とされている)ので、旧正月は、お年玉袋(红包 … Continue reading

Posted in china, language | Leave a comment
add to hatena hatena.comment (0) add to del.icio.us (0) add to livedoor.clip (0) add to Yahoo!Bookmark (0) Total: 0

春節の中国をゆく(1/3) – 広州・言語編

1/30から2/6までの1週間強、中国で春節(春节; chun1jie2)休暇を過ごしてきたので、3回ぐらいに分けて、文化・風習・言語に注目しながら日記を書いてみようと思う。前回に比べて中国語も(一応)少しは進歩したので、今年は割と余裕を持って色々と見ることができた。色々と新しい単語も覚えたので、自分の記憶定着のためにもところどころに中国語のキーワードとピンインを織りまぜて書いてみた。 目的地は妻の実家、广东省韶关(shao2guan1)市始兴(shi3xing1)县。広東省の北部、内陸部で、湖南省や江西省の省境にも近い、山間の小さな町である。一般の日本人が仕事や観光では滅多に行かない所だと思う(現地で日本人に出会ったことがない)。 行くのは3回目(1回目は去年の春節、2回目は結婚式)で、まずは広東省最大の都市広州(guang3zhou1)の白云国际机场まで成田から行き、そこから高速バスもしくは火车(huo3che1; 汽車)に乗って目的地まで行く。今回は、空港に着くのが遅い時間だったことと、少し広州観光も挟みたいと思ったため、初日に広州にある妻の友人の家に一晩お世話になった。 広州の街は、前回に来た時と比べて、2010年に亚运会(ya4yun4hui4; アジア競技大会)が開かれたのが原因か、かなり街並みや路上が綺麗になった気がする。北京オリンピック、上海万博と同様で、聞いた話によると、政府からの補助金で、住宅を塗り替えたり商店の看板を刷新したりしているらしい。トップダウンで物凄い勢いで何もかも綺麗にしてしまうのはお国柄といった感じである。 広州では、まずは天河区 (tian1he2qu1) にある電脳街に行ってみる。上海の徐家汇(xu2jia1hui4) や 北京の中关村(zhong1guan1cun1) にかなり雰囲気が近い。 中国の大都市の電脳街の基本構造や、出店しているPC小売販売チェーンはどこも同じような感じがする。 ここでは、前から欲しいと思っていた、Android OS 搭載の平板电脑(ping2ban3dian4nao3; タブレット式PC)であるAocos(奥可视) QiPad N12 を買ってみる。日本円で1万円強という安さ。中国では、iPad の発売後から、雨後の筍のようにタブレットPC が出ていて、そのほとんどがOS としてWindows7 や 安卓(an1zhuo2; Android)を搭載している。「iPadのコピー商品」などど侮れなく、多くが深圳(shen1zhen4; 深セン)の会社製だそうだ。このあたり日本のメーカーは本当に後手に回っていると思う。とりあえずしばらくは電子ブックリーダーとして使ってみたい。 その後は、广州购书中心(書店センター)をまわったり。本屋をうろうろしていると最近その国や地方で何が流行っているのかが掴めるので好きだ。中国語教材は今のところ足りているので買わなかったが、子供用の中国語・英語のバイリンガル(双语 shuan1yu3)絵本がかなり充実していて、実はこれらの本、外国人の中国語学習者にかなりオススメである。(「教材は中国で買え」というのは以前に書いた通り) あと、言語マニアの自分として外せないのは、やはり現地の言語・方言事情。広東省南部のエリアは、自分にとって興味の尽きることのない多言語エリアだからである。 まず広州の言語は主に広東語(广东话 guang3dong1hua4 もしくは 粤語 yue4yu3)で、地元の人の第一言語は、香港やマカオと同様、今でも広東語である。もちろん普通话(pu3tong1hua4; 標準中国語)教育が普及しているので、若い人を中心にほとんどの人が標準語を話す。地下鉄のアナウンスも、香港と同じで、標準語、広東語、英語の3言語である。感覚的には、店で物を買ったり路上で道を聞いたりする時は、半々ぐらいの使用頻度のような気がする。中国各地や外国から観光や仕事で来る人が多いからだと思う。 目的地に至る中継地である广东省韶关市でも、第一言語は広東語である。広東語の使用地域・人口はかなり多く、話者人口としても世界の言語のトップ20に入るぐらいで、中国人は皆「中国語」という単一の言語を話すわけでは全くないのである。自分は広東語は全く分からず、標準語からの類推もほとんどできないので、このあたりでは喋れる妻にいつも頼りっぱなしである。 いっぽう、目的地の始兴に着くと、ここでは打って変わって客家话(ke4jia1hua4; ハッカ語)の方言の一種が話されている。中国語の中でも広東語とは基本的に別の方言族で、車で1時間ぐらいしか離れていないのに「山を超えたら言語が通じない」というのがリアルで体験できる。地元の人は始兴话(shi3xing1hua4)と呼んでいるが、この方言がどのぐらいの範囲で話されていて、他の方言とどのぐらい差があるかは自分は分からない。ハッカ語自体は、戦争から逃れて南下してきた客家の人たちの言葉で、広東省・福建省・江西省あたりに話者が分布しているらしい。 … Continue reading

Posted in china, language | Leave a comment
add to hatena hatena.comment (0) add to del.icio.us (0) add to livedoor.clip (0) add to Yahoo!Bookmark (0) Total: 0

中国版twitter「新浪微博」のAPIの使い方

最近(やっと)使い始めた中国版twitter「新浪微博」、フォロワーにすごい勢いで中国語を添削されたりしながらも、前の同僚を発見したりして楽しく使っている。しかしこの新浪微博、本当に良くできている。「単なるTwitterのパクリ」と思っている人はぜひとも使ってみてほしい。言語の壁さえ突破することができれば、近いうちに中国発の Web サービスが世界でヒットする日も近いかもしれない。何といっても、膨大な国内市場という後ろ盾があるからね。 さて、こうすると「APIとか使ってデータを取得してアプリ開発や自然言語処理やテキストマイニングができたら面白いなぁ」と思うのが研究者魂。ということで早速使ってみた。 英語版が無いのが残念だが、API のドキュメントはここにある。基本的に何でもできるようだ。 API文档 – 新浪微博API API を使うには、まず開発者登録、続いて、アプリケーション登録をする必要がある。もちろん、新浪微博のユーザー登録自体は済んでいるものと仮定する。まず、開発者登録は 我的应用 から入り、利用者の別(個人・企業)、開発者名、メールアドレス、IM のアカウント、電話番号、Webページを登録しよう。開発者の登録の次に、アプリケーションを登録する必要がある。次に、「创建应用」のボタンを押して、各種必要事項を入力する。必要事項には、应用名称(=アプリケーション名)、应用地址(=アドレス)、应用介绍(=紹介)、域名绑定(=ドメイン制限)、应用分类(=タイプ)、标签(=タグ)がある。とりあえず API をテストで使うだけなので適当に入力した。 登録が終わると、「应用状态(=アプリケーションの状態)」ページに遷移する。ここで、App Key と App Secret が書かれている。これはアプリケーションの認証に使うのできちんと確認できるようにしておく。 ここまで準備ができれば、まずは public timeline を取得してみる。当該 API の解説はこのページにある: Statuses/public timeline – 新浪微博API 結果を XML で取得するには、以下 URL を GET する。例えば、wget を使うなら、 … Continue reading

Posted in language | 1 Comment
add to hatena hatena.comment (17) add to del.icio.us (0) add to livedoor.clip (1) add to Yahoo!Bookmark (0) Total: 18

Why Lojban could be “the best” constructed language

Just yesterday, two other Lojibanists (@hatthin and @fotono) and I held a Lojban study group in Shinjuku, Tokyo, Japan. We planned this group in the mailing list for a couple of weeks earlier, and this was the first time for … Continue reading

Posted in language | Leave a comment
add to hatena hatena.comment (0) add to del.icio.us (0) add to livedoor.clip (0) add to Yahoo!Bookmark (0) Total: 0