不自然言語処理~枠に収まらない言語表現の処理(言語処理学会全国大会テーマセッション) を開催しました

先日 3月10日、豊橋技術科学大学にて言語処理学会全国大会テーマセッションの1つとして「不自然言語処理コンテスト第2弾」となる「不自然言語処理~枠に収まらない言語表現の処理」を開催した。本大会の3日目となる当日は、他に日本語入力等面白そうなセッションが目白押しの中、多数の方に聴講に来ていただき、テーマセッション提案側として嬉しい限りである。

不自然言語処理テーマセッションでの発表はいずれも興味深いもので、当日も、自分のもう1件の発表(機械翻訳セッションでの「原言語の起源に基づく潜在クラス翻字モデル」)で参加できない時間を除き全ての発表を聞かせてもらった。あまりに面白いので帰ってから予稿集も全部読んだ。自分の理解を深める目的も兼ねて、各発表のまとめとコメント等を下に書いてみた。

  • E3-1 文頭固定法による効率的な回文生成
    ○鈴木啓輔, 佐藤理史, 駒谷和範 (名大)
  • 「回文条件」頭から読んでも尻から読んでも同じ音
    「通意条件」無理なく意味が通じること

    を満たすもの。回文候補を大量に生成、通意条件を満たす候補を選択。

    1. 折り返し固定法 シード文節を折り返す文節とし、回文条件を満たすように左右に伸ばす
    4文節では遅すぎて高速化が必要

    2. 文頭固定法 シードを文頭に固定し、回文条件を満たすように残りの文節を埋める
    候補の網羅率を保ったまま高速化

    文節集合のスリム化
    「雨」「委」などの語構成要素、「愛育されろ」などの実際にコーパスには出現しない活用を削除

    (: 回文という言葉遊びに極めて工学的に取り組んだ、純粋に知的好奇心をくすぐる研究。
    質問もしたが、結局は通意条件もチェックすることになるので、回文条件と一緒に効率よくチェックできるような手法が今後必要となるだろう)

  • E3-2 日本語常用漢字熟語の選好変化と自然言語処理
    ○砂岡和子 (早大), 羅鳳珠 (台湾元智大)
  • 漢字の功罪 情報機器の普及により漢字の意味弁別機能の高さが好まれて積極的に使用されている

    中国人の成語好き
    小学生の作文にすら、80文字中に16種もの四字熟語や成句が使われている

    日本人中国語学習者、在日中国人留学生に、「日本語の」常用慣用句や成語を認識しているかどうかチェック

    「大所高所」「特筆大書」「多士済済」「衆議一決」などは中国語履修クラスの80%以上が認知できない
    「粗製乱造」「薄利多売」「一利一害」を政治経済専攻の学生が理解できない
    中国人留学生は、中国語伝来の成語の認識率が上がる

    (: 一所懸命→一生懸命など、時代とともに日本で用法が独自に進化した成語、誤用などにも注目すべきとのコメント。少しサンプル数が少ないが、中国語学習者の一人として自分も中国語と日本語との成語の対応関係に時に混乱していたので、興味深く聞いた発表。)

  • E3-3 「不自然言語処理コンテスト」第1回開催報告
    ○萩原正人 (楽天), 大原一輝 (フリー), 水野貴明 (バイドゥ), 橋本泰一 (東工大), 荒牧英治 (東大), 竹迫良範 (サイボウズ)
  • 自分の発表なので省略。

    (: 不自然言語処理は日本語に特有のものなのか、他の言語でも同様の取り組みは行われているか、のコメントが出た。英語では Analytics for Noisy Unstructured Text Data (AND) というワークショップがあったりする。また、日本語ではマルチバイト文字の影響で電子テキストにおける不自然な言語現象が特に顕著だったりする。)

  • E3-4 ウェブからの疾病情報の大規模かつ即時的な抽出手法
    ○荒牧英治 (東大), 森田瑞樹 (医薬基盤研究所), 篠原(山田)恵美子, 岡瑞起 (東大)
  • 「風邪」を含む tweet から本当に本人が風邪をひいたものを抽出→「事実性」をアノテート
    コンテキストの bag-of-words + SVM で分類

    tweet 抽出結果を日本地図にマッピング、可視化。サイトは以下(UI が素晴らしい!):

    今までも、これからも、日本のカゼに。エスタック ー 日本のカゼの今が見える<カゼミル> 【エスエス製薬】

    また、Google Flu Trends のように、tweet からインフルエンザを予測。予測精度の比較などの話も。twitter なので話題のバーストに弱いようだ。

    インフルくん

  • E3-5 データ圧縮率を用いるテキストアート抽出法におけるテキストの正規化手法
    ○鈴木徹也 (芝浦工大)
  • 言語非依存のテキストアート(AA等)の抽出法。
    「同じ文字が連続する→AAらしい」と仮定。ランレングス符号化の圧縮率で定式化。

    幅k行からなる窓をスライドさせてテキストアートの領域を検出。識別器にはC4.5, 素性には、圧縮率、行数、バイト数を使用。

    全角空白を半角2個に置き換えることによって正規化(手法1)
    半角空白を追加して行の幅を揃える(手法2)
    空白文字を左から削除して行の幅を揃える(手法3)

    正規化手法1にだけテキストアート検出のF値の向上が見られた

    (: テキストアートには台詞を含むようなものもあるので、複数行からなる窓以外の検討も必要では?あと、正規化手法は検出よりは DB 化の名寄せの際に利いてくるので、F値が上がらなかったからといって無用ではないと思う。)

  • E3-6 感情推定における若者言葉の影響
    ○松本和幸, 任福継 (徳島大)
  • 「若者言葉」の増加 若者言葉による感情表現を用例から分析

    Yahoo! Blog 検索から若者言葉を含む文を自動収集、10種類の感情タグを付与
    「マジ」「超」は他の若者言葉と強い共起

    タグの自動付与→形態素解析し、感情語および顔文字を辞書を参考にしながら抽出、SVM multiclass で分類
    若者言葉を含めると判定性能が上昇。未知語の含有率の高さが感情推定失敗の原因ではない(!)

  • E3-7 教師付き外れ値検出による新語義の発見
    ○新納浩幸, 佐々木稔 (茨城大)
  • 教師付きの設定(外れ値=辞書に載っていない語義)

    Local Outlier Factor (LOF; 密度に基づく手法) で外れ値候補を列挙、
    語義クラスター(のデータと最も近い点)とデータとの距離関係で選別
    SemEval 2 の Japanese WSD タスクで評価、本手法のフィルターは有効

    誤検出の原因:書き間違い(助詞の欠損)

  • E3-8 定型から逸脱した言語表現の分析
    ○土屋智行 (京大/学振)
  • パロディ表現=定型から逸脱した表現
    「学問に王道はなし」→「学問に近道はない」「ダイエットに王道はない」etc.
    「鬼に金棒」→「弁慶に薙刀」「ローソンにATM」

    「NP1 に NP2 なし」の4パターンの逸脱表現を収集

    Sketch Engine の JpWaC コーパス
    Pattern Lattice Builder (PLB) を使って空所パターンの意味的な重要性を可視化。

    (: 定型からの逸脱という言語的に解釈の難しい言語現象を扱い、言語に対する深い洞察が得られる素晴らしい研究)

  • E4-1 テキストに基づく違法有害記事の削除作業支援方式
    ○笠原要, 藤野昭典, 永田昌明 (NTT)
  • 有害記事削除の支援 → 有害ワード指定ではうまくいかない
    新語・新しい表現が多数含まれる

    有害表現の自動抽出

    UUR → FN(取り逃がし)の率
    目視チェック削減率 → 無害と判定されたものの率
    SVM, naive bayesでの自動分類+
    有害表現をIOBで自動タグ付け (YamCha, CRF++)

    モバイル系CGM サイトのブログ記事・コメント 72万件
    Robinsonの方法 が良い。タグ付けはCRFが優れる

    (: 自分の発表と同時間だったため直接聞けなかった。原稿中に「有害表現」の例が全く無いのが残念だが、twitter 情報によると発表中ではもっと面白い例があったらしい。)

  • E4-2 翻字と言い換えを利用した片仮名複合語の分割
    ○鍜治伸裕, 喜連川優 (東大)
  • モンスターペアレント → 「モンスター」「ペアレント」→ モンペ
    未知語が多いため既存の形態素解析ではうまくいかない

    線形モデルに基づく構造予測モデル
    素性:単語nグラム、単語の文字数、単語が NAIST-jdic に登録されているか否か

    翻字のための発音モデル
    – カタカナと原語の対応関係 A をEMアルゴリズムによって推定、スコア計算 (Jiampojamarn+ 2007)
    – アンチョビソースパスタ を アンチョビソースのパスタ に言い換える可能性が高いならば、単語境界が存在する → 言い換え頻度を素性に

    EDICTから平均化パーセプトロンを、ENAMEDICTから翻字モデルを学習
    言い換えにはウェブの17奥文を用いる
    F値で87.5(cf. MeCab は69.9)

    (: こちらも直接聞けなかったが、非常にクオリティの高い研究。「ネコシャンプー」「ゴーヤダイエット」という和語と外来語翻字の複合語を分割するタスクは面白そうだとずっと前から、MSR にインターンに行ったころから考えていたが、同じようなモデルで解けそうである。)

  • E4-3 アルファベット表記とカタカナ表記の対応規則の生成
    ○尾上徹, 梅村恭司, 岡部正幸 (豊橋技科大)
  • カタカナによる英単語の検索 →リコールベース
    カタカナ→アルファベット候補集合をたくさん生成すればよい(いずれかにヒットするから)

    増田らの規則抽出アルゴリズム → 文字どうしの出現頻度表+区切りルールで、SMT のフレーズ抽出みたいな感じ これを再帰的に適用する

    『8万人西洋人名よみ方綴り方辞典, 日外アソシエーツ』をデータに、学習/テストセットを10個生成

    評価指標:
    – 綴りの復元率 →規則を使って変換できる率
    – 読みの復元率 →変換されたものに正しいものが含まれている率
    – 逆綴り復元率、逆読み復元率はその逆
    全ての指標において提案指標が上回る

    (: こちらも直接聞けなかったが、後から梅村先生から直接説明をしていただくという贅沢な機会があった。ポイントはリコールで、検索のクエリ拡張に使う場合は間違った候補を生成することは悪影響は無いということだが、これがどこまで本当かすこし疑わしい。)

  • E4-4 Web上の多彩な言語表現バリエーションに対応した頑健な形態素解析
    勝木健太 (京大), 笹野遼平 (東工大), ○河原大輔, 黒橋禎夫 (京大)
  • 表記揺れ、連濁と反復系オノマトペ、新語・固有名詞の自動獲得については既に取り組み済み

    長音化(「軽ーく」)や小文字化(「ぉぃしぃ」)、非反復系オノマトペ(「ぺっちゃり」)に対応した形態素解析。長音を削除、小文字を大文字化、オノマトペはパターン(例:HっHり、KKットなど)マッチして直接ラティスに挿入する。

    非反復系オノマトペはF値0.935、長音化は約50%が改善、小文字化は77%が改善

    (: 個人的「不自然言語処理」テーマセッションのベストペーパー。こういう言語的考察がしっかりしててモデルも結果も適切だ、というのが本当に良い研究なのだと思う。

    ちなみに、「はけーん」は未知語モデルでやらなくてもパターン化できると思う。「AっBC」→「ABーC」他には「ケコーン」「マターリ」など。 「2文字目促音の3文字目長音化」として Wikipedia にも載っている

  • E4-5 大規模添削コーパスを用いた統計的機械翻訳手法による日本語誤り訂正
    ○水本智也, 小町守, 松本裕治 (NAIST)
  • 日本語学習者の増加 添削の需要
    – (Brockett et al. 2006) →SMT で英語の可算・不可算名詞の使い方
    – 格助詞に関するものは従来研究がある
    → SMT で添削モデルを学習

    lang8をクロールして日本語添削コーパスを準備
    – 誤り文 → 正しい文の添削 (140万分)
    – lang8 には日本語文が最も多い

    形態素解析がうまく動かない
    例「でもじょずじゃりません」
    →文字単位で対応付け

    (: この研究も面白い。自分も2点質問したが、外国人添削というのは難しくて、提示してもそれが正しいかどうか本人には分からないため、リコールよりも精度が超重要。あと、日本語の助詞の省略とか、「どっちでもよい」添削というのもあるため、確信度とともに出力できると良いかもしれない)

Posted in language, nlp, technology | Leave a comment
add to hatena hatena.comment (8) add to del.icio.us (0) add to livedoor.clip (0) add to Yahoo!Bookmark (0) Total: 8

春節の中国をゆく(3/3) ー グルメ・マカオ編

前2編(春節の中国をゆく(1/3) – 広州・言語編 春節の中国をゆく(2/3) – 文化風習編)では意識的に書かずにいたが「食は広州にあり」(食在广州 shi2zai4guang3zhou1)との言葉通り、広東は食事が本当に豊かで美味しいところだと思う。

■ 食は広州にあり

中国の北の方では面食(餃子や馒头 man2tou2 など、小麦粉を練って作る系の食物)が主食であるのに対して、中国の南の方では、主食はお米(米饭 mi3fan4)である。どちらかと言えば南方のほうが日本人の口に合う。前に、河南省の友人宅で春節を過ごした時には水饺(shui3jiao3; 水餃子)や八宝饭(ba1bao3fan4)などをご馳走になったが、申し訳ないが個人的にはあまり口に合わなかった。

この地(広東省)の名産の一つが 腊肠 la4chang2 と呼ばれる腸詰で、基本的にはサラミソーセージと同じなのだが、独特の風味が楽しめる。切ってそのまま食べても、ご飯と一緒に炊いても風味付けになって美味しい。日本でもしばしば食べるようになった好物の一つである。

また、春節をはじめよく食べられるのが、 鸡汤 ji1tang1 すなわちチキンスープである。前回に書いた農村部で飼育した鶏を生きたまま連れて帰り、街中の精肉屋に行って処理してもらい、そのままスープを作って飲む。皆、骨付きの部分を好んで食べる。食べるのが簡単なもも肉は子供にあげるようだ。

ちなみに、農村部ではその場で豆腐を作っているところを見せてもらった。豆浆(dou4jiang1; 豆乳)を絞り、そこに石膏(shi2gao1; にがり)を入れて凝固させてできた豆腐花(dou4fu hua1)を絞る。豆乳をその場で飲ませてもらったが、これがまた新鮮で美味しい。

■ 春節の定番軽食

春節といえば忘れてはいけないのが、家族・親戚や知人・友人などを家に招いた時におしゃべりをしながら食べる軽食である。ポピュラーなのが瓜子(gua1zi)と呼ばれる炒ったカボチャやひまわりの種である。歯を使って器用に殻を割って中身を出して食べる(自分はまだまだ練習中)。これ、ただ塩味が付いているだけで別に美味しくも何とも無いのだが、食べるのがある程度面倒くさいので、お喋りをしながらもしくはテレビを見ながらひたすら食べるのにちょうどよい。

他にも、开心果(kai1xin1guo3; ピスタチオ) や花生(hua1sheng1; 落花生) などもこのバリエーションとしてある。落花生は色々な味付けの付いているもの(多味花生; duo1wei4hua1sheng1)や煮たものもある。ちなみに落花生をまぶした煎餅である花生饼(hua1sheng1bing3)もこの地方の名物だ。

春節にちなんだグルメとしては他にも、元宵节(yuan2xiao1jie2)と呼ばれる春節の2週間後に食べる汤圆(tang1yuan2)もある。これは日本で言う白玉団子に近いもので、胡麻が入っていたりするが、甘いスープに具として入れて食べる。日本の普通のスーパーではなかなか売っていないので、我が家では白玉で代用して週末にプチお祝いをした。

■ マカオ

と、グルメの事ばかり書いていたらなんだか時間が無くなってしまったが、春節中国滞在の最後の日はマカオを観光。「半日あれば回れる」との知人の言葉通り、ほとんどの名所が歩いて回れる距離に固まっており、かなり効率よく回ることができる。一方、南の氹仔(タイパ)島まではバスで行く。关闸(guan1zha2; 出入国審査場)とホテル間は無料送迎バスが出ているので便利である。

マカオ観光については、そこまで特別なことも無いので割愛する。一点だけ、今回マカオに入境したのが、拱北口岸(gong3bei3 kou3an4)という、要するに陸地の出入国審査場なのだが、これがまた人の数が半端ない!「春節休みを利用してマカオで一遊び」と考えている大陸の中国人が多いのか、出国・入国審査ゲートに長蛇の列ができ、1,2時間待ちの状態。(10元ほどを払うと団体特別ゲートから早く通してくれるサービスもあるようだ)

日本人がマカオに行くときは香港から海路で入ることが多いようだが、特に陸路で入る場合は早く行くなど対策を取った方が良いと思う。

ちなみに行ったところでは、マカオ博物館が想像以上に良かった。閉館時間が早いので、もっと早く行ってゆっくり見ればよかったかなと公開。特にこういった多文化・多言語的な地域は成り立ちから見ていても面白い。ちなみにマカオも、香港と同じように多言語地域で、公用語は中国語(標準語)、現地語は広東語、歴史的経緯からポルトガル語が使われている。街の看板をみているだけでも飽きない。

Posted in china, language | Leave a comment
add to hatena hatena.comment (0) add to del.icio.us (0) add to livedoor.clip (0) add to Yahoo!Bookmark (0) Total: 0

春節の中国をゆく(2/3) – 文化風習編

前回に引き続き春節の中国滞在日記。中国の春節には色々な風習があって興味がつきない。特に食事などは地域差もかなり多く、自分は河南省の友人宅と、今回の広東省韶关市でしか春節を過ごしたことがないので、どこまでがその地域に特有か把握し切れていないが、簡単に紹介してみたいと思う。

■ 温泉

春節の時期の中国は寒い。だいたいの家庭には湯船が無く、温かいお湯で体を温めたいので、義父の運転する車で近くの温泉 (wen1quan2) へ。日本でいう健康センターの温水プール的なもの(大池 da4chi2)があって、そこで皆で浸かる。個人や家族単位で貸し切ることができる個室(单间 dan1jian1) もある。「シャワーを浴びる」は洗澡 (xi3zao3) だが、温かいお湯にゆっくりと浸かるのは泡 (pao4) という。「お茶を沸かす」と同じ動詞だ。

■ 農村

旧正月の恒例行事は、普段なかなか揃わない親戚と会うこと。街の中心から離れたところに住む親戚を訪問しに行くが、そこは農村部。今回行ったのは罗围村水口村 というところ。ここには、電気やガス、上水に頼らず、自ら野菜・魚等を栽培して自給自足の生活を営む集落がある。中国の都市部から車で1時間も走ればこういう光景をいたるところで見ることができる。

ここでの主な目的は、年越しに備えた準備、具体的には、家の門に貼る縁起の良い言葉の書かれた掛け軸(对联 dui4lian2)を貼ること。中国に行くと壁に「福」の字が逆さまに貼ってあるのを見ることがよくあるが、これはそれのバリエーション。ちなみに逆さまに貼るのは、中国語の「逆さまの福 倒福 dao4fu2」を、発音が同じ「福がやって来る 到福 dao4fu2」にかけたもの。日本のおせち料理と同じで、中国にはこのような「言葉掛け」が本当に多い。

門の両側に貼るものを对联(dui4lian2)、門の上に貼るのを横联(heng2lian2)という。また、門そのものに貼る守り神の書かれたものは门神(men2shen2)という。ここには、関羽や張飛など、三国志の登場人物を神格化したものが書かれていた。なぜ門に守り神が必要かは後の「爆竹」のところで書く。

对联そのものは、春節の時期になると街中の露天や雑貨屋等で売りだされる。こういった年越しに必要なグッズをまとめて年货(nian2huo4)という。街中では他にも、旧正月の時期の装飾用の花や樹木を売る市場である花市(hua1shi2)が良く見られる。これは特に広東に特有の風習らしい。一番ポピュラーなのが、小さいみかん(橘子 ju2zi)がなった木で、これはお金を表しているらしいが、飲食店などでも多くのところで飾られている。

■ 爆竹

中国の旧正月に欠かせないのが、けたたましい音で鳴り響く爆竹(鞭炮 bian1pao4)である。爆竹を「鳴らす」は 放(fang4)、「点火する」は点(dian3)という動詞を使う。これがまた激しい。

中国の爆竹は、日本でお祭りの時に使われるような、細くて小さくてカラフルなものとは違い、真っ赤で太くて耳を覆いたくなるほどうるさい。小さいものでも 30cm ほどが一連になっていて、手で持つとずっしりしている。大きいものでは大人でないと抱えられないような大きな段ボールにとぐろを巻いて入っていて、伸ばすと数メートルにもなる。もちろん音もそれだけ大きいが、さらに追い打ちをかけるように、一番最後に火薬が多く入っている一層大きい「かたまり」があり、爆発し終わる瞬間に一番大きな音を出す。

爆竹は、旧正月の時期になると街中の雑貨屋等で買うことができる。爆竹や花火(烟花 yan1hua1)を専門に扱う店も出るほどだ。中国では旧正月以外の祭日や、冠婚葬祭の時にも頻繁に爆竹を使うので、そういったニーズは年中あるのだろう。

2月2日の除夕(chu2xi1; 大晦日)の日の深夜、旧暦で年が変わる瞬間には、街のあらゆるところでほぼ同時に爆竹や花火が上がり、街中が爆発音と煙で包まれる様はかなり壮観だ。当然のことながらうるさくて寝られない。まるで戦争中の市街戦のよう(生で見たことないけど)。

実は、この旧正月の時期に爆竹をひたすら鳴らすのにはれっきとした由来があり、この時期になると年兽(nian2shou4; 兽は獣の簡体字)とよばれる鬼が山から民家に下りてきて人を襲うので、火薬で大きい音で追っ払ったという昔の故事なのだそうだ。上で書いた门神もそういった鬼から我が家を守るためのものらしい。鬼は赤い色を嫌う(のと、赤は中国では縁起の良い色とされている)ので、旧正月は、お年玉袋(红包 hong2bao1)、爆竹、对联等の飾り物などを含めてありとあらゆるものが真っ赤である。

年越しの瞬間に皆一斉に鳴らすのは、他の家で追っ払われた鬼が自分のところに来ないようにするためらしい(なので、人よりもさらに大きな音で対抗しようとするのだろうか)。自分も実家の門前(マンションなのに!)で1度やってみたが、かなり腰が引けていたと後からずっと義母にからかわれている(汗

ちなみにこの爆竹や花火で、毎年毎年中国全土では怪我人や火災がかなり発生している(数千件のオーダー)。上海、広州などの都市部では使用の制限の方向に動いている。確かに見ていると危なっかしいなぁと思うが、完全に規制されてしまったらそれはそれでちょっと寂しい気もする。

■ 獅子舞

年が明けて正月1日目(年初一 nian2chu1yi1)には、街中で獅子舞(舞狮 wu3shi1)が見られる。この獅子舞は県政府が開催する正月祝賀イベントの一環で、ごつい男たちが獅子や龍の仮装をして街中を練り歩く。県(县 xian4)の各地区(镇 zhen4)がそれぞれ異なった踊りや衣装を披露する。少数民族のグループ等、変わった衣装で見ていて飽きない。

この獅子舞イベントの見所が、「お年玉争奪戦」である。獅子舞は街を練り歩く途中で、銀行や政府機関の建物など、割と大きな施設の門前に立ち寄る。そこでは、その施設の人々が、門の上の屋根から竹竿を伸ばしてその先にお年玉袋(現金入り)を吊るして待ち構えている。もちろん特大の爆竹もセットで。獅子舞がそこにやってくると、施設の人々は爆竹をひたすら放って追っ払おうとする。獅子舞はその攻撃をかいくぐってお年玉袋に近づき、組体操的に人の梯子を作ってお年玉に手を伸ばす。見事取れればはいおめでとう、最後に一番大きな爆竹を鳴らしてクライマックス。という一連の「ショー」である。施設が大きくなればあるほど派手で、周りには大きな人だかりができる。

■ 道観

年が明けてからの好例イベントのもう一つが、初詣だ。今回の場合は、地元の道观(dao4guan4; guan4 は多音字)、すなわち道教のお寺にお参りに行く。道教と仏教と民間信仰の境はかなり曖昧らしく、知識無しで行くと普通の仏教のお寺と勘違いするかもしれない。

境内では線香をあげてお参りをする。お参り(拜 bai4)の仕方は日本の仏教とも神道とも違う(合唱ではなく手を組んでおじぎ、その後頭を地につける、を繰り返す)

ここでも相変わらず爆竹をひたすら放つおじさんが居たりするので気が抜けない。

■ 親戚

上にも書いたとおり、旧正月のメインイベントは普段なかなか集まれない親戚の大集合である。中国は親戚関係を非常に大切にすることは良く知られており、これがまたにぎやかで楽しい(そして食事とお酒が本当に美味しい!)

この時中国特有の風習が、お酒を注いで回る敬酒 (jing4jiu3) というもの。目上の人にお酒を注ぎ、一緒に盃を交わして乾杯する。この時は、その年の発展や相手の未来を祝福するような言葉を同時に交わす。ポピュラーなのが「恭喜发财 gong1xi3fa1cai2 (商売繁盛、お金が増えますように)」や「身体健康 shen1ti3jian4kang1」など。学生には「学习进步 xue2xi2jin4bu4 (学業上達)」もいい。兎年にちなんで「祝兔年好运发大财」などもアリだと教えてもらったが、自分はこのバリエーションがあまり無くてまだまだ努力が必要だと思う。

中国では基本的には酒は一人では飲まなく、人に「来!来!喝!(ほら、さあ、飲め!)」と言われて飲むか、自分から誘って乾杯して飲むものである。乾杯(干杯 gan1bei1)は文字通り酒を飲み干すことであり、調子に乗って飲んでいるとすぐに酔っ払う。もちろん、強制ではなくちゃんと断り方もある(注がれる時に物理的にブロックしたり!)ので、ちゃんと自制をしたい(自省も込めて)

ひと通り皆で飲み食いした後は、適当に喋ったりトランプ(打牌 da3pai2)をしたり麻雀(打麻将 da3ma2jiang4)をしたり。トランプは拖拉机(tuo1la1ji1; トラクター)と呼ばれる遊びのようだ。次行くときには覚えたい。

あと親戚といえば、中国語は親戚の呼び方が複雑なことで有名で、これが慣れるまで大変。日本語でも「伯父さん」と「叔父さん」で使い分けたりすることがあるようだが、中国語では、「母方/父方の、上から何番目の、おじさん/おばさん」で全て呼び方が違う。例えば、「母方の上から2番目のおじさん」は 二舅(er4jiu4) というし、「父方の年上の一番下の従兄弟」は 小哥 (xiao3ge1)と呼んだりする。ちょうど親の世代は子沢山世代であり、兄弟姉妹が平気で7人も居たりするので、顔と呼び方と発音と自分との関係を覚えるのに慣れるまでかなり苦労する。

皆でひと通り騒いだ後は、毎年恒例の集合写真をパチリ。こうやって毎年家族親戚が健康に暮らせることが一番の幸せなのはどこの国でも変わらない。

あと、旧正月とは関係ないが、結婚した時点で義母と義父の呼び方が変わる(「叔叔阿姨 おじさんおばさん」 から 「爸爸妈妈 お母さんお父さん」になる」)のは慣れないとちょっと決まりが悪い感じがする。「妈!」って普通に呼ぶが、これは日本で言うと義母を「オカン!」って呼んでるような感じ、といえば分かるだろうか。

中国では結婚すると夫・妻どちらにとっても、お互いの家は自分の実家、お互いの両親は自分の両親のような関係になる。なので妻の実家に行くのも「回家 hui2jia1」だ(このあたりの話題をもっと知りたい人はちょっと前の ChinesePod のレッスンを聞いてみると良いかも)。

とりあえず文化風習編はここまで。最後はこれまで意識的に触れなかったグルメ編を書く予定!

Posted in china, language | Leave a comment
add to hatena hatena.comment (0) add to del.icio.us (0) add to livedoor.clip (0) add to Yahoo!Bookmark (0) Total: 0

春節の中国をゆく(1/3) – 広州・言語編

1/30から2/6までの1週間強、中国で春節(春节; chun1jie2)休暇を過ごしてきたので、3回ぐらいに分けて、文化・風習・言語に注目しながら日記を書いてみようと思う。前回に比べて中国語も(一応)少しは進歩したので、今年は割と余裕を持って色々と見ることができた。色々と新しい単語も覚えたので、自分の記憶定着のためにもところどころに中国語のキーワードとピンインを織りまぜて書いてみた。

目的地は妻の実家、广东省韶关(shao2guan1)市始兴(shi3xing1)县。広東省の北部、内陸部で、湖南省や江西省の省境にも近い、山間の小さな町である。一般の日本人が仕事や観光では滅多に行かない所だと思う(現地で日本人に出会ったことがない)。

行くのは3回目(1回目は去年の春節、2回目は結婚式)で、まずは広東省最大の都市広州(guang3zhou1)の白云国际机场まで成田から行き、そこから高速バスもしくは火车(huo3che1; 汽車)に乗って目的地まで行く。今回は、空港に着くのが遅い時間だったことと、少し広州観光も挟みたいと思ったため、初日に広州にある妻の友人の家に一晩お世話になった。


広州の街は、前回に来た時と比べて、2010年に亚运会(ya4yun4hui4; アジア競技大会)が開かれたのが原因か、かなり街並みや路上が綺麗になった気がする。北京オリンピック、上海万博と同様で、聞いた話によると、政府からの補助金で、住宅を塗り替えたり商店の看板を刷新したりしているらしい。トップダウンで物凄い勢いで何もかも綺麗にしてしまうのはお国柄といった感じである。

広州では、まずは天河区 (tian1he2qu1) にある電脳街に行ってみる。上海の徐家汇(xu2jia1hui4) や 北京の中关村(zhong1guan1cun1) にかなり雰囲気が近い。
中国の大都市の電脳街の基本構造や、出店しているPC小売販売チェーンはどこも同じような感じがする。


ここでは、前から欲しいと思っていた、Android OS 搭載の平板电脑(ping2ban3dian4nao3; タブレット式PC)であるAocos(奥可视) QiPad N12 を買ってみる。日本円で1万円強という安さ。中国では、iPad の発売後から、雨後の筍のようにタブレットPC が出ていて、そのほとんどがOS としてWindows7 や 安卓(an1zhuo2; Android)を搭載している。「iPadのコピー商品」などど侮れなく、多くが深圳(shen1zhen4; 深セン)の会社製だそうだ。このあたり日本のメーカーは本当に後手に回っていると思う。とりあえずしばらくは電子ブックリーダーとして使ってみたい。

その後は、广州购书中心(書店センター)をまわったり。本屋をうろうろしていると最近その国や地方で何が流行っているのかが掴めるので好きだ。中国語教材は今のところ足りているので買わなかったが、子供用の中国語・英語のバイリンガル(双语 shuan1yu3)絵本がかなり充実していて、実はこれらの本、外国人の中国語学習者にかなりオススメである。(「教材は中国で買え」というのは以前に書いた通り

あと、言語マニアの自分として外せないのは、やはり現地の言語・方言事情。広東省南部のエリアは、自分にとって興味の尽きることのない多言語エリアだからである。

まず広州の言語は主に広東語(广东话 guang3dong1hua4 もしくは 粤語 yue4yu3)で、地元の人の第一言語は、香港やマカオと同様、今でも広東語である。もちろん普通话(pu3tong1hua4; 標準中国語)教育が普及しているので、若い人を中心にほとんどの人が標準語を話す。地下鉄のアナウンスも、香港と同じで、標準語、広東語、英語の3言語である。感覚的には、店で物を買ったり路上で道を聞いたりする時は、半々ぐらいの使用頻度のような気がする。中国各地や外国から観光や仕事で来る人が多いからだと思う。

目的地に至る中継地である广东省韶关市でも、第一言語は広東語である。広東語の使用地域・人口はかなり多く、話者人口としても世界の言語のトップ20に入るぐらいで、中国人は皆「中国語」という単一の言語を話すわけでは全くないのである。自分は広東語は全く分からず、標準語からの類推もほとんどできないので、このあたりでは喋れる妻にいつも頼りっぱなしである。

いっぽう、目的地の始兴に着くと、ここでは打って変わって客家话(ke4jia1hua4; ハッカ語)の方言の一種が話されている。中国語の中でも広東語とは基本的に別の方言族で、車で1時間ぐらいしか離れていないのに「山を超えたら言語が通じない」というのがリアルで体験できる。地元の人は始兴话(shi3xing1hua4)と呼んでいるが、この方言がどのぐらいの範囲で話されていて、他の方言とどのぐらい差があるかは自分は分からない。ハッカ語自体は、戦争から逃れて南下してきた客家の人たちの言葉で、広東省・福建省・江西省あたりに話者が分布しているらしい

始兴话を少し教えてもらったが、音節末の内破音(食 = sik)があるのと、有声唇歯摩擦音 [v] があるのが特長だと感じた。広東語よりも標準語に近いので、話を聞いていると何を話しているかが分かる時がある。次に行く時までにもう少し勉強したい(広東語とどちらを優先するかは悩みどころではあるが・・・。)

地元の人で、特に自分の親の世代以上では、標準語が上手く話せなかったりものすごく訛っている人も居て、自分が行くと、お互いにとっての「外国語」である普通话でコミュニケーションを取ってる感じで、逆に「標準語が正確(标准 biao1zhun3)ですね」と褒められることがあるぐらいである。つまり、中国の各地で訛りのある標準語が話されている状況なので、日本人を初め外国人標準語学習者はもっと自信を持ってもいいかもしれないと思った。

次回の日記は、文化風習編(2/3)とマカオ編(3/3)を予定中。色々書きたいことが多すぎて書ききれない!

Posted in china, language | Leave a comment
add to hatena hatena.comment (0) add to del.icio.us (0) add to livedoor.clip (0) add to Yahoo!Bookmark (0) Total: 0

中国版twitter「新浪微博」のAPIの使い方

最近(やっと)使い始めた中国版twitter「新浪微博」、フォロワーにすごい勢いで中国語を添削されたりしながらも、前の同僚を発見したりして楽しく使っている。しかしこの新浪微博、本当に良くできている。「単なるTwitterのパクリ」と思っている人はぜひとも使ってみてほしい。言語の壁さえ突破することができれば、近いうちに中国発の Web サービスが世界でヒットする日も近いかもしれない。何といっても、膨大な国内市場という後ろ盾があるからね。

さて、こうすると「APIとか使ってデータを取得してアプリ開発や自然言語処理やテキストマイニングができたら面白いなぁ」と思うのが研究者魂。ということで早速使ってみた。

英語版が無いのが残念だが、API のドキュメントはここにある。基本的に何でもできるようだ。

API文档 – 新浪微博API

API を使うには、まず開発者登録、続いて、アプリケーション登録をする必要がある。もちろん、新浪微博のユーザー登録自体は済んでいるものと仮定する。まず、開発者登録は

我的应用

から入り、利用者の別(個人・企業)、開発者名、メールアドレス、IM のアカウント、電話番号、Webページを登録しよう。開発者の登録の次に、アプリケーションを登録する必要がある。次に、「创建应用」のボタンを押して、各種必要事項を入力する。必要事項には、应用名称(=アプリケーション名)、应用地址(=アドレス)、应用介绍(=紹介)、域名绑定(=ドメイン制限)、应用分类(=タイプ)、标签(=タグ)がある。とりあえず API をテストで使うだけなので適当に入力した。

登録が終わると、「应用状态(=アプリケーションの状態)」ページに遷移する。ここで、App Key と App Secret が書かれている。これはアプリケーションの認証に使うのできちんと確認できるようにしておく。

ここまで準備ができれば、まずは public timeline を取得してみる。当該 API の解説はこのページにある:

Statuses/public timeline – 新浪微博API

結果を XML で取得するには、以下 URL を GET する。例えば、wget を使うなら、

wget “http://api.t.sina.com.cn/statuses/public_timeline.xml?source={appkey}”

とすればよい。{appkey}には、上の「应用状态」の画面で確認した App Key を入れる。public timeline を取得するだけならユーザー認証は必要ない。以下のような XML が返される。

<?xml version="1.0" encoding="UTF-8"?><statuses>
  <status>
    <created_at>Sat Jan 22 11:54:44 +0800 2011</created_at>
    <id>5483835765</id>
    <text>一早起来没有了昨晚的酒气,洗碗擦马桶送朋友出门。
我想起房产证还没拿,维修的音响还没拿,身份证没换。oh,有得忙了。
给力加油!</text>
    <source>
      <a href="http://t.sina.com.cn/mobile/iphone.php">iPhone
客户端</a>
    </source>
    <favorited>false</favorited>
    <truncated>false</truncated>
    <geo/>
    <in_reply_to_status_id></in_reply_to_status_id>
    <in_reply_to_user_id></in_reply_to_user_id>
    <in_reply_to_screen_name></in_reply_to_screen_name>
    <user>
      <id>1496993882</id>
      <screen_name>Teeniee</screen_name>
      <name>Teeniee</name>
      <province>44</province>
      <city>1000</city>
      <location>广东</location>
      <description>杂志人。独立摄影师。数码生活提倡者。</description>
      <url>http://teeniee.blog.163.com</url>
      <profile_image_url>http://tp3.sinaimg.cn/1496993882/50/1290704563/1
</profile_image_url>
      <domain>teen1626</domain>
      <gender>m</gender>
      <followers_count>185</followers_count>
      <friends_count>144</friends_count>
      <statuses_count>399</statuses_count>
      <favourites_count>14</favourites_count>
      <created_at>Thu Apr 08 00:00:00 +0800 2010</created_at>
      <following>false</following>
      <verified>false</verified>
      <allow_all_act_msg>false</allow_all_act_msg>
      <geo_enabled>true</geo_enabled>
    </user>
    <annotations/>
  </status>
  <status>
    <created_at>Sat Jan 22 11:54:46 +0800 2011</created_at>
    <id>5483835767</id>
    <text>回家了,回家了,</text>
    <source>
      <a href="http://t.sina.com.cn">新浪微博</a>
    </source>
    <favorited>false</favorited>
    <truncated>false</truncated>
...

次に、user timeline を使ってみる。当該 API の解説は以下のURLにある:

Statuses/user timeline – 新浪微博API

とりあえず簡単な Basic 認証による方式を使う。wget ならば、

wget –http-user={user} –http-passwd={pass} “http://api.t.sina.com.cn/statuses/user_timeline.xml?source={appkey}&user_id=11051″

となる。{user}と{pass}は、新浪微博にログインするためのあなたのパスワードだ。{appkey}は上記と同じ、”user_id=” のところには暫定的に「微博开放平台1」のユーザーID が入っているが、任意のユーザーのIDを入れる。これで、以下のような XML が返される:

<?xml version="1.0" encoding="UTF-8"?><statuses>
  <status>
    <created_at>Mon Dec 27 17:48:33 +0800 2010</created_at>
    <id>4760037013</id>
    <text>各位亲爱的开发者,感谢大家长期以来对微博开放平台的支持![呵呵]
目前,开放平台官方技术支持账号已经启动了,大家有技术相关的问题可以直接
@微博API或者给这个账号发私信,每天都会有技术人员在线为大家解答问题的~
关于审核标准、平台政策相关的问题可以@微博开放平台 再次感谢大家的支持~
</text>
    <source>
      <a href="http://t.sina.com.cn">新浪微博</a>
    </source>
    <favorited>false</favorited>
    <truncated>false</truncated>
    <geo/>
    <in_reply_to_status_id></in_reply_to_status_id>
    <in_reply_to_user_id></in_reply_to_user_id>
    <in_reply_to_screen_name></in_reply_to_screen_name>
    <user>
      <id>11051</id>
      <screen_name>微博开放平台1</screen_name>
      <name>微博开放平台1</name>
      <province>11</province>
      <city>8</city>
      <location>北京 海淀区</location>
      <description>新浪微博开放平台市场推广官方账号,如有技术问题,
请@微博API或者发私信给微博API</description>
      <url>http://open.t.sina.com.cn/</url>
      <profile_image_url>http://tp4.sinaimg.cn/11051/50/1280283165/1
</profile_image_url>
      <domain></domain>
      <gender>m</gender>
      <followers_count>262</followers_count>
      <friends_count>0</friends_count>
      <statuses_count>0</statuses_count>
      <favourites_count>0</favourites_count>
      <created_at>Wed Jan 20 00:00:00 +0800 2010</created_at>
      <following>false</following>
      <verified>false</verified>
      <allow_all_act_msg>true</allow_all_act_msg>
      <geo_enabled>true</geo_enabled>
    </user>
    <annotations/>
  </status>
  <status>
    <created_at>Wed Dec 22 17:32:29 +0800 2010</created_at>
    <id>4640348615</id>
    <text>PCworld:Facebook CEO马克·扎克伯格今天上午造访新浪总部,
并与新浪高管进行了会谈。扎克伯格谈了他对中国互联网市场的看法,并希望了解
新浪微博这一目前中国最热门的互联网产品http://sinaurl.cn/hbd1Bb</text>
    <source>
      <a href="http://t.sina.com.cn">新浪微博</a>
    </source>
    <favorited>false</favorited>

...

なお、各言語の SDK が

SDK – 新浪微博API

から手に入るので参照してみると良い。

Posted in language | 1 Comment
add to hatena hatena.comment (21) add to del.icio.us (0) add to livedoor.clip (1) add to Yahoo!Bookmark (0) Total: 22

2011年の抱負(KPI)

少し遅くなったが、2011年の抱負を書いてみた。目標は定量的に、ということで、なるべく達成度が分かるように KPI 的にしてみた。

もちろん、「研究(=仕事)をがんばる」みたいなのは当たり前なので入れてない。

  • 自然言語処理関連分野の論文を100本読む
  • 研究についての目標を定量化するのは難しいが、数で測ることができて確実に自分のためになるのはたぶんこれかなと。自分の関連トピックの論文を読んでいくのは当然だが、前回取り上げたような、全てのNLP研究者が読んでも役に立つレベルの論文をカウントして100本読む。

  • Lojbanの文法事項をひと通りマスターする
  • 前のエントリ でも書いたとおり、割と本気で、次の国際補助語はLojban だと思っている。3月までの Lojban 勉強会を活用する。機能語については辞書を引かずに文が読めるレベル。

  • 中国語の翻訳・通訳の仕事を受けてみる
  • HSK6級に合格したので、次のレベルとしては実際に人の役に立ちながら勉強を継続したい。最初はもちろんボランティアベースで。そのために必要な語学力をつける。

  • 家庭円満のために、月1で定例家族会議を設ける
  • キャリア・家庭・財政 etc. のトピックについて夫婦で定期的に話し合う場を設けて、次の月のアクションプランにする

1年後にどのぐらい達成できてたかレビューする予定!

Posted in general | Leave a comment
add to hatena hatena.comment (2) add to del.icio.us (0) add to livedoor.clip (1) add to Yahoo!Bookmark (0) Total: 3

Why Lojban could be “the best” constructed language

Just yesterday, two other Lojibanists (@hatthin and @fotono) and I held a Lojban study group in Shinjuku, Tokyo, Japan. We planned this group in the mailing list for a couple of weeks earlier, and this was the first time for us, and probably for any Lojibanist in Japan, to get together offline.

Since it was the first time, firstly we made clear our directions of the study group, deciding that the study group will start by reading the The Lojban Reference Grammar, a few chapters each time, taking turns. This document is basically the same one as the published book “The Complete Lojban Langauge,” and we may share the Japanese translation (or simpler handouts) online. Later we’ll probably start reading some easy Lojban text.

We also talked about various topics — it ranged from the difference between Lojban and Esperanto to the evolution of languages. I have to admit that I had never met such language-loving people. I had a wonderful time.

Among the topics we discussed, I’m personally interested in the differences between Esperanto and Lojban. I reflected over and over why I’m so attracted to Lojban, even though I have some experiences of studying Esperanto and personally like it pretty much, too. The most notable one is that the former is just “invented” by a single person, leaving a lot of arbitrariness, while the latter, based on logic and computer-generated gismu’s, leaves little room for change or improvement.

In other words, Esperanto is an invention, while Lojban is engineering.

The numerous “improvement proposals” to Esperanto never stop, since one cannot tell which ones are “better,” but Lojban, being a computer-generated, logical language, we are able to quantitatively tell “the best.” In that sense, Lojban is already a (almost) completed language.

Anyway, I sometimes wonder what will be the “killer applications” for Lojban, like the “pasporta servo” for Esperanto. Languages can be evaluated not only by their “completeness” by themselves but also by cultural assets that they possess, including the amount of speakers. There could be many possibilities — Lojban as an HCI language, the intermediate language for machine translation, world knowledge representation, etc. Wouldn’t it be interesting if we started something like “Pasporta Sevo in Lojban”?

Posted in language | Leave a comment
add to hatena hatena.comment (0) add to del.icio.us (0) add to livedoor.clip (0) add to Yahoo!Bookmark (0) Total: 0

自分をグローバル化する20の方法

いきなりですが、問題:
【問】イスラム教徒がもっとも多い国はどこか?
【答】A. インド B. サウジアラビア C. インドネシア D. エジプト

この問題は、自分たちがいかに固定観念に縛られているかを教えてくれる(正解を知りたい人は問題をそのまま検索エンジンに投げてみればOK)。自分は9月にこの答えである国に旅行に行っていたので答えられたが、そうでなければ単純に「イスラム=中東」という固定観念に縛られ、誤った選択肢を選んでいたと思う。

某社が声高く「グローバル化」を叫び始めるずっと前から、気づけば、今目の前にあるコンピュータ、使っているサービス・ソフトウェア、着ている衣服、食べている食材だって、ほとんどが外国産であることに気づくはず。「China Free」を究極まで追求する人は、明日から漢字を一切使わずにアルファベットだけで、全裸で飢えながら生活するしかない。自分の場合、職場でも、イスラム教を信仰するトルコ人や、ベトナム人、スリランカ人などの楽しい同僚達と日本語や英語でコミュニケーションし、食堂では中国人グループが中国語や日本語で楽しく会話をしている。

それほどまで現在の地球は相互に依存し合っている。

しかも、「国際的企業の多くは気づき始めているが、グローバルな志向はもはや理想ではなく実践の対象だ。世界的に競争の激しい業界において、「グローバルに統合された企業」になりきれない多国籍企業は長続きしないだろう」との言葉の通り、グローバル化とは、今やもはや「理想」や「憧れ」などではなく、ほぼ全ての人に取って「必然」である。

書店でたまたま手に取ったマーク・ガーゾン著『世界で生きる力 自分を本当にグローバル化する4つのステップ』が、自分の今の状況や問題意識とぴったりと合った良本だったので、特に印象的だった「世界で生きる力を身につける20の方法」を中心に書評を書いてみようと思った。

「グローバル化」の波が押し寄せている、とよく言うが、グローバル化とは何なのだろうか。企業は「グローバルな人材が欲しい」と言うが、そもそも「グローバルな人材」とはどのような能力を持った人材なのだろうか。著者はここから問題提起を始め、グローバル人材に求められる4つの能力を以下のように定義している:

  1. 1. 直視する力 — 正しく世界を見る
  2. 2. 学ぶ力 — 世界について受け入れる
  3. 3. 連帯する力 — 人間関係を構築する
  4. 4. 助けあう力 — 自分と同類ではない人たちとも協力する

つまるところグローバル化、特に「自分をグローバル化」することは、表面的で外的なことではなく、地道で内的な「行動」なのである。筆者の言葉を借りると、「自分をグローバル化するということは、冷房の温度をあげたり、特定のロックスターの声に耳を傾けたり、地元の作物を食べたり、ハイブリッドカーに乗ったり、恵まれない子どもの食事や政治犯の釈放のために小切手を切ったりすることえ得られる、パッケージ化されたエコ・アイデンティティや、しゃれたライフスタイルではない。」

twitter にも少し書いたが、真の国際協力とは、白人に対してニコニコしながら「どこから来たの?一番好きな日本料理は何?」とうわべだけの会話をすることではなく、ましてや、尖閣問題のニュースを見ながら「中国人ってのはまったく・・・」と管を巻くことではない。英語の教科書の Lesson 1 にありがちな、Mike とか David とかいう名の白人と “Nice to meet you, how are you?” と社交辞令を交わすようなシチュエーションは、ほとんどの日本人にとって現実的ではなく、おそらく片手の指で数えるほどしか起こらない。ほとんどの日本人、そしてその他の外国人にっとって、もっとも現実的な英語との遭遇、すなわちグローバル化の第一歩は、中国やインドを初めとする訛りの強い外国人と「four thousand!? too expensive!」とカタコトで値段の交渉をする時であったりする。

本当のグローバル化とは、一番身近にいる外国人と(それがどこの人であっても)仲良くなり、交流をし、問題について議論し、彼ら/彼女らが何を食べ、何が好きで、何が嫌いで、どういう「ものの考え方」をするか、というのを、肌で感じ、理解することだと思う。

「まず第一歩は、現実を認識することだ。真っ先に自分の観点を押しつけようとするのではなく、視点を内面に向け、自分のももの見方が自分の文化によっていかに理解不能な方法で形作られてきたかということを、より意識することだ」と著者は書く。

地球上のさらに多くの人が、このようなマインドセット(本書ではこれを GI – Global Intelligenceと呼ぶ)を身につければ(もしくは、少なくとも身につけようと努力をすれば)、今世界各地で起こっている様々な問題に対する見方もかなり変わるはずである。

本書では最後に、「まとめ 世界で生きる力を身につける20の方法」として、GI – Global Intelligence を上げる方法、すなわち、自分をグローバル化を挙げている:

  1. 1. 自らが変わる
  2. 2. 脳の両側を使う
  3. 3. 根源的なルーツを探る
  4. 4. 家にちゃんとドアをつけておく
  5. 5. 少数派の視点で考える
  6. 6. 学び続けることー無知でいる方法も含めて
  7. 7. 自分の世界観を事実に照らし合わせる
  8. 8. 敵を知る―徹底的に
  9. 9. 固定観念を信頼関係へと進化させる
  10. 10. マインドを広げる質問をする
  11. 11. 地球の声に耳を傾ける
  12. 12. うまくいく方法を忍耐づよく探る
  13. 13. 境界線を越えて行動する
  14. 14. 利益と価値の両方を考える
  15. 15. 遠近両方に旅する
  16. 16. 共通点を見出す
  17. 17. 複数の言語を身につける
  18. 18. 壁の向こう側を見る
  19. 19. 神聖なるものを探求する
  20. 20. 連携する

抽象的なアドバイスも多いので、ここから自分なりに具体的な行動に落としてみるとこうなる:

  1. 1. グローバル化には内面的・行動的な変化が必要であることを認識する。
  2. 2. 学び続ける – 言語・文化・宗教、共通点・相違点、多数派・少数派全てについて。知らなければ質問する。
  3. 3. 連携する – 自分と異質な人と知り合い、交流する。旅をする。一緒に何かをやる。困ったことがあれば助けあう。

重要なことなので 2 回言うと、グローバル化とは内的で地道な「行動」である。青年海外協力隊に参加したり、 NPO を立ち上げる社会起業家になったりすることは素晴らしいことだが、それだけが唯一の方法では決してない。

Posted in english, general | Leave a comment
add to hatena hatena.comment (6) add to del.icio.us (0) add to livedoor.clip (2) add to Yahoo!Bookmark (0) Total: 8

自然言語処理をやっている人なら必ず読むべき論文100

「自然言語処理をやっている人なら必ず読むべき論文 100 は何か」と言われたらどんな論文を挙げますか。

というテーマで、自然言語処理の研究者の方々に「この分野の学生が必ず読んでおくべき論文100」のリストを聞いて回ったら面白い企画になるなぁと前々から考えていた。

どの分野にも教養的に押さえておくべき重要な論文というものはあるものであり、そういうのを知らないと往々にして「モグリ」と呼ばれてしまう。

しかし、そういうのを尋ねてみたい対象の専門家や教授は、必ずしも twitter 等を活用していなかったり気軽に連絡を取れなかったりで、少し二の足を踏んでいたところだった。

ちょうどそのタイミングで、専門家による Q&Aサービス「Quora」 なるものをはてなブックマーク経由で知り、そこでこの質問を立ててしまえば簡単にこの企画が実現できることに気づいた。しかもワールドワイドで。そこで一つ立ててみた質問がこれ:

Natural Language Processing: What are the most important research papers which all NLP students should definitely read? – Quora

これまでに @nokuno さん、 @neubig さんをはじめ色々な方に回答をいただいた。そこで挙げていただいた論文をざっと貼ってみると、以下のようになる (ほとんどが @neubig さんに挙げていただいたものである)

Parsing

  • Klein & Manning: “Accurate Unlexicalized Parsing” (shows that lexicalization is not necessary to achieve reasonably good parsing accuracy)
  • Klein & Manning: “Corpus-Based Induction of Syntactic Structure: Models of Dependency and Constituency” (a revolution in unsupervised dependency parsing)
  • Nivre “Deterministic Dependency Parsing of English Text” (shows that deterministic parsing actually works quite well)
  • McDonald et al. “Non-Projective Dependency Parsing using Spanning-Tree Algorithms” (the other main method of dependency parsing, MST parsing)

Machine Translation

  • Knight “A statistical MT tutorial workbook” (easy to understand, use instead of the original Brown paper)
  • Och “The Alignment-Template Approach to Statistical Machine Translation” (foundations of phrase based systems)
  • Wu “Inversion Transduction Grammars and the Bilingual Parsing of Parallel Corpora” (arguably the first realistic method for biparsing, which is used in many systems)
  • Chiang “Hierarchical Phrase-Based Translation” (significantly improves accuracy by allowing for gappy phrases)
  • A statistical approach to machine translation” by P.Brown et al.
  • Michael Collins (2002), “Discriminative training methods for hidden markov models: Theory and experiments with perceptron algorithms”

Language Modeling

  • Goodman “A bit of progress in language modeling” (describes just about everything related to n-gram language models)
  • Teh “A Bayesian interpretation of Interpolated Kneser-Ney” (shows how to get state-of-the art accuracy in a Bayesian framework, opening the path for other applications)

Machine Learning for NLP

  • Sutton & McCallum “An introduction to conditional random fields for relational learning” (everyone should know CRFs, and this paper is the easiest to understand)
  • Knight “Bayesian Inference with Tears” (explains the general idea of bayesian techniques quite well)
  • Berg-Kirkpatrick et al. “Painless Unsupervised Learning with Features” (this is from this year and thus a bit of a gamble, but this has the potential to bring the power of discriminative methods to unsupervised learning)

Automatic Text Summarization

  • J. Clarke and M. Lapata. Modeling Compression with Discourse Constraints. EMNLP-CoNLL 2007. (shows importance of joint inference)
  • K. Knight and D. Marcu. Summarization beyond sentence extraction. Artificial Intelligence 139, 2002. (opens the door to statistical approach to sentence compression)
  • R. McDonald. A Study of Global Inference Algorithms in Multi-Document Summarization ECIR 2007. (formulates summarization task as global optimization problem using integer linear programming)
  • W. Yih et al. Multi-Document Summarization by Maximizing Informative Content-Words. IJCAI 2007. (introduces stack decoding to this field)

HMM

  • Lawrence R. Rabiner “A tutorial on Hidden Markov Models and selected applications in speech recognition”

LSI / PLSI

  • Latent Semantic Analysis by Dreewester, Dumais, and Harshman
  • Probabilistic Latent Semantic Analysis, by Thomas Hofmann

【追記】以下、@mamorukさんから追記いただいたもの。ありがとうございました。

Information Extraction

  • Hearst. Automatic Acquisition of Hyponyms from Large Text Corpora. COLING 1992. (The very first paper for all the bootstrapping methods for NLP. It is a hypothetical work in a sense that it doesn’t give experimental results, but it influenced it’s followers a lot.)
  • Collins and Singer. Unsupervised Models for Named Entity Classification. EMNLP 1999. (It applies several variants of co-training like IE methods to NER task and gives the motivation why they did so. Students can learn the logic from this work for writing a good research paper in NLP.)

Computational Semantics

  • Gildea and Jurafsky. Automatic Labeling of Semantic Roles. Computational Linguistics 2002. (It opened up the trends in NLP for semantic role labeling, followed by several CoNLL shared tasks dedicated for SRL. It shows how linguistics and engineering can collaborate with each other. It has a shorter version in ACL 2000.)
  • Pantel and Lin. Discovering Word Senses from Text. KDD 2002. (Supervised WSD has been explored a lot in the early 00′s thanks to the senseval workshop, but a few system actually benefits from WSD because manually crafted sense mappings are hard to obtain. These days we see a lot of evidence that unsupervised clustering improves NLP tasks such as NER, parsing, SRL, etc, and this work is one of the roots of unsupervised clustering of words)

このように分野ごとに2,3ずつ挙げていったら簡単に 100 ぐらいは行きそうである。まだまだ回答を募集中なので、われこそはと思う方はぜひ回答いただければ幸いである。自分も少し追加してリストを完成させたい。

余談、なのか本題なのか分からないが、この専門家による Q&Aサービス「Quora」は自分の中で今年一番のヒットである。先日、某知人に「今年一番面白かったWebサービスは?」と聞かれてうまく答えられずにいたのだが、今なら自信を持って「Quora」と答えられるほどである。

このサービス、一言で言えば単なるQ&Aサービスなのだが、それでは片付けられない色々な魅力がある。Q&A を軸にした「高品質知識データベース」を構築しているようにも見える。質問や回答の質が高いので、自分の興味のあるトピックをフォローするだけで面白い質問が目に入ってきて、気づいたら何時間でも読んでしまう。主な魅力を挙げておくと:

- 「質の高い質問・回答を提供する」ことを至上の目的としている。
- 実名制、かつ、各トピックに応じた肩書きを書ける(例:NLPのトピックには「NLP経験○年」などと書ける)ので、質の高い回答を提供するモチベーションが自然と上がる。
- 他人の質問・回答を、誰ても編集できる。これにより、質問・回答をブラッシュアップしてさらに見やすく、分かりやすくなるように協力できる。
- 回答に対する vote, thank, comment 機能により質の高い回答をフィルタリング、コミュニケーションを促進する仕組みが整っている。
- 自分の質問・回答を編集(添削)してもらうことにより、英語力がアップする。

twitter でも書いたが、「Quora」に対するコメントで「日本版・日本語版が欲しい」というコメントがたくさん見られたが、日本語に囲い込んだ時点でこの質と量は確保できないと思うし、それによって知識がガラパゴスの中に閉じてしまうことを憂慮している。英語という壁を考えてもぜひそのまま参加してみることをオススメする。

告知

今週土曜日(12月18日)に第3回楽天研究開発シンポジウムが開催されます。楽天データを使った研究発表である「データチャレンジ」や、パネルディスカッション「Open Dataが切り開く新時代の研究・開発」など、魅力的なプログラムをご用意しています。自分もスタッフとして運営に関わっております。皆さまの積極的なご参加をお待ちしております。

Posted in nlp | Leave a comment
add to hatena hatena.comment (193) add to del.icio.us (0) add to livedoor.clip (9) add to Yahoo!Bookmark (1) Total: 203

Unnatural Language Processing Contest 2nd will be held at NLP2011

I’m glad to announce that the second unnatural language processing contest will be held at

言語処理学会第17回年次大会(NLP2011)

as a theme session, which is the sequel of Baidu.jp unnatural language processing contest:

Baidu.jp 不自然言語処理コンテスト

successfully held this summer. The “call for papers” is as follows. We seek for your participation and paper submission regarding unnatural language phenomena seen on blogs, mini-blogs, SNSs, and so on.

This time, it is not exactly a contest, but a theme session. I hope we can have deeper academic discussion regarding processing of unnatural language. The proposers of this theme session are: Mr Aramaki @ARAMAKI, Mr. Hashimoto @taiichi84, Mr. Murakami @kmura, Mr. Mizuno @mizuno_takaaki and me @mhagiwara. We also invited two advisers: Prof. Sekine (Rakuten & NYU) and Mr. Takesako (at Cybozu Lab) @takesako.

We are looking forward to the submission from any engineers and researchers who love “unnatural language”!

Theme session 2: UnNatural Language Processing: Processing out-of-box linguistic expressions

As the development of the Web and resulting increase of primary information source such as blogs, mini-blogs, SNSs, and so on, the processing of “unnatural language” such as informal expressions, variations, spelling errors etc. is more and more important. We are also seeing troublesome language phenomena such as irregular proper nouns, emoticons, unknown words in real data. It is one of the important issues for practical systems how to deal with such kind of language phenomena which cannot be captured by conventional “text-book” natural language processing.

In this session, we invite papers and presentations of research result, systems and demos regarding “UnNatural Language Processing; UNLP”. Also, we’ll have a chance to deepen our understanding through discussion.

The topics include, but not limited to:
- Recognition & classification of irregular proper nouns, onomatopoeia, and novel words.
- Extraction and normalization of spelling variations and abbreviations.
- Analysis and extraction of emoticons and ascii arts.
- Spam / fraud detection
- Spelling correction, proofreading, readability evaluation, obfuscation
- Processing of blog, mini-blog, SNSs, BBS, etc.
- Processing and generation of proverbs, idioms, anagram, riddles, jokes
- Demos, systems etc. of these topics

Posted in nlp | Leave a comment
add to hatena hatena.comment (1) add to del.icio.us (0) add to livedoor.clip (0) add to Yahoo!Bookmark (0) Total: 1