先日 3月10日、豊橋技術科学大学にて言語処理学会全国大会テーマセッションの1つとして「不自然言語処理コンテスト第2弾」となる「不自然言語処理~枠に収まらない言語表現の処理」を開催した。本大会の3日目となる当日は、他に日本語入力等面白そうなセッションが目白押しの中、多数の方に聴講に来ていただき、テーマセッション提案側として嬉しい限りである。
不自然言語処理テーマセッションでの発表はいずれも興味深いもので、当日も、自分のもう1件の発表(機械翻訳セッションでの「原言語の起源に基づく潜在クラス翻字モデル」)で参加できない時間を除き全ての発表を聞かせてもらった。あまりに面白いので帰ってから予稿集も全部読んだ。自分の理解を深める目的も兼ねて、各発表のまとめとコメント等を下に書いてみた。
- E3-1 文頭固定法による効率的な回文生成
○鈴木啓輔, 佐藤理史, 駒谷和範 (名大) - E3-2 日本語常用漢字熟語の選好変化と自然言語処理
○砂岡和子 (早大), 羅鳳珠 (台湾元智大) - E3-3 「不自然言語処理コンテスト」第1回開催報告
○萩原正人 (楽天), 大原一輝 (フリー), 水野貴明 (バイドゥ), 橋本泰一 (東工大), 荒牧英治 (東大), 竹迫良範 (サイボウズ) - E3-4 ウェブからの疾病情報の大規模かつ即時的な抽出手法
○荒牧英治 (東大), 森田瑞樹 (医薬基盤研究所), 篠原(山田)恵美子, 岡瑞起 (東大) - E3-5 データ圧縮率を用いるテキストアート抽出法におけるテキストの正規化手法
○鈴木徹也 (芝浦工大) - E3-6 感情推定における若者言葉の影響
○松本和幸, 任福継 (徳島大) - E3-7 教師付き外れ値検出による新語義の発見
○新納浩幸, 佐々木稔 (茨城大) - E3-8 定型から逸脱した言語表現の分析
○土屋智行 (京大/学振) - E4-1 テキストに基づく違法有害記事の削除作業支援方式
○笠原要, 藤野昭典, 永田昌明 (NTT) - E4-2 翻字と言い換えを利用した片仮名複合語の分割
○鍜治伸裕, 喜連川優 (東大) - E4-3 アルファベット表記とカタカナ表記の対応規則の生成
○尾上徹, 梅村恭司, 岡部正幸 (豊橋技科大) - E4-4 Web上の多彩な言語表現バリエーションに対応した頑健な形態素解析
勝木健太 (京大), 笹野遼平 (東工大), ○河原大輔, 黒橋禎夫 (京大) - E4-5 大規模添削コーパスを用いた統計的機械翻訳手法による日本語誤り訂正
○水本智也, 小町守, 松本裕治 (NAIST)
「回文条件」頭から読んでも尻から読んでも同じ音
「通意条件」無理なく意味が通じること
を満たすもの。回文候補を大量に生成、通意条件を満たす候補を選択。
1. 折り返し固定法 シード文節を折り返す文節とし、回文条件を満たすように左右に伸ばす
4文節では遅すぎて高速化が必要
2. 文頭固定法 シードを文頭に固定し、回文条件を満たすように残りの文節を埋める
候補の網羅率を保ったまま高速化
文節集合のスリム化
「雨」「委」などの語構成要素、「愛育されろ」などの実際にコーパスには出現しない活用を削除
(: 回文という言葉遊びに極めて工学的に取り組んだ、純粋に知的好奇心をくすぐる研究。
質問もしたが、結局は通意条件もチェックすることになるので、回文条件と一緒に効率よくチェックできるような手法が今後必要となるだろう)
漢字の功罪 情報機器の普及により漢字の意味弁別機能の高さが好まれて積極的に使用されている
中国人の成語好き
小学生の作文にすら、80文字中に16種もの四字熟語や成句が使われている
日本人中国語学習者、在日中国人留学生に、「日本語の」常用慣用句や成語を認識しているかどうかチェック
「大所高所」「特筆大書」「多士済済」「衆議一決」などは中国語履修クラスの80%以上が認知できない
「粗製乱造」「薄利多売」「一利一害」を政治経済専攻の学生が理解できない
中国人留学生は、中国語伝来の成語の認識率が上がる
(: 一所懸命→一生懸命など、時代とともに日本で用法が独自に進化した成語、誤用などにも注目すべきとのコメント。少しサンプル数が少ないが、中国語学習者の一人として自分も中国語と日本語との成語の対応関係に時に混乱していたので、興味深く聞いた発表。)
自分の発表なので省略。
(: 不自然言語処理は日本語に特有のものなのか、他の言語でも同様の取り組みは行われているか、のコメントが出た。英語では Analytics for Noisy Unstructured Text Data (AND) というワークショップがあったりする。また、日本語ではマルチバイト文字の影響で電子テキストにおける不自然な言語現象が特に顕著だったりする。)
「風邪」を含む tweet から本当に本人が風邪をひいたものを抽出→「事実性」をアノテート
コンテキストの bag-of-words + SVM で分類
tweet 抽出結果を日本地図にマッピング、可視化。サイトは以下(UI が素晴らしい!):
今までも、これからも、日本のカゼに。エスタック ー 日本のカゼの今が見える<カゼミル> 【エスエス製薬】
また、Google Flu Trends のように、tweet からインフルエンザを予測。予測精度の比較などの話も。twitter なので話題のバーストに弱いようだ。
言語非依存のテキストアート(AA等)の抽出法。
「同じ文字が連続する→AAらしい」と仮定。ランレングス符号化の圧縮率で定式化。
幅k行からなる窓をスライドさせてテキストアートの領域を検出。識別器にはC4.5, 素性には、圧縮率、行数、バイト数を使用。
全角空白を半角2個に置き換えることによって正規化(手法1)
半角空白を追加して行の幅を揃える(手法2)
空白文字を左から削除して行の幅を揃える(手法3)
正規化手法1にだけテキストアート検出のF値の向上が見られた
(: テキストアートには台詞を含むようなものもあるので、複数行からなる窓以外の検討も必要では?あと、正規化手法は検出よりは DB 化の名寄せの際に利いてくるので、F値が上がらなかったからといって無用ではないと思う。)
「若者言葉」の増加 若者言葉による感情表現を用例から分析
Yahoo! Blog 検索から若者言葉を含む文を自動収集、10種類の感情タグを付与
「マジ」「超」は他の若者言葉と強い共起
タグの自動付与→形態素解析し、感情語および顔文字を辞書を参考にしながら抽出、SVM multiclass で分類
若者言葉を含めると判定性能が上昇。未知語の含有率の高さが感情推定失敗の原因ではない(!)
教師付きの設定(外れ値=辞書に載っていない語義)
Local Outlier Factor (LOF; 密度に基づく手法) で外れ値候補を列挙、
語義クラスター(のデータと最も近い点)とデータとの距離関係で選別
SemEval 2 の Japanese WSD タスクで評価、本手法のフィルターは有効
誤検出の原因:書き間違い(助詞の欠損)
パロディ表現=定型から逸脱した表現
「学問に王道はなし」→「学問に近道はない」「ダイエットに王道はない」etc.
「鬼に金棒」→「弁慶に薙刀」「ローソンにATM」
「NP1 に NP2 なし」の4パターンの逸脱表現を収集
Sketch Engine の JpWaC コーパス
Pattern Lattice Builder (PLB) を使って空所パターンの意味的な重要性を可視化。
(: 定型からの逸脱という言語的に解釈の難しい言語現象を扱い、言語に対する深い洞察が得られる素晴らしい研究)
有害記事削除の支援 → 有害ワード指定ではうまくいかない
新語・新しい表現が多数含まれる
有害表現の自動抽出
UUR → FN(取り逃がし)の率
目視チェック削減率 → 無害と判定されたものの率
SVM, naive bayesでの自動分類+
有害表現をIOBで自動タグ付け (YamCha, CRF++)
モバイル系CGM サイトのブログ記事・コメント 72万件
Robinsonの方法 が良い。タグ付けはCRFが優れる
(: 自分の発表と同時間だったため直接聞けなかった。原稿中に「有害表現」の例が全く無いのが残念だが、twitter 情報によると発表中ではもっと面白い例があったらしい。)
モンスターペアレント → 「モンスター」「ペアレント」→ モンペ
未知語が多いため既存の形態素解析ではうまくいかない
線形モデルに基づく構造予測モデル
素性:単語nグラム、単語の文字数、単語が NAIST-jdic に登録されているか否か
翻字のための発音モデル
– カタカナと原語の対応関係 A をEMアルゴリズムによって推定、スコア計算 (Jiampojamarn+ 2007)
– アンチョビソースパスタ を アンチョビソースのパスタ に言い換える可能性が高いならば、単語境界が存在する → 言い換え頻度を素性に
EDICTから平均化パーセプトロンを、ENAMEDICTから翻字モデルを学習
言い換えにはウェブの17奥文を用いる
F値で87.5(cf. MeCab は69.9)
(: こちらも直接聞けなかったが、非常にクオリティの高い研究。「ネコシャンプー」「ゴーヤダイエット」という和語と外来語翻字の複合語を分割するタスクは面白そうだとずっと前から、MSR にインターンに行ったころから考えていたが、同じようなモデルで解けそうである。)
カタカナによる英単語の検索 →リコールベース
カタカナ→アルファベット候補集合をたくさん生成すればよい(いずれかにヒットするから)
増田らの規則抽出アルゴリズム → 文字どうしの出現頻度表+区切りルールで、SMT のフレーズ抽出みたいな感じ これを再帰的に適用する
『8万人西洋人名よみ方綴り方辞典, 日外アソシエーツ』をデータに、学習/テストセットを10個生成
評価指標:
– 綴りの復元率 →規則を使って変換できる率
– 読みの復元率 →変換されたものに正しいものが含まれている率
– 逆綴り復元率、逆読み復元率はその逆
全ての指標において提案指標が上回る
(: こちらも直接聞けなかったが、後から梅村先生から直接説明をしていただくという贅沢な機会があった。ポイントはリコールで、検索のクエリ拡張に使う場合は間違った候補を生成することは悪影響は無いということだが、これがどこまで本当かすこし疑わしい。)
表記揺れ、連濁と反復系オノマトペ、新語・固有名詞の自動獲得については既に取り組み済み
長音化(「軽ーく」)や小文字化(「ぉぃしぃ」)、非反復系オノマトペ(「ぺっちゃり」)に対応した形態素解析。長音を削除、小文字を大文字化、オノマトペはパターン(例:HっHり、KKットなど)マッチして直接ラティスに挿入する。
非反復系オノマトペはF値0.935、長音化は約50%が改善、小文字化は77%が改善
(: 個人的「不自然言語処理」テーマセッションのベストペーパー。こういう言語的考察がしっかりしててモデルも結果も適切だ、というのが本当に良い研究なのだと思う。
ちなみに、「はけーん」は未知語モデルでやらなくてもパターン化できると思う。「AっBC」→「ABーC」他には「ケコーン」「マターリ」など。 「2文字目促音の3文字目長音化」として Wikipedia にも載っている)
日本語学習者の増加 添削の需要
– (Brockett et al. 2006) →SMT で英語の可算・不可算名詞の使い方
– 格助詞に関するものは従来研究がある
→ SMT で添削モデルを学習
lang8をクロールして日本語添削コーパスを準備
– 誤り文 → 正しい文の添削 (140万分)
– lang8 には日本語文が最も多い
形態素解析がうまく動かない
例「でもじょずじゃりません」
→文字単位で対応付け
(: この研究も面白い。自分も2点質問したが、外国人添削というのは難しくて、提示してもそれが正しいかどうか本人には分からないため、リコールよりも精度が超重要。あと、日本語の助詞の省略とか、「どっちでもよい」添削というのもあるため、確信度とともに出力できると良いかもしれない)


















