「自然言語処理をやっている人なら必ず読むべき論文 100 は何か」と言われたらどんな論文を挙げますか。
というテーマで、自然言語処理の研究者の方々に「この分野の学生が必ず読んでおくべき論文100」のリストを聞いて回ったら面白い企画になるなぁと前々から考えていた。
どの分野にも教養的に押さえておくべき重要な論文というものはあるものであり、そういうのを知らないと往々にして「モグリ」と呼ばれてしまう。
しかし、そういうのを尋ねてみたい対象の専門家や教授は、必ずしも twitter 等を活用していなかったり気軽に連絡を取れなかったりで、少し二の足を踏んでいたところだった。
ちょうどそのタイミングで、専門家による Q&Aサービス「Quora」 なるものをはてなブックマーク経由で知り、そこでこの質問を立ててしまえば簡単にこの企画が実現できることに気づいた。しかもワールドワイドで。そこで一つ立ててみた質問がこれ:
これまでに @nokuno さん、 @neubig さんをはじめ色々な方に回答をいただいた。そこで挙げていただいた論文をざっと貼ってみると、以下のようになる (ほとんどが @neubig さんに挙げていただいたものである)
Parsing
- Klein & Manning: “Accurate Unlexicalized Parsing” (shows that lexicalization is not necessary to achieve reasonably good parsing accuracy)
- Klein & Manning: “Corpus-Based Induction of Syntactic Structure: Models of Dependency and Constituency” (a revolution in unsupervised dependency parsing)
- Nivre “Deterministic Dependency Parsing of English Text” (shows that deterministic parsing actually works quite well)
- McDonald et al. “Non-Projective Dependency Parsing using Spanning-Tree Algorithms” (the other main method of dependency parsing, MST parsing)
Machine Translation
- Knight “A statistical MT tutorial workbook” (easy to understand, use instead of the original Brown paper)
- Och “The Alignment-Template Approach to Statistical Machine Translation” (foundations of phrase based systems)
- Wu “Inversion Transduction Grammars and the Bilingual Parsing of Parallel Corpora” (arguably the first realistic method for biparsing, which is used in many systems)
- Chiang “Hierarchical Phrase-Based Translation” (significantly improves accuracy by allowing for gappy phrases)
- A statistical approach to machine translation” by P.Brown et al.
- Michael Collins (2002), “Discriminative training methods for hidden markov models: Theory and experiments with perceptron algorithms”
Language Modeling
- Goodman “A bit of progress in language modeling” (describes just about everything related to n-gram language models)
- Teh “A Bayesian interpretation of Interpolated Kneser-Ney” (shows how to get state-of-the art accuracy in a Bayesian framework, opening the path for other applications)
Machine Learning for NLP
- Sutton & McCallum “An introduction to conditional random fields for relational learning” (everyone should know CRFs, and this paper is the easiest to understand)
- Knight “Bayesian Inference with Tears” (explains the general idea of bayesian techniques quite well)
- Berg-Kirkpatrick et al. “Painless Unsupervised Learning with Features” (this is from this year and thus a bit of a gamble, but this has the potential to bring the power of discriminative methods to unsupervised learning)
Automatic Text Summarization
- J. Clarke and M. Lapata. Modeling Compression with Discourse Constraints. EMNLP-CoNLL 2007. (shows importance of joint inference)
- K. Knight and D. Marcu. Summarization beyond sentence extraction. Artificial Intelligence 139, 2002. (opens the door to statistical approach to sentence compression)
- R. McDonald. A Study of Global Inference Algorithms in Multi-Document Summarization ECIR 2007. (formulates summarization task as global optimization problem using integer linear programming)
- W. Yih et al. Multi-Document Summarization by Maximizing Informative Content-Words. IJCAI 2007. (introduces stack decoding to this field)
HMM
- Lawrence R. Rabiner “A tutorial on Hidden Markov Models and selected applications in speech recognition”
LSI / PLSI
- Latent Semantic Analysis by Dreewester, Dumais, and Harshman
- Probabilistic Latent Semantic Analysis, by Thomas Hofmann
【追記】以下、@mamorukさんから追記いただいたもの。ありがとうございました。
Information Extraction
- Hearst. Automatic Acquisition of Hyponyms from Large Text Corpora. COLING 1992. (The very first paper for all the bootstrapping methods for NLP. It is a hypothetical work in a sense that it doesn’t give experimental results, but it influenced it’s followers a lot.)
- Collins and Singer. Unsupervised Models for Named Entity Classification. EMNLP 1999. (It applies several variants of co-training like IE methods to NER task and gives the motivation why they did so. Students can learn the logic from this work for writing a good research paper in NLP.)
Computational Semantics
- Gildea and Jurafsky. Automatic Labeling of Semantic Roles. Computational Linguistics 2002. (It opened up the trends in NLP for semantic role labeling, followed by several CoNLL shared tasks dedicated for SRL. It shows how linguistics and engineering can collaborate with each other. It has a shorter version in ACL 2000.)
- Pantel and Lin. Discovering Word Senses from Text. KDD 2002. (Supervised WSD has been explored a lot in the early 00′s thanks to the senseval workshop, but a few system actually benefits from WSD because manually crafted sense mappings are hard to obtain. These days we see a lot of evidence that unsupervised clustering improves NLP tasks such as NER, parsing, SRL, etc, and this work is one of the roots of unsupervised clustering of words)
このように分野ごとに2,3ずつ挙げていったら簡単に 100 ぐらいは行きそうである。まだまだ回答を募集中なので、われこそはと思う方はぜひ回答いただければ幸いである。自分も少し追加してリストを完成させたい。
余談、なのか本題なのか分からないが、この専門家による Q&Aサービス「Quora」は自分の中で今年一番のヒットである。先日、某知人に「今年一番面白かったWebサービスは?」と聞かれてうまく答えられずにいたのだが、今なら自信を持って「Quora」と答えられるほどである。
このサービス、一言で言えば単なるQ&Aサービスなのだが、それでは片付けられない色々な魅力がある。Q&A を軸にした「高品質知識データベース」を構築しているようにも見える。質問や回答の質が高いので、自分の興味のあるトピックをフォローするだけで面白い質問が目に入ってきて、気づいたら何時間でも読んでしまう。主な魅力を挙げておくと:
- 「質の高い質問・回答を提供する」ことを至上の目的としている。
- 実名制、かつ、各トピックに応じた肩書きを書ける(例:NLPのトピックには「NLP経験○年」などと書ける)ので、質の高い回答を提供するモチベーションが自然と上がる。
- 他人の質問・回答を、誰ても編集できる。これにより、質問・回答をブラッシュアップしてさらに見やすく、分かりやすくなるように協力できる。
- 回答に対する vote, thank, comment 機能により質の高い回答をフィルタリング、コミュニケーションを促進する仕組みが整っている。
- 自分の質問・回答を編集(添削)してもらうことにより、英語力がアップする。
twitter でも書いたが、「Quora」に対するコメントで「日本版・日本語版が欲しい」というコメントがたくさん見られたが、日本語に囲い込んだ時点でこの質と量は確保できないと思うし、それによって知識がガラパゴスの中に閉じてしまうことを憂慮している。英語という壁を考えてもぜひそのまま参加してみることをオススメする。
告知
今週土曜日(12月18日)に第3回楽天研究開発シンポジウムが開催されます。楽天データを使った研究発表である「データチャレンジ」や、パネルディスカッション「Open Dataが切り開く新時代の研究・開発」など、魅力的なプログラムをご用意しています。自分もスタッフとして運営に関わっております。皆さまの積極的なご参加をお待ちしております。




