特別招待講演20171205

タイトル

文法および流暢性を考慮した頑健なテキスト誤り訂正

Robust Text Correction for Grammar and Fluency

講演者

坂口慶祐(Johns Hopkins University)

概要

自然言語処理において、データにスペリング誤りや文法誤りが含まれる場合、各種タスクにおける精度が著しく悪化する。一方、私達人問はそのうよな誤りに対し非常に頑健な言語拠理メカズニムを備えれらている(例えばこの文のように)。本講演では、このような誤りに対する訂正モデルについて紹介する。

具体的には、文字単位での誤りを訂正するリカレントニューラルネットを用いたモデル、単語単位での文法誤りの訂正と依存構造の同時解析モデル、そして強化学習を用いた文単位の誤り訂正モデルについて説明する。特に文単位での誤り訂正については、Bayesian online updateを用いた効率的な人手評価モデルおよび自動評価尺度についても議論する。

Robustness has always been a desirable property for natural language processing.

In many cases, NLP models (e.g., parsing) and downstream applications (e.g., MT) perform poorly when the input contains noise such as spelling errors, grammatical errors, and disfluency.

In this talk, I will present three recent results on error correction models: character, word, and sentence level respectively. For character level, I propose semi-character recurrent neural network, which is motivated by a finding in Psycholinguistics, called Cmabrigde Uinervtisy (Cambridge University) effect. For word-level robustness, I propose an error-repair dependency parsing algorithm for ungrammatical texts. The algorithm can parse sentences and correct grammatical errors simultaneously. Finally, I propose a neural encoder-decoder model with reinforcement learning for sentence level error correction. To avoid exposure bias in standard encoder-decoders, the model directly optimizes towards a metric for grammatical error correction performance.

On sentence-level error correction, I also explain an automated evaluation metric and a model for collecting human evaluation efficiently with Bayesian online updates.

日時

2017/12/05(火)14:40-16:10 予定

場所

首都大学東京日野キャンパス2-304教室

(最寄り駅は JR 中央線豊田駅です。南大沢駅ではありません。)

資料