CATEGORY BERT

BERTでの固有表現抽出

本記事では、自然言語処理の手法である「BERT」を使い自然言語処理の代表的なタスクの一つである「固有表現抽出」を行った結果を紹介していきたいと思います。 固有表現抽出とは 固有表現抽出とは、テキストに出現する人名、地名などの固有名詞や日付や時間などの数値表現を抽出する技術手法です。以下の文を例題に固有表現抽出を行います。 Taro is an employee of Insight Lab in Tokyo. 上記の文に対し固有表現抽出を行うと“Taro”が人名、“Insight Lab”が組織名、“Tokyo”が地名となります。この技術を応用することで、上位概念での単語の検出などが可能になります。 使用するデータセット 今回利用するデータセットは「CoNLL 2003 shared task (NER) data」というデータセットを利用します。こちらのデータセットは、多くの英文に対し「地名(LOC)」「組織名(ORG)」「人名(PER)」「その他(MISC)」の四つのラベルが付与されたデータセットになります。ラベルに関しては、以下の様に単語毎に付与されています。今回BERTに解かせる問題としては、トークン毎の多クラス分類問題となります。 Taro is an employee of Insight Lab in Tokyo . PER – – – – ORG ORG – LOC – データ数に関しては、下記のとおりとなります。   LOC単語数 ORG単語数 PER単語数 MISC単語数 総単語数 文数 学習データ 8,297 10,025 11,128 4,593 204,566…

BERTの比較検証

BERT

本記事では、自然言語処理の手法の一つである「BERT」を使い単純な二値分類問題として著者判定を行った例を紹介したいと思います。