BERTでの固有表現抽出

本記事では、自然言語処理の手法である「BERT」を使い自然言語処理の代表的なタスクの一つである「固有表現抽出」を行った結果を紹介していきたいと思います。 固有表現抽出とは 固有表現抽出とは、テキストに出現する人名、地名などの固有名詞や日付や時間などの数値表現を抽出する技術手法です。以下の文を例題に固有表現抽出を行います。 Taro is an employee of Insight Lab in Tokyo. 上記の文に対し固有表現抽出を行うと“Taro”が人名、“Insight Lab”が組織名、“Tokyo”が地名となります。この技術を応用することで、上位概念での単語の検出などが可能になります。 使用するデータセット 今回利用するデータセットは「CoNLL 2003 shared task (NER) data」というデータセットを利用します。こちらのデータセットは、多くの英文に対し「地名(LOC)」「組織名(ORG)」「人名(PER)」「その他(MISC)」の四つのラベルが付与されたデータセットになります。ラベルに関しては、以下の様に単語毎に付与されています。今回BERTに解かせる問題としては、トークン毎の多クラス分類問題となります。 Taro is an employee of Insight Lab in Tokyo . PER – – – – ORG ORG – LOC – データ数に関しては、下記のとおりとなります。   LOC単語数 ORG単語数 PER単語数 MISC単語数 総単語数 文数 学習データ 8,297 10,025 11,128 4,593 204,566…

【ニュース】Watson Discovery News 日本語版リリース!

Watson Discovery News 日本語版が本日リリースされました! 本日は速報までに、リリースされたばかりのWatson Discovery News日本語版に少しだけ触ってみたいと思います。   WatsonDiscovery Newsを起動 Watson Discoveryを起動し、Disocvery Newsの「News souces」から追加された”Japanese”を選択します。   Disocvery Newsトップページへ トップページの説明に英語/スペイン語/ドイツ語/韓国語に加えて、日本語についても追加されています。 どうやら日本語ニュースは、毎日約17,000件の新しい記事更新のようですね。 About Watson Discovery News Watson Discovery News is updated continuously with new articles. Discovery News English is updated with approximately 300,000 new articles daily. Discovery News Spanish is updated with approximately 60,000 new articles daily; Discovery…