HOME > 研究紹介 > 言語情報研究室

研 究 紹 介
言語情報研究室homepage
メディア技術分野 酒井 浩之 講師

膨大なテキストデータからの情報抽出技術の開発

インターネットの発展により、膨大なテキストデータにアクセスし、収集できるようになりました。しかし、データだけでは有効に活用することはできず、膨大なデータから有用な情報を抽出する技術が注目されています。本研究室では、Web上に溢れている大量のテキストデータを活用するための技術として、自然言語処理をもとに、テキストマイニング、Webマイニング、テキスト自動要約、情報検索などの研究に取り組んでいます。

言語情報研究室の研究紹介

当研究室ではWeb上に溢れている大量のテキスト情報を積極的に活用するための技術として、自然言語処理を基に、テキストマイニング技術等の研究を行っています。

業績発表記事からの業績要因の抽出と重要度付与
製品発表プレスリリースとその製品に関連する特許の検索システム
手がかり表現の自動獲得手法の開発と応用

業績発表記事からの業績要因の抽出と重要度付与

CEES(Causal Expressions Extraction System)
CEES(Causal Expressions Extraction System)
企業の業績発表記事に含まれる業績要因表現を抽出し、その業績要因表現を対象にした検索システムです。さらに、業績発表記事、および、業績要因表現に対して極性(positive、negative)、重要度(★)を付与します。(青文字がポジティブ、赤文字がネガティブが付与された業績要因。また、重要度は★の数で表します。)本システムは現在は研究室限定公開ですが、同様の検索システムを一般に公開できるように研究を行なっております。

製品発表プレスリリースとその製品に関連する特許の検索システム

CROSS(Cross-Information Patent Search System)
CROSS(Cross-Information Patent Search System)
企業の製品発表プレスリリース(「S社、プラズマイオン除菌装置搭載の冷蔵庫3機種を発売」のような記事)から、その製品に搭載されているであろう技術に関連する特許を検索できるシステムです。下図のように、企業名、製品種目、プレスリリース本文を入力すると、その製品の特徴を示すキーワード(冷蔵庫なら「省エネ性」、「収納性」など)を抽出し、そのキーワードを使用して特許を検索します。 現在は研究室限定公開です。

手がかり表現の自動獲得手法の開発と応用

CluPes (Clue Phrases Extraction Software)

業績発表記事に含まれる業績要因表現の抽出で使用した手がかり表現(「が好調」等)の自動抽出プログラムです。プログラムでは、最初に小数の手がかり表現(「が好調」、「が不振」等)を入力し、その情報からブートストラップ的に新たな手がかり表現(「が奏功」、「が増加」等)を獲得していきます。そして獲得した手がかり表現等を使用して、抽出すべき情報を抽出しています。本プログラムは、データと最初の手がかり表現を変えるだけで他タスクにも応用することができ、現在、特許明細書や製品発表プレスリリースからの手がかり表現抽出に使用しました。本プログラムは以下のURLで公開しています。

URL:http://www.ci.seikei.ac.jp/sakai/clupes.html

copyright(C) Seikei University. all rights reserved.