研究活動紹介

研究活動紹介
膨大な文書データから有用な
情報発掘

言語情報研究室 酒井 浩之准教授

2005年 豊橋技術科学大学大学院工学研究科博士後期課程 電子・情報工学専攻 修了。博 士(工学)。2005年 豊橋技術科学大学 知識情報工学系 助手。2012年 成蹊大学理工学部 情報科学科 講師。2014年 成蹊大学理工学部 情報科学科 准教授(現職)。自然言語処理、特に、テキストマイニング、テキスト自動要約の研究に従事。人工知能学会、言語処理学会、電子情報通信学会、情報処理学会等会員。

テキストマイニング

テキストマイニングとは、大量のテキストデータの中から目的に合う有用な情報を抽出する技術の事をいいます。
応用例としては、WEB上の掲示板、マイクロブログなどのテキストデータを大量に集め、そこに記述されている情報を自動で分析し、企業等は次の商品開発や改良を行うための情報を得ることが出来ます。
このテキストマイニングをどのように実現するかというと、自然言語処理技術と大量のデータを解析する技術(データマイニング)の融合により可能になります。

自然言語処理技術

自然言語処理とは、人間が日常的に使っている自然言語(日本語や英語など)をコンピュータに処理させる一連の技術です。例えば、ひらがなを漢字に変換する技術も自然言語処理です。
また、情報検索も自然言語処理の分野に入ります。なぜなら、検索サイトが対象にしている情報はWeb上のテキスト情報であり、それらを収集し、高速に検索できるように変換する処理が必要になるからです。
その他にも、迷惑メールのフィルタリングや企業のコールセンターに寄せられる質問事項を自動的に分析して商品開発に役立てるといった事例があります。あまり目立ちませんが、自然言語処理技術は非常に身近なところで活用されています。

当研究室で主に行っていること

自然言語処理技術を活用し、大量のテキストデータから重要な情報を抽出する研究(テキストマイニング、Webマイニング)を行っています。
特に、企業の決算短信PDF、企業WEBサイト、大学WEBサイト、経済新聞記事、特許明細書等を対象としたマイニング手法を開発しています。開発した手法による成果は検索システムとして当研究室WEBサイトで公開しています。
現在、公開している検索システムは以下のとおりです。

CEES

企業のWebサイトで公開されている決算短信PDFファイルから業績要因を含む文を自動的に抽出し、その抽出した業績要因を対象にした決算短信PDF検索システムです。例えば「太陽電池」で検索すると、太陽電池を業績要因にもつ業績要因文を検索し、その文が記載されている決算短信PDFとその企業を表示します。それにより、「太陽電池」が業績要因である企業=「太陽電池」と関連のある企業を検索する企業検索としても利用が可能です。「↑」「↓」の矢印は、決算短信、もしくは業績要因の極性(ポジティブ・ネガティブ)を表します。

閉じる

CS

決算短信PDFから因果関係を抽出し,それを用いて因果関係を検索することができるシステムです。例えば原因として「猛暑」,結果として「エアコン」を入力すると,原因が「猛暑」で結果が「エアコン」を含む因果関係を情報として記述している決算短信PDFとその企業を検索することができます。それにより、「猛暑」であれば「エアコン」が好調な企業=「猛暑」で業績が変動する企業を見つけることができ、その企業に投資するための判断材料として役立つことができます.

閉じる

LiLas

大学WEBサイトから自動的に抽出した研究室Webサイトを検索対象とした研究室検索システムです。例えば「テキストマイニング」で検索すると「テキストマイニング」を研究している研究室のトップページと、その所属大学を検索することができます。

閉じる

Lics-Plus

非上場企業も含めた16,461社の企業WEBサイトから重要なキーワードを抽出し,抽出した重要なキーワードを検索対象とした企業検索システムです。例えば「太陽電池」と検索することで、太陽電池に関連のある企業を検索できます。また、企業名を入力すると、その企業と関連のある企業を検索することができます。例えば「エプソン」で検索すると「ブラザー工業」が検索されます。

閉じる