私は特に自然言語処理技術を用いて情報検索や情報抽出を効果的に行う方法を検討しています.
論文一覧はこちらをご覧ください.
情報検索、情報抽出
近年, ワープロをはじめとする入力環境の整備に加え,
電子メールなどにより文書の電子化が急速に進んでいます.
また, インターネットの普及により私達は膨大な量の文書データにアクセスすることが可能です.
こうしたことを背景に, 大量のデータの中から有用な情報を発見し,
抽出する技術の需要が高まっています.
ユーザが望む情報をより正確に, かつ迅速に得るためには,
さまざまな問題を解決する必要があります. 例えば,
必要な情報だけを的確に得るためには, 大量の情報が検索しやすい形で分類・要約されていることが必要です. また, そこからどのようにしてユーザが望む情報を抽出するかという抽出方法も検討しなければなりません.
文書の分類,続報記事抽出の問題について焦点をあて,
研究を行っています.
情報検索は人工知能学会の私のブックマークの情報検索のページにいろいろな情報へのリンクがあります.
文書の自動分類に関する研究
CNNニュースやロイターの記事を分野別に自動分類するシステムを開発しています.
出来事に関する続報記事の自動抽出
続報記事の自動抽出は, ある出来事が与えられたときに大量の記事の中からその出来事に関する一連の経過を示す記事を抽出する研究です.
例えば, 「神戸で起きた大地震」について知りたいとしましょう.
ユーザが「神戸で起きた大地震」を指定すると,
コンピュータは, 大量の記事の中から地震が勃発したことを示す記事,
地震規模, 被害状況, 救助活動などを含め, 神戸の地震に関する話題が終息するまでの一連の記事を自動的に抽出します.
続報記事の自動抽出は, 文書の自動分類, すなわちコンピュータを用いて大量の文書を人手によりあらかじめ設定された2つ以上のカテゴリーに分類する作業と非常によく似ています.
上で述べた例の場合, カテゴリーを「神戸で起きた大地震」とすればよいわけです.
しかし, 続報記事の自動抽出は文書の自動分類と異なり,
少なくとも以下で述べる2つの問題を検討しなければなりません.
一つ目は, 時間と共に変化する出来事の流れをどのように抽出するかということです.
例えば「神戸で起きた大地震」の場合, 神戸の地震に関する話題が終息するまでの間には,
地震に関係するたくさんの話題(地震の規模や被害状況など)が含まれています.
さらに, 個々の話題は時間の経過と共に変化(はじめに報道された地震の規模や被害状況と後に報道された規模や状況が異なるなど)
します. これらを的確に捉えるには, 「神戸」や「大地震」など,
出来事の特徴を示す語を正確に抽出するだけでは足りません.
二つ目は, 大量の記事のうち, ある出来事に関係する記事はそれ以外の記事の割合と比較すると非常に少ないということです.
このことは, ユーザが指定した出来事を少ない情報源だけを用いて精度よく抽出しなければならないことを意味します.
続報記事の自動抽出に関する研究は, 1996年9月にアメリカのTDT(Topic detection and Tracking)プロジェクトが発足し, 研究が開始されたことから, 数多くの自然言語処理応用の研究の中では比較的歴史の浅い研究であると言えます.
構文解析や語義の曖昧さ解消結果など自然言語処理の技術を積極的に利用することで上述した問題に取り組んでいます.
最近WordNetという辞書の情報を使って続報記事の自動抽出の実験を行っています
簡単な音声処理の英和事典,言語処理関係の英和事典を作っています.
関口研の研究室紹介のページも作りました.研究室ではこんなことをしています.
毎年10月にオープンキャンパスが開かれます.今年(2002年)のオープンキャンパスは10月26日(土)に開かれます.
1999年 , 2000年 , 2001年のロボットコースの開催風景
高校生公開説明会の時の学科計算機室説明時の様子など
1996,1997,1998,1999,2000
授業に関するリンク