facebook twitter hatena line google mixi email
★お気に入り追加


■ このスレッドは過去ログ倉庫に格納されています

  • 796
  •  
  • 2012/02/05(日) 10:42:27.20
連想検索エンジン「ASSOCIE」のアルゴリズムについて

ウェブサイト向け「NRI連想検索(銘柄)」サービスを開始
http://www.nri.co.jp/news/2008/080321_2.html

>ウェブ上に公開されているリソース情報からキーワードを抽出し、独自のルールをもとに
>上場企業との関連度及びキーワード間の関連度を定義したデータベース(連想辞書)を作成します。

動詞は語尾変化も含めて、助詞や助動詞(「〜である」「〜から」)も全て含めて、
国語辞典コーパスで「VF符号化」することは可能ですか。また「VF符号化」できない
ところは別表記にして、例えば「きゃりーぱみゅぱみゅ」のような過去には無かった
最新のキーワードがあれば、それはそれで別に編集しておくとか。

『VF符号化は、あらかじめ生成した辞書を用いて可変長の文字列を固定長の符号に
置き換えることで圧縮する(図5)。』
http://it.impressbm.co.jp/e/2012/01/16/4163?page=0%2C2

それからあらゆる分野の電子書籍百万冊を、年代別分野別に「共起語」を調べて統計化すると
いった試みは行われているのですか。例えば「選挙」と「出馬」について、「杉村太蔵は今年、
衆議院選挙に出馬する。」とかで一文ごとに区切って、共起率についての統計数字を算出
することは可能ですか。

『レンマ化とは,基本形(base form)あるいは辞書に載っている語形に,語尾変化している
語をまとめることである.レンマとは,つまり,語尾変化をする部分を除いて,変化をし
ない同じ語幹を持つ語のまとまりを指す.』
『まず,本研究では,共起語のレンジを bigram に限定して論文コーパスと雑誌コーパスの
データを取った.これはすべての語の組み合わせを対象とするため,レンジを広げると計
算が複雑すぎるからである.』
http://homepage3.nifty.com/yukie-k/publication/23.pdf

ここまで見た

★お気に入り追加

このページを共有する
facebook twitter hatena line google mixi email
おすすめワード