人間って頭が良い生き物です。それに比べてコンピューターときたら。。。
電気が流れているか、流れていないかしか判断ができないんですよ。
ノイマンから何年経っても進化がありません。
ホームページを見て「あ、これはエロいページだな!」と一般の雄であれば瞬時に判断出来るはずです。出来ない人は病院行くか、出家してください。
しかし雑魚キャラコンピューターでは、人間様ほど高度な事は出来ないので判断できません。こういった推測するような技術は日々研究されているかと思われます。
一つのアプローチとしてホームページの中で重要となるキーワードを抽出するのこともあると思います。
そんな難しそうな事をさらっとWebで出来るサービス言選Webなんてのがあります。
なんでもperlの「TermExtract」ってライブラリのweb版らしいので、そのすばらしいライブラリを試してみました。
Mecab(他でもいいらしいですが)が必要なので辞書とあわせてインストールします。
・Mecabのインストール
・Mecab ipadic辞書のインストール
・Mecab Perlライブラリのインストール
・Mecabのライブラリパスを通す
これでMecabの準備は完了です。次にTermExtractをインストールします。
MecabをUTF-8でインストールしたのでスクリプトをUTF-8にエンコードしておきます。
サンプルプログラムを用意します。
このサンプルは同じディレクトリにある、ファイル名「mecab_out.txt」のMecab出力結果を解析してくれるようです。
重要度順にキーワードが出力されます。
形態素単位ではなく、関連のあるキーワードを複合してくれるらしいので色々利便性がありそうです。
電気が流れているか、流れていないかしか判断ができないんですよ。
ノイマンから何年経っても進化がありません。
ホームページを見て「あ、これはエロいページだな!」と一般の雄であれば瞬時に判断出来るはずです。出来ない人は病院行くか、出家してください。
しかし雑魚キャラコンピューターでは、人間様ほど高度な事は出来ないので判断できません。こういった推測するような技術は日々研究されているかと思われます。
一つのアプローチとしてホームページの中で重要となるキーワードを抽出するのこともあると思います。
そんな難しそうな事をさらっとWebで出来るサービス言選Webなんてのがあります。
なんでもperlの「TermExtract」ってライブラリのweb版らしいので、そのすばらしいライブラリを試してみました。
Mecab(他でもいいらしいですが)が必要なので辞書とあわせてインストールします。
・Mecabのインストール
wget http://sourceforge.net/projects/mecab/files/mecab/0.98/mecab-0.98.tar.gz/download
tar xvzf mecab-0.98.tar.gz
cd mecab-0.98
./configure --with-charset=utf8
make
sudo make install
・Mecab ipadic辞書のインストール
wget http://sourceforge.net/projects/mecab/files/mecab-ipadic/2.7.0-20070801/mecab-ipadic-2.7.0-20070801.tar.gz/download
tar xfv mecab-ipadic-2.7.0-20070801.tar.gz
cd mecab-ipadic-2.7.0-20070801
./configure --with-charset=utf8
make
sudo make install
・Mecab Perlライブラリのインストール
wget http://sourceforge.net/projects/mecab/files/mecab-perl/0.98/mecab-perl-0.98.tar.gz/download
tar xvzf mecab-perl-0.98.tar.gz
cd mecab-perl-0.98
perl Makefile.PL
make
sudo make install
・Mecabのライブラリパスを通す
sudo vi /etc/ld.so.conf.d/mecab.conf
/usr/local/lib
sudo /sbin/ldconfig
これでMecabの準備は完了です。次にTermExtractをインストールします。
wget http://gensen.dl.itc.u-tokyo.ac.jp/soft/TermExtract-4_08.tar.gz
tar xvzf TermExtract-4_08.tar.gz
cd TermExtract-4_08
perl Makefile.PL
make
sudo make install
MecabをUTF-8でインストールしたのでスクリプトをUTF-8にエンコードしておきます。
cd /usr/lib/perl5/site_perl/5.8.8/TermExtract/
sudo nkf --overwirte -w MeCab.pm
サンプルプログラムを用意します。
wget http://gensen.dl.itc.u-tokyo.ac.jp/doc/ex_mecab.pl.txt
mv ex_mecab.pl.txt ex_mecab.pl
chmod u+x ex_mecab.pl
このサンプルは同じディレクトリにある、ファイル名「mecab_out.txt」のMecab出力結果を解析してくれるようです。
cat test.txt | mecab > mecab_out.txt
./ex_mecab.pl
重要度順にキーワードが出力されます。
形態素単位ではなく、関連のあるキーワードを複合してくれるらしいので色々利便性がありそうです。
トラックバック
トラックバックURL: