TermExtractとMecabとperl
サムライファクトリーの平成コンビがお送りするWebサービスダイナシ
画像にコメントをつけて、ぜひ楽しんでください。
人間って頭が良い生き物です。それに比べてコンピューターときたら。。。
電気が流れているか、流れていないかしか判断ができないんですよ。
ノイマンから何年経っても進化がありません。

ホームページを見て「あ、これはエロいページだな!」と一般の雄であれば瞬時に判断出来るはずです。出来ない人は病院行くか、出家してください。

しかし雑魚キャラコンピューターでは、人間様ほど高度な事は出来ないので判断できません。こういった推測するような技術は日々研究されているかと思われます。

一つのアプローチとしてホームページの中で重要となるキーワードを抽出するのこともあると思います。
そんな難しそうな事をさらっとWebで出来るサービス言選Webなんてのがあります。

なんでもperlの「TermExtract」ってライブラリのweb版らしいので、そのすばらしいライブラリを試してみました。

Mecab(他でもいいらしいですが)が必要なので辞書とあわせてインストールします。
・Mecabのインストール

wget http://sourceforge.net/projects/mecab/files/mecab/0.98/mecab-0.98.tar.gz/download
tar xvzf mecab-0.98.tar.gz
cd mecab-0.98
./configure --with-charset=utf8
make
sudo make install


・Mecab ipadic辞書のインストール

wget http://sourceforge.net/projects/mecab/files/mecab-ipadic/2.7.0-20070801/mecab-ipadic-2.7.0-20070801.tar.gz/download
tar xfv mecab-ipadic-2.7.0-20070801.tar.gz
cd mecab-ipadic-2.7.0-20070801
./configure --with-charset=utf8
make
sudo make install


・Mecab Perlライブラリのインストール

wget http://sourceforge.net/projects/mecab/files/mecab-perl/0.98/mecab-perl-0.98.tar.gz/download
tar xvzf mecab-perl-0.98.tar.gz
cd mecab-perl-0.98
perl Makefile.PL
make
sudo make install


・Mecabのライブラリパスを通す

sudo vi /etc/ld.so.conf.d/mecab.conf
/usr/local/lib
sudo /sbin/ldconfig


これでMecabの準備は完了です。次にTermExtractをインストールします。

wget http://gensen.dl.itc.u-tokyo.ac.jp/soft/TermExtract-4_08.tar.gz
tar xvzf TermExtract-4_08.tar.gz
cd TermExtract-4_08
perl Makefile.PL
make
sudo make install


MecabをUTF-8でインストールしたのでスクリプトをUTF-8にエンコードしておきます。

cd /usr/lib/perl5/site_perl/5.8.8/TermExtract/
sudo nkf --overwirte -w MeCab.pm


サンプルプログラムを用意します。

wget http://gensen.dl.itc.u-tokyo.ac.jp/doc/ex_mecab.pl.txt
mv ex_mecab.pl.txt ex_mecab.pl
chmod u+x ex_mecab.pl


このサンプルは同じディレクトリにある、ファイル名「mecab_out.txt」のMecab出力結果を解析してくれるようです。

cat test.txt | mecab > mecab_out.txt
./ex_mecab.pl


重要度順にキーワードが出力されます。
形態素単位ではなく、関連のあるキーワードを複合してくれるらしいので色々利便性がありそうです。


2011/10/16 23:54 | Comments(0) | TrackBack() | プログラム
MacとEmacs
サムライファクトリーの平成コンビがお送りするWebサービスダイナシ
画像にコメントをつけて、ぜひ楽しんでください。
いきなりですが自分はvi愛好者です。いや、愛好者でした。
学生のときからずっと使い続け10年程になります。
Eclipseを使う時もviです(viPlugin)。20ユーロで購入しました。

ただ会社の人がtrampを利用してサーバーのスクリプトをローカルの設定で直接編集しているのを見て誘惑に負けました。
それにemacs使いって響きが玄人っぽくてちょっとした憧れがあったんだと思います。

しかし慣れないエディタを使うのは大変で大変で。。
特にemacsを使ってるとCtrlキーを押しながらの操作が多いので指がつりそうになります。なので会社にあまってたHappy Hacking Keyboard(日本語)に変えました。
サービスIN直前の忙しい時にあえて切り替えました。慣れないエディタとキーボード、刻々と近づくリリース日。充実した日々を送る事が出来ました。

スパルタ教育のおかげでemacsにも慣れてきたので、自宅のmacにもインストールすることにしました。

なんでも「homebrew」を利用すると簡単にインストールが出来るようです。yumみたいなもんですかね。

homebrewをインストールするのには、xcodeとjavaが必要らしいです。自宅のmacには既に導入済みでした。Lionからはapple storeでxcode4が無料で手に入るのですぐに用意出来るかと思います。

あとはシェル上でコマンドを叩きます。

ruby -e "$(curl -fsSLk https://gist.github.com/raw/323731/install_homebrew.rb)"

対話式なので適当に。これだけで準備完了です。

次にCocoa Emacsをhomebrewを使ってインストールします。

brew install --cocoa emacs


あとはアプリケーションに移動すれば完了です。

sudo mv /usr/local/Cellar/emacs/23.3a/Emacs.app/ /Applications/

ついでにhomebrewはバージョン管理にgitを利用しているのでかってにインストールされます。
あとはアプリケーションにあるEmacsアイコンをダブルクリックすれば利用できます。

Ctrl+SpaceがことえりのSpotlightの検索に割り当てられているので適当なショートカットにどかしておきました。たぶんいらないでしょ。使った事ないし。

emacsとか終了の仕方もしらねーYOな人も一度お試しあれ。

2011/10/16 22:55 | Comments(0) | TrackBack() | プログラム

<<前のページ | HOME | 次のページ>>