Semantic Web – WordPress

namazu – cron – pdf,doc,xls,ppt – $PATHと文書フィルタ

leave a comment »

Xrea.comさんのサーバでは、

■ルール
 http://www.xrea.com/?action=rules
●禁止事項
10. ウェブ目的以外で利用すること。データ・プログラムを格納するのみ、FTPでダウンロード・ファイル交換するのみ、CGIの実験など。

のとおり、WWWサーバを単なるファイルサーバの目的で使用することは固く禁止されています
WWWサーバにアップロードしたhtml以外のファイル(たとえば、拡張子 xls, doc, ppt, pdf)も検索を行い、かつ http/httpsプロトコルでURLにアクセスし閲覧するために、NAMAZUを最大限に活用する方法 Tipsをお知らせします。
s***サーバでは、Xrea.comさんにNamazu全文検索サービスに対応した文書フィルターをいくつかインストールしていただきましたので、下記のメディアタイプの使用可能です。
重要 ⇒ メディアタイプ pdf, xls, doc, pptを cronジョブでmknmz する時、shellscript に$PATH 必須です!!!
[参照ページ]
「cronからmknmzを実行するとPDFのインデックスが更新されない」
 http://www.namazu.org/ml/namazu-users-ja/msg03159.html
「cron からの場合 pdftotext が実行されない」
 http://www.namazu.org/ml/namazu-users-ja/msg03167.html
解決方法
 http://www.namazu.org/ml/namazu-users-ja/msg03167.html

#!/bin/sh
PATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin:/usr/bin/X11:/usr/X11R6/bin:/usr/local/bin:/root/bin
export PATH

 この2行 ⇒ エンコードutf8で表示 txt
すべてのPATHが現サーバにマッチしているか?確認していませんが、
$PATHなし
@@ Unsupported media type application/msword
@@ Unsupported media type application/excel
@@ Unsupported media type application/pdf
@@ Unsupported media type application/powerpoint
$PATH行の追記後
@@ Using msword.pl
@@ Processing ms-word file … (using  ‘/usr/local/bin/wvHtml’)
@@ Using excel.pl
@@ Processing ms-excel file … (using  ‘/usr/local/bin/xlhtml’)
@@ Using pdf.pl
@@ Processing pdf file … (using  ‘/usr/local/bin/pdftotext’)
@@ Using powerpoint.pl
@@ Processing powerpoint file … (using  ‘/usr/local/bin/ppthtml’)
となり、indexingできるようになります。

また、ユーザー別の設定のため、 /virtual/ユーザーID/.mknmzrc を利用することもできます。
mknmzrcの設定ファイル
 http://www.namazu.org/doc/manual.html#mknmzrc
の読込み順序2 となる
 .mknmzrc
をホームディレクトリの最上位
 /virtual/ユーザーID/ # (Xrea.comさんのサーバ)
 /~          # 一般的に /チルダ(Tilde)
に置いて、設定します。
注) Webに公開できる最上位のディレクトリのことをドキュメントルート
  ⇒ /virtual/ユーザーID/public_html/ # (Xrea.comさんのサーバ)
と呼びますが、このディレクトリではありません。
SSH接続し、制限シェルを使って
 エントリー「Restricted Shell SSH2 WinSCP puTTYgen」
 http://www.osbsd.net/2005/01/restricted_shel.html
など参照して下さい。
shellコマンドにて
 cp /usr/local/etc/namazu/mknmzrc-sample ~/.mknmzrc
を実行します。
   編集前のサンプル[mknmzrc-sample] mknmzrc-sample.txtをダウンロード (エンコード utf8)

作成されたドットファイル .mknmzrc をテキストエディタで編集します。
[20-30行目あたり]
$HTML_SUFFIX = "html?|[ps]html|html\\.[a-z]{2}";  # 行頭のコメントアウトを解除する。

$ALLOW_FILE = ".*\\.(?:$HTML_SUFFIX)|.*\\.txt|.*\\.pdf|.*\\.doc|.*\\.xls|.*\\.ppt|.*\\.rtf|.*\\.odt|.*\\.ods|.*\\.odp"; # 許可するファイルを列記し、行頭のコメントアウトを解除する。

また、cronジョブで実行する mknmz のオプション設定とindexing用ログ作成は下記のとおりです(Xrea.comさんのサーバ例)。
/usr/local/bin/mknmz —verbose -a –use-chasen –indexing-lang=ja /virtual/ユーザ ID/public_html/検索対象ディレクトリ/ > /virtual/ユーザ ID/namazu/make_index.log

[s***サーバのnamazu稼動環境]
/virtual/ユーザーID/namazu$ mknmz -C
Loaded rcfile: /virtual/ユーザーID/.mknmzrc
System: linux
Namazu: 2.0.17
Perl: 5.008008
File-MMagic: 1.27
NKF: /usr/local/bin/nkf
KAKASI: /usr/local/bin/kakasi -ieuc -oeuc -w
ChaSen: /usr/local/bin/chasen -i e -j -F "%m "
情報の一部(数行)省略
Supported media types:   (40)
Unsupported media types: (8) marked with minus (-) probably missing application in your $path.
  application/excel: excel.pl
  application/gnumeric: gnumeric.pl
  application/ichitaro5: taro56.pl
  application/ichitaro6: taro56.pl
– application/ichitaro7: taro7_10.pl
  application/macbinary: macbinary.pl
  application/msword: msword.pl
  application/pdf: pdf.pl
– application/postscript: postscript.pl
  application/powerpoint: powerpoint.pl
– application/rtf: rtf.pl
  application/vnd.kde.kivio: koffice.pl
  application/vnd.kde.kpresenter: koffice.pl
  application/vnd.kde.kspread: koffice.pl
  application/vnd.kde.kword: koffice.pl
  application/vnd.oasis.opendocument.graphics: ooo.pl
  application/vnd.oasis.opendocument.presentation: ooo.pl
  application/vnd.oasis.opendocument.spreadsheet: ooo.pl
  application/vnd.oasis.opendocument.text: ooo.pl
  application/vnd.openxmlformats-officedocument.presentationml: msofficexml.pl
  application/vnd.openxmlformats-officedocument.spreadsheetml: msofficexml.pl
  application/vnd.openxmlformats-officedocument.wordprocessingml: msofficexml.pl
  application/vnd.sun.xml.calc: ooo.pl
  application/vnd.sun.xml.draw: ooo.pl
  application/vnd.sun.xml.impress: ooo.pl
  application/vnd.sun.xml.writer: ooo.pl
  application/vnd.visio: visio.pl
  application/x-apache-cache: apachecache.pl
  application/x-bzip2: bzip2.pl
  application/x-compress: compress.pl
– application/x-deb: deb.pl
– application/x-dvi: dvi.pl
  application/x-gzip: gzip.pl
– application/x-js-taro: taro7_10.pl
  application/x-rpm: rpm.pl
– application/x-tex: tex.pl
  application/x-zip: zip.pl
– audio/mpeg: mp3.pl
  message/news: mailnews.pl
  message/rfc822: mailnews.pl
  text/hnf: hnf.pl
  text/html: html.pl
  text/html; x-type=mhonarc: mhonarc.pl
  text/html; x-type=pipermail: pipermail.pl
  text/plain
  text/plain; x-type=rfc: rfc.pl
  text/x-hdml: hdml.pl
  text/x-roff: man.pl
以上

Written by support

2007/05/06 @ 13:22

カテゴリー: cronジョブ

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中

%d人のブロガーが「いいね」をつけました。