プログラム質問箱 (00171)

From: Hiro <i14hnakagawa@ec.usp.ac.jp>
Subject: Re: 正規表現での日本語
Date: 1997/01/15 19:08:39
Reference: mesh.program/00169

1月15日に、にあさんは書きました。

丁寧な回答、ありがとうございます。

＞いくつか問題点があります。最大の問題は通常の perl では "[あ-ん]+" の様な、
＞漢字に対する正規表現が利かないことです。通常の perl でこれを実現するために
＞色々テクニックを弄する事も可能らしいですが、jperl などのように漢字を1文字と
＞認識する perlパッチを利用するのが簡単でしょう。そうすれば sjis 中の '\' に
＞関する処理も perlパッチ自身がやってくれます。

む、やはりjperlが妥当なんですか。
PerlIS.dllに日本語パッチがあればいいのですが。

＞もしも検索対象が膨大な SJIS データであり、いちいち漢字変換を行なうのが実質的に
＞不可能である時には検索漢字のエスケープが必要ですね。その場合でも、一番真っ当な
＞方法は、最初の文字から順繰りに見ていき、漢字の2バイト目に問題がある文字('\'とか
＞'@'とか)が現われたらエスケープして行く、と言うものでしょうね。漢字コードが
＞SJIS と判っている場合にはこの処理は簡単ですよね。SJIS 1バイト目は 0x81～0x9F か
＞0xE0～0xFC ですのでそれを見ていればいいわけです。

なるほど。
ところで、2バイト目のエスケープすべき文字というのには、
どれほどあるのでしょうか。