新規記事投稿 フォロー記事投稿 記事のキャンセル
From: Hiro <i14hnakagawa@ec.usp.ac.jp>
Subject: Re: 正規表現での日本語
Date: 1997/01/15 19:08:39
Reference: mesh.program/00169

1月15日に、にあさんは書きました。

丁寧な回答、ありがとうございます。

>いくつか問題点があります。最大の問題は通常の perl では "[あ-ん]+" の様な、
>漢字に対する正規表現が利かないことです。通常の perl でこれを実現するために
>色々テクニックを弄する事も可能らしいですが、jperl などのように漢字を1文字と
>認識する perlパッチを利用するのが簡単でしょう。そうすれば sjis 中の '\' に
>関する処理も perlパッチ自身がやってくれます。

む、やはりjperlが妥当なんですか。
PerlIS.dllに日本語パッチがあればいいのですが。

>もしも検索対象が膨大な SJIS データであり、いちいち漢字変換を行なうのが実質的に
>不可能である時には検索漢字のエスケープが必要ですね。その場合でも、一番真っ当な
>方法は、最初の文字から順繰りに見ていき、漢字の2バイト目に問題がある文字('\'とか
>'@'とか)が現われたらエスケープして行く、と言うものでしょうね。漢字コードが
>SJIS と判っている場合にはこの処理は簡単ですよね。SJIS 1バイト目は 0x81〜0x9F か
>0xE0〜0xFC ですのでそれを見ていればいいわけです。

なるほど。
ところで、2バイト目のエスケープすべき文字というのには、
どれほどあるのでしょうか。