[B! regex] retletのブックマーク

パフォーマンスを意識して正規表現を書く - Shin x Blog

正規表現を書く際、どのようなパターンにマッチさせるか、どこをキャプチャするかという視点で記述することはあっても、パフォーマンスを考えて記述するというのはある程度知っている人でなければ忘れがちな視点です。このエントリでは、バックトラックをメインに正規表現がパフォーマンスに及ぼす挙動について見ていきます。対象の正規表現エンジンここでは、従来型 NFA を対象としています。具体的には、PHP の preg_ 関数で利用している PCRE や mb_ereg 関数が利用している鬼車です。Perl や Ruby、Python、Java、.NET でも従来型 NFA を採用しているので、似た挙動となるでしょう。「従来型 NFA」や「バックトラック」などの用語については、「詳説正規表現第3版」のものを用いています。バックトラックによるマッチ探査正規表現エンジンでは、指定された文字列が、パ

retlet 2016/08/24

regex

リンク

bashの正規表現マッチングの使い方 - adsaria mood

あるフリーウェアのインストール用bashプログラムを見ていたら次の様なものがあった。（以下の例は簡略化してある。） STRING="abc" if [[ "$STRING" =~ "^ab[cd]$" ]]; then echo "matched" else echo "unmatched" fi if文の条件表現の中に“=~”というオペレータがある。manを見ると =~ オペレータは文字列を正規表現と比較するとある。知らなかった。bashの文字列比較で正規表現が使えるとは。私は正規表現比較が必要な時はgrepに喰わせて判断していたのだが、これを使えば簡単にできる。ところが、だ。上のプログラムが期待通りに動かない。上の例では =~ の左辺と右辺の正規表現はマッチするはずだが、結果は“unmatched”。色々と正規表現を変えてみたが、どれとしてマッチングしない。しかし、if文を次のように

retlet 2014/08/22

リンク

シェルスクリプトでの正規表現マッチ - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

retlet 2014/08/22

リンク

電話番号、郵便番号にマッチする真の正規表現 : にぽたん研究所

Shibuya.pm #16 「夏の正規表現祭り」で、正規表現のお話をさせていただきました。まぁ、「電話番号にマッチする正規表現」とか「郵便番号にマッチする正規表現」とかよく書かれてるけど、「どれもこれも手緩いよね」って話。あ、だいぶはしょったかな。とりあえずスライドに書いたので、発表をご覧になってない方はスライドからご覧ください。ふと見返すと、このブログで電話番号の正規表現を公表するのは 3 度目ですが、あれからだいぶ経ってますね。今ではもっと厳密な正規表現を作っています。そして、Number::Phone::JP に続き、Number::ZipCode::JP という酔狂なモジュールが公開された記念で、郵便番号にマッチする正規表現を今回初めて公開しますが、そもそもここまで厳密な正規表現が公開されること自体、本邦初公開ってヤツでしょう。 Shibuya.pm でも言いましたが

retlet 2014/06/11

regex

リンク

InDesign CS3 正規表現一覧

2008-05-27　市川せうぞー InDesign CS3の正規表現一覧をまとめてみました。オンラインヘルプよりもちゃんとしてます。間違え、漏れなど見つけた方はご一報ください。 ▼文字を表すもの正規表現意味 InDesign拡張検索のみ InDesignワイルドカード用例・備考

retlet 2013/10/23

foobarでヒットさせつつbarにだけスタイル適用みたいなことしたかったんだけど肯定先読みとか駆使すればできた

DTP
regex

リンク

メールアドレスの正規表現

更新日 2019/5/3 戻る Perlメモへ - メールアドレスの正規表現へ Perl正規表現雑技へ更新履歴 2019/05/03 「制御文字を除去する」「参考文献」RFC5321日本語訳のリンク修正 2009/08/13 $atextのバグ修正 2009/05/06 「正規表現を簡略化する」追記 2009/04/29 「旧形式を削除する」追記 2009/04/13 「IPアドレスを除去する」追記目次 RFCに準拠したメールアドレスの正規表現コメントと空白文字を除去する制御文字を除去する IPアドレスを除去する旧形式を除去する正規表現を簡略化する参考文献 RFCに準拠したメールアドレスの正規表現メールアドレスについては RFC 5322 に addr-spec として書かれています．下記は RFC 5322 に従って導き出した正規表現です． 14,277バイトあります．

retlet 2012/09/11

regex

リンク

Perl正規表現雑技

このページは Perl5.6 を対象としています． perl スクリプトは EUC-JP で書かれることを想定しています．このページは正規表現メーリングリストを参考に，私が独自にメモとしてまとめたものです．このページの正規表現やスクリプトについての詳しい説明，わかりやすい説明はおそらくできません．このページに書かれているスクリプトは，個人の責任において実行してください．このページに書かれているスクリプトの利用・改造は自由です．その際はどこかにこのページの URI( http://www.din.or.jp/~ohzaki/regex.htm )を参考として記述していただければ幸いです(任意)．ご意見・ご感想・ご要望などはにお願いします．こう書いた方がいい，動かん，わからん，バグってる，これ書け，などなどお待ちしています．このページへのリンクは自由に張ってく

retlet 2011/05/11

regex

リンク

http://www.5ive.info/blog/archives/757

See related links to what you are looking for.

retlet 2010/03/26

regex

リンク

間違いだらけの正規表現講座 level 11 - Ukiwiki

現在このページは書き直し中です。ご意見などはこちらへ \d+(?!円)では「100円」の「10」にマッチすのでは -- hogehoge 2010-09-22 (水) 17:00:20 ご指摘の通りですね。もっと良い説明の仕方を思いつくまでこのページは封印しておきます。 -- うきや 2010-09-25 (土) 20:04:57 「([0-9]*)けののけ」ではダメでしょうか？ -- hogehoge 2010-11-10 (水) 08:52:58 お名前:

retlet 2010/03/12

regex

リンク

すべてカタカナかどうか調べる - [正規表現/PHP] ぺんたん info

UTF-8 if(preg_match("/^[ァ-ヾ]+$/u",$str)){ echo "カタカナのみです"; }else{ echo "カタカナのみではありません"; } UTF-8 コード表記 if(preg_match("/^(¥xe3¥x82[¥xa1-¥xbf]|¥xe3¥x83[¥x80-¥xbe])+$/u",$str)){ echo "カタカナのみです"; }else{ echo "カタカナのみではありません"; } UTFでは、修飾子『 u 』をつけないと、「ダ」を認識できないことがあります。 (修飾子『 i 』などをあわせてつけたとき) EUC-JP コード表記 if(preg_match("/^(¥xa5[¥xa1-¥xf6]|¥xa1[¥xb3¥xb4¥xbc])+$/",$str)){ echo "カタカナのみです"; }else{ echo "カタカナのみ

retlet 2009/12/16

regex

リンク

正規表現をエスケープする方法のメモ (Kanasansoft Web Lab.)

import java.util.regex.Pattern; class SampleEncodeRegExp{ public static void main(String[] args){ String escapedRegexp = Pattern.quote("a.c"); System.out.println(escapedRegexp); //=> \Qa.c\E System.out.println("a.c".matches(escapedRegexp)); //=> true System.out.println("abc".matches(escapedRegexp)); //=> false } } String escapedRegexp = Regexp.quote("a.c") puts escapedRegexp

retlet 2009/10/05

regex

リンク

正規表現の解説　上級編

一般的な正規表現を使ったツールでは中級編までの内容がそのまま使えると思います。たとえばSedやAWKならば問題なく使えます。ここではPerl等のかなり強力なツールでしか使えないような表現を説明します。もちろん、K2Editorでも使える表現です。以前出てきた繰り返し表現では、繰り返し回数を指定する事はできませんでした。たとえば、aの３回繰り返しを検索したい場合、「a+」では３回繰り返し以外でもマッチしてしまいます。ですから、「aaa」としなければなりません。拡張された表現では繰り返し回数を指定できます。基本的な書式は「{n,m}」です。 nが最小回数、mが最大回数です。最大と最小が同じ場合、つまり固定回数の時には「{n}」と書きます。 aの３回繰り返しは「a{3}」と書けます。２回以上５回以下の繰り返しは「{2,5}」と書けます。５回以上の繰り返しは「{5,

retlet 2009/08/14

regex

リンク

技術メモ帳 - 単語抽出するちょっとしたテクニック

shell のちょっとしたテクニック - odz buffer odzさんのところで単語の出現頻度を調べるためのワンライナーが紹介されている。単語抽出についてはいくつかやり方があるので紹介する。特に egrep -o は非常に実用的。もちろん、この話はリンク先において主題ではない。俺のただの自己満足。 tr -cs で単語抽出 $ tr -cs 'a-zA-Z' '\n' < ./.zshrc 上記コマンドで、a-zA-Zのみで構成される文字列を抽出できる。 -c オプションで、'a-zA-Z' の補集合(以外)を '\n' に変換し、 -s オプションで、最後の引数で指定される要素の重複を除去している。すなわち '\n' の連続を除去している。 grep -o で単語抽出 grepには、( -o、--only-matching ) オプションというのがある。これは、指定された正

retlet 2009/07/02

regex

リンク

SimplyTerms - 正規表現

正　規　表　現正規表現とは、文字列のパターンを指定する方法です。翻訳者や編集者のように、文字の並びを加工する人にとって、強力でとても便利なツールになります。「整形・置換」タブで表示される機能は、みな、正規表現で実現されています。そのほとんどは、1行からせいぜい10行程度。これだけで、さまざまな機能を実現することができるのです。正規表現は、SimplyTermsだけでなく、秀丸などのエディタ、Word・一太郎などのワープロソフトでも使えます。それぞれに微妙な違いがありますが、一つ、覚えれば、他もかなり使えるようになります。簡単に使えるように、ヘルプにガイドをつけるとともに、SimplyTermsに正規表現ファイル作成ツールを組み込んであります。これを機会に、ぜひ、覚えてください。正規表現ファイルの注意点 SimplyTerms用に正規表現ファイルを作る場合、以下の点に注意してくださ

retlet 2009/03/25

regex

リンク

.NET TIPS 文字列のひらがな／カタカナをチェックするには？ - C# - ＠IT

ここで、次に示すように表中のブロック名の先頭に“Is”を付け文字列を中カッコでくくり、“\p”を付けたものが正規表現における「名前付き文字クラス」となる（文字列が漢字だけからなるかどうかのチェックは実際の業務システムではあまりないと思われるが、参考までに漢字についても併記しておく）。 \p{IsHiragana} \p{IsKatakana} \p{IsCJKUnifiedIdeographs} これらの正規表現はブロック名が示す範囲に含まれる文字と一致する。よって、例えばひらがなだけからなる文字列と一致する正規表現は次のようになる。 ^\p{IsHiragana}*$ ここで、“＾”は行頭、“＄”は行末にマッチし、“＊”は直前の要素の0個以上の繰り返しにマッチする。正規表現とそのプログラミングについては「スマートな文字列処理のための正規表現入門」で解説されているのでそちらを参考にしていた

retlet 2009/03/16

regex

リンク

MODULE.JP - 日本語に絡むUnicodeブロックとスクリプト(正規表現)

といった感じ。ちなみにjava.util.regexとPerlのUnicodeブロックは接頭子Inを使うが、.NETの場合は接頭子Isを使う、という差異があります。 Unicodeスクリプトとブロックの違いがビミョーに見えるけど、ブロックがコードブロックをゴリッと指定したものに対して、スクリプトは特定言語に関係する文字の種類を直接指定するものなのでブロックよりも断定的、って感じで見れば良かなと。ちなみにUnicode関連のドキュメントによるとUnicodeプロパティとスクリプトで日本語の文章を表そうとすると m/(?:(?:\p{Hiragana}|\p{Katakana}|\p{Han}|\p{Latin}|\p{Common}) (?:\p{Inherited}|\p{Me}|\p{Mn})?)+/x; こんな感じになるそうな。実際流通している文章はこれより多様なので現実とは微妙に乖離

retlet 2009/03/15

regex

リンク

大体の日本語文字にヒットする正規表現 - m.tamaki's Memorandum 2.

[ぁ-ヶ]|[亜-黑]上を秀丸とかで正規表現で検索すればOK(Ref: ht...

retlet 2009/03/15

regex

リンク

れぶろぐ - [regexp] ある文字列を含まないものにマッチする正規表現

■ ある文字列を含まないものにマッチする正規表現どう書けばいいのか分からなかったので、検索してみた。 Perl正規表現雑技ある文字列を含まないものにマッチする正規表現 (?:(?!foo).)* ?: の部分は、キャプチャしないことを高速化のために指定しているだけなので、本質的な部分だけ取り出すと以下のようになる。 ((?!foo).)* なるほど。「foo を前に持たない文字」だけで構成されている、という正規表現なわけか。ついでに、もう少し具体的な例を。今回やりたかったのは、（大文字小文字は区別せず）foo や bar を含む文字列は除外したい、というもの。そのための正規表現は、次のようになる。 '/^(?:(?!(?:foo|bar)).)*$/i' ただし、PHP の場合は、 Holes in most preg_match() filters - PHP Secur

retlet 2009/03/11

regex

リンク

fam.cx

This domain may be for sale!

retlet 2008/12/10

regex

リンク

マルチバイト文字の正規表現 - himadatanode’s blog

マルチバイト文字は無理なのかと勘違いしてたけど、色々やってたら普通に出来た。[a-z]見たいな感じで[ａ-ｚ]で何の ■全角の正規表現 [０-９]：全角数字 [ａ-ｚ]：全角アルファベットのａ〜ｚ [Ａ-Ｚ]：全角アフファベットのＡ〜Ｚ [ぁ-ん]：あいうえおの50音　*1 [ァ-ヶ]：カタカナ [ァ-ヶ]は調べたら書いてあっただけなので自分は試してないけど問題もない様子。ついでにマルチバイト文字と普通の文字を識別したい、コレを直したの、マルチバイトの文字列を間違って使ってなんかエラーが出て動かないとか、そういうのを防ごうかと思って、適当に作ってみた奴。 ■具体的にすること *multi-byte-number-notifier* *multi-byte-symbol-notifier* *multi-byte-alphabet-notifier* で夫々指定した正規表現の文字を、設定し

retlet 2008/11/18

regex

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

regexに関するretletのブックマーク (31)

お知らせ

今週のはてなブックマーク数ランキング（2025年2月第4週）

今週のはてなブックマーク数ランキング（2025年2月第3週）

今週のはてなブックマーク数ランキング（2025年2月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

pFad - (p)hone/(F)rame/(a)nonymizer/(d)eclutterfier! Saves Data!