Gauche ユーザリファレンス: 6.10 文字列

6.10 文字列

Builtin Class: <string>: 文字列のクラスです。Gaucheでは、文字列は文字のシーケンスともバイトのシーケンスともみなすことができます。

GaucheではSchemeの文字列は、内部的には、変更不可能なオブジェクト(文字列実体)を用いて表現されている、ということを強調しておきます。文字列が変更可能であるR5RSの仕様を満たすために、Schemeレベルの文字列は文字列実体への間接ポインタとなっています。文字列を変更すると、変更を反映した新しいstring bodyが作成され、Schemeレベルの文字列が新しい文字列実体を指すように変更されます。

このことから、文字列操作の性能を見積る場合に注意が必要です。

文字列のコピーは、それがどんなに長い文字列であっても常にO(1)です。文字列実体は共有されるからです。
部分文字列を取る操作も通常はO(1)です。文字列実体を部分的に共有するからです。メモリ管理上の都合から文字列実体の一部がコピーされる可能性はありますが、ほとんどの場合はO(1)とみなして構いません。(ただし、マルチバイト文字処理の都合上、文字インデックスで文字列の途中を指定する操作は別途O(N)を要する場合があります)
一方で、文字列の変更はたとえ1文字の変更であっても、文字列実体の長さNに比例したO(N)のコストを必要とします。

Gaucheはそもそも文字列の変更に関して全く最適化を行っていません。 (string-set! s k c)は、k番目の文字の前後の部分文字列を取って、 c一文字の文字列を間に挟んで継ぎ足すことで新たな文字列を作るのと全く同じコストがかかります。文字列を変更不可として扱う方が良いプログラミングスタイルだと考えるからです。文字列の構築子も参照してください。

R5RSに定義されている文字列操作は非常に限られています。 Gaucheでは追加の組込み手続きのほか、 SRFI-13に定義されている豊富な文字列ライブラリを備えています。 SRFI-13についてはsrfi-13 - 文字列ライブラリを参照してください。

[ < ]

[ > ]

[ << ]

[ Up ]

[ >> ]

[Top]

[Contents]

[Index]

[ ? ]

6.10.1 文字列の表記

Reader syntax: "…"

[R5RS+] リテラル文字列です。ダブルクオートの中では、以下のエスケープシーケンスが認識されます。

\": [R5RS] ダブルクオート文字
\\: [R5RS] バックスラッシュ文字
\n: 改行文字 (ASCII 0x0a)
\r: 復帰文字 (ASCII 0x0d)
\f: フォームフィード (ASCII 0x0c)
\t: タブ文字 (ASCII 0x09)
\0: NUL文字 (ASCII 0x00)
\<whitespace>*<newline><whitespace>*: 無視されます。長い文字列リテラルを読みやすさのために折り返す時に便利です。このエスケープシーケンスはR6RSで導入されました。
\xNN: 2桁の16進数NNで指定されるバイト。このバイトは内部エンコーディングによって解釈されます。
\uNNNN: 4桁の16進数NNNNによって示されるUCS2コードを持つ文字。
\UNNNNNNNN: 8桁の16進数NNNNNNNNによって示されるUCS4コードを持つ文字。

GaucheがUTF-8以外の内部エンコーディングでコンパイルされていた場合、リーダーはgauche.charconvモジュールを使ってエスケープシーケンス\uNNNNと\UNNNNNNNNの解釈を行います。

下はバックスラッシュ-改行エスケープシーケンスの使用例です。

(define *message* "\
  This is a long message \
  in a literal string.")

*message*  
  ⇒ "This is a long message in a literal string."

`message' の後の空白に注意してください。`in'の前の空白は読み込みルーチンによって無視されてしまうので、空白を入れたければ`message'と続くバックスラッシュの間に入れる必要があります。もし文字列中に実際に改行文字を入れ、さらにその後の文字列をインデントさせたい場合は次のようにすると良いでしょう:

(define *message/newline* "\
  This is a long message, \
  \n   with a line break.")

Reader syntax: #*"…"

不完全な文字列のリテラル表記です。完全な文字列と同様のエスケープシーケンスが使えます。

'#*' という構文はCommon Lispでビットベクタの表記に使われています。不完全な文字列は実際はバイトベクタであることから、類似点を認めてこの構文を採用しました。(もし将来必要になってビットベクタが実装されたとしても、この構文と共存できます)。

[ < ]

[ > ]

[ << ]

[ Up ]

[ >> ]

[Top]

[Contents]

[Index]

[ ? ]

6.10.2 文字列に関する述語

Function: string? obj: [R5RS] objが文字列なら#tを、そうでなければ#fを返します。

Function: string-immutable? obj: objが変更不可な文字列なら#tを、そうでなければ#fを返します。

Function: string-incomplete? obj: objが不完全文字列なら#tを、そうでなければ#fを返します。

[ < ]

[ > ]

[ << ]

[ Up ]

[ >> ]

[Top]

[Contents]

[Index]

[ ? ]

6.10.3 文字列の構築子

Function: make-string k &optional char

[R5RS] 長さkの文字列を作成して返します。 charが与えられればそれで内容を満たします。charが与えられなければ空白文字で満たされます。常に完全な文字列が返されます。

(make-string 5 #\x) ⇒ "xxxxx"
(make-string 5 #\ふ) ⇒ "ふふふふふ"

make-stringで必要な長さの文字列をアロケートして、string-set! で順番に埋めて行くアルゴリズムは、Gaucheでは極めて非効率であることに注意してください。そのようなアルゴリズムは、文字列の内部表現とアロケーションメカニズムに関して不必要な仮定を置いており、Gaucheはその仮定とは合致しません。文字列の順次作成に適しているのは文字列ポートです (文字列ポート参照)。それが使えない場合、文字のリストを作成し、list->stringで変換する方がまだmake-stringと string-set!を使うより良いでしょう。

Function: make-byte-string k &optional byte: 大きさkの不完全な文字列を作成して返します。 byteが与えられた場合は、その下位1バイトで文字列の各バイトを初期化します。 byteは正確な整数でなければなりません。

Function: string char …: [R5RS] 文字char … から構成された文字列を返します。

Generic Function: x->string obj

文字列への強制型変換手続きです。 objの文字列表現を返します。デフォルトのメソッドでは、文字列はそのまま返され、数値はnumber->stringで、シンボルはsymbol->stringで変換され、その他のオブジェクトはdisplay表現が使われます。

他のクラスはこのメソッドを定義することにより、独自の変換関数を提供することができます。

[ < ]

[ > ]

[ << ]

[ Up ]

[ >> ]

[Top]

[Contents]

[Index]

[ ? ]

6.10.4 文字列の補間

「文字列の補間(string interpolation)」という用語は、 PerlやPythonなど様々なスクリプト言語で、文字列リテラル内に式を埋め込んでおき実行時に式を評価した値をそのリテラル内に埋め込む機能を指します。

Schemeはそのような機能を定義していませんが、Gaucheではリーダーマクロを使って文字列の補間を実装しました。

Reader syntax: #`string-literal

文字列に評価されます。string-literal内に、,expr というシーケンス(ここでexprは有効なScheme式の外部表現)が現われたら、exprが評価されてその結果がもとの位置に埋め込まれます。結果の文字列化にはx->stringが使われます(文字列の構築子参照)。

コンマと続く式とは、空白文字等を入れずに隣接していなければなりません。そうでない場合は置換されません。

二つの連続するコンマは一つのリテラルのコンマ文字に置き換えられます。これによって、コンマと非空白文字の連続をstring-literalに入れることができます。

それ以外のstring-literal内の文字シーケンスはそのままコピーされます。

Exprに単独の変数を使う場合で、それに続く文字列と変数名を区切りたい場合は、`|'文字を使ったシンボルエスケープ構文が使えます。下の例の最後の 2つを見て下さい。

#`"This is Gauche, version ,(gauche-version)."
 ⇒ "This is Gauche, version 0.9."

#`"Date: ,(sys-strftime \"%Y/%m/%d\" (sys-localtime (sys-time)))"
 ⇒ "Date: 2002/02/18"

(let ((a "AAA")
      (b "BBB"))
 #`"xxx ,a ,b zzz")
 ⇒ "xxx AAA BBB zzz"

#`"123,,456,,789"
 ⇒ "123,456,789"

(let ((n 5)) #`"R,|n|RS")
 ⇒ "R5RS"

(let ((x "bar")) #`"foo,|x|.")
 ⇒ "foobar"

実は、リーダーはこの構文をマクロ呼び出しへと変換し、それが最終的には string-appendへの呼び出しへと変換されます。

#`"This is Gauche, version ,(gauche-version)."
 ≡
(string-append "This is Gauche, version "
               (x->string (gauche-version))
               ".")

この構文を採用した理由: 他のスクリプト言語では、`$expr' や '#{...}' が良く使われています。準クオート (準クオート(Quasiquote)参照) との類似性からこの構文を採用しました。変数名の区切りを明確にするのに`|'を使う必要があるのは少々奇妙ですが、慣れたSchemeプログラマならコンマ構文を読むのは他の言語から借りた構文よりも楽だと思います。

[ < ]

[ > ]

[ << ]

[ Up ]

[ >> ]

[Top]

[Contents]

[Index]

[ ? ]

6.10.5 文字列のアクセスと変更

Function: string-length string: [R5RS] 文字列stringの長さ(文字数)を返します。 stringは不完全な文字列であっても構いません。

Function: string-size string

文字列stringの大きさを返します。文字列の大きさは、 stringが占めるメモリ上のバイト数で、これは文字列の内部エンコーディングに依存します。同じ文字列であっても内部エンコーディングが違えば違う大きさになる場合もあります。

不完全な文字列では、文字列の長さと大きさは常に一致します。

Function: string-ref cstring k &optional fallback

[R5RS+] 完全な文字列cstringのk番目の文字を返します。不完全な文字列を渡すのはエラーです。

kが負数であったりcstringの長さと同じかそれ以上であった場合にはエラーが報告されます。但し、引数fallbackが与えられている場合にはエラーを報告せずfallbackが返されます。これはGaucheの拡張です。

Function: string-byte-ref string k: (多分、不完全な)文字列stringのk番目のバイトを返します。戻り値は、0から255の範囲の整数です。kは0以上、 (string-size string)より小でなければなりません。

Function: string-set! string k char

[R5RS] stringのk番目の文字をcharで置き換えます。 kは0以上、(string-length string)より小でなければなりません。戻り値は未定義です。

stringが不完全文字列の場合、charの下位8ビットの整数値は、 stringのk番目のバイトをセットするために使われます。

パフォーマンス上の考慮点について、make-stringの説明を参照して下さい。

Function: string-byte-set! string k byte: stringのk番目のバイトを整数byteで置き換えます。 byteは0から255の範囲(255を含む)でなければなりません。 kは0以上、(string-size string)より小である必要があります。 stringが完全文字列の場合、この操作により不完全文字列になります。戻り値は未定義です。

[ < ]

[ > ]

[ << ]

[ Up ]

[ >> ]

[Top]

[Contents]

[Index]

[ ? ]

6.10.6 文字列の比較

Function: string=? string1 string2
Function: string-ci=? string1 string2: [R5RS]

Function: string<? string1 string2
Function: string<=? string1 string2
Function: string>? string1 string2
Function: string>=? string1 string2
Function: string-ci<? string1 string2
Function: string-ci<=? string1 string2
Function: string-ci>? string1 string2
Function: string-ci>=? string1 string2: [R5RS]

[ < ]

[ > ]

[ << ]

[ Up ]

[ >> ]

[Top]

[Contents]

[Index]

[ ? ]

6.10.7 文字列を扱うその他の手続き

Function: substring string start end

[R5RS] stringのstart番目の文字(これを含む)から、end番目の文字(これを含まない)までの部分文字列を返します。引数startおよび endは以下を満さなければなりません。 0 <= start < N、 0 <= end <= N、 start <= end。ただし、Nは与えられた文字列の長さです。

startがゼロでかつendがNの場合には、stringのコピーが返ります。

実は後述する拡張されたstring-copyはsubstringのスーパーセットになっています。この手続きの役割は主にR5RSとの互換性のためです。 gauche.sequence - シーケンスフレームワークのジェネリック版subseqも参照してください。

Function: string-append string …

[R5RS] string …を連結した内容を含む文字列を新しくアロケートして返します。

文字列の反転と追加のstring-concatenateも参照してください。

Function: string->list string &optional start end

Function: list->string list

[R5RS+][SRFI-13] 文字列を文字のリストへ、またはその逆の変換をします。

string->listにはオプショナル引数として開始、終了位置のインデックスを渡せます。これはSRFI-13で規定されています。

list->stringではlistの要素はすべて文字でなければなりません。そうでなければ、エラーシグナルがあがります。文字列や文字がまざったリストから文字列を構成したい場合にはtext.tree - 怠惰なテキスト構築にある tree->stringが使えます。

Function: string-copy string &optional start end

[R5RS+][SRFI-13] stringのコピーを返します。startおよび/あるいはendの位置インデックスを渡すと元の文字列の部分文字列を取り出せます。 (したがってstring-copyは事実上substringのスーパーセットです)。

start引数のみを与えた場合には、部分文字列はstart番目の文字 (これを含む)からstringの最後までで、それが返ります。 startとendの両方を与えたときは、部分文字列はstart番目の文字(これを含む)から、end番目の文字(これを含まない)までで、それが返ります。startとendが満すべき条件については前述のsubstringの項を見てください。

Function: string-fill! string char &optional start end

[R5RS+][SRFI-13] string を char で埋めます。オプションの start と end は、影響を受ける領域を制限します。

(string-fill! "orange" #\X)
  ⇒ "XXXXXX"
(string-fill! "orange" #\X 2 4)
  ⇒ "orXXge"

Function: string-join strs &optional delim grammer

[SRFI-13] リスト strs 中にある文字列を、文字列 delim を'糊' として連結します。

引数 grammer は、文字列がどのように連結されるかを指定するシンボルで、以下のうちの一つです。

infix

それぞれの文字列の間に delim を使います。このモードがデフォルトです。strs が空文字列かヌル文字列を含むリストである場合は、曖昧に(適当に)動作します。

(string-join '("apple" "mango" "banana") ", ") 
  ⇒ "apple, mango, banana"
(string-join '() ":")
  ⇒ ""
(string-join '("") ":")
  ⇒ ""

strict-infix

infix のように動作しますが、strs には空リストは許されません。したがって、曖昧さはありません。

prefix

delim をそれぞれの文字列の前に補います。

(string-join '("usr" "local" "bin") "/" 'prefix)
  ⇒ "/usr/local/bin"
(string-join '() "/" 'prefix)
  ⇒ ""
(string-join '("") "/" 'prefix)
  ⇒ "/"

suffix

delim をそれぞれの文字列の後ろに補います。

(string-join '("a" "b" "c") "&" 'suffix)
  ⇒ "a&b&c&"
(string-join '() "&" 'suffix)
  ⇒ ""
(string-join '("") "&" 'suffix)
  ⇒ "&"

Function: string-scan string item &optional return

string にある item (文字列あるいは文字)を探します。引数 return は、string 中に item が見つかった場合にどの値が返されるかを指定します。それは以下のシンボルのうちの一つでなければなりません。

index

item が見つかった場合はstring 内でのインデックス、そうでなければ #f を返します。これがデフォルトの振る舞いです。

(string-scan "abracadabra" "ada") ⇒ 5
(string-scan "abracadabra" #\c) ⇒ 4
(string-scan "abracadabra" "aba") ⇒ #f

before

item よりも前にある string の部分文字列、あるいは item が見つからなければ #f を返します。

(string-scan "abracadabra" "ada" 'before) ⇒ "abrac"
(string-scan "abracadabra" #\c 'before) ⇒ "abra"

after

item より後ろにある string の部分文字列、あるいは item が見つからなければ #f を返します。

(string-scan "abracadabra" "ada" 'after) ⇒ "bra"
(string-scan "abracadabra" #\c 'after) ⇒ "adabra"

before*

item の前にある string の部分文字列と後ろにある string の部分文字列を返します。item が見つからない場合は、 (values #f #f) を返します。

(string-scan "abracadabra" "ada" 'before*)
  ⇒ "abrac" and "adabra"
(string-scan "abracadabra" #\c 'before*)
  ⇒ "abra" and "cadabra"

after*

string のうち、item の終端までの部分文字列とその残りを返します。item が見つからなかった場合は、(values #f #f) を返します。

(string-scan "abracadabra" "ada" 'after*)
  ⇒ "abracada" and "bra"
(string-scan "abracadabra" #\c 'after*)
  ⇒ "abrac" and "adabra"

both

string のうち、item の前と item の後ろの部分文字列を返します。item が見つからない場合、 (values #f #f) を返します。

(string-scan "abracadabra" "ada" 'both)
  ⇒ "abrac" and "bra"
(string-scan "abracadabra" #\c 'both)
  ⇒ "abra" and "adabra"

Function: string-split string splitter

string を splitter で分割し、文字列のリストを返します。 splitter には、文字、文字セット、文字列、正規表現、手続きが使えます。

splitter が文字の場合、その文字がデリミタとして使われます。

splitter が文字セットの場合は、その文字セットに含まれる文字の連続がデリミタとして使われます。

splitter に手続きが与えられた場合、string にある各文字に対してその手続きが呼ばれ、splitter が真の値を返すような連続した文字群がデリミタとして使われます。

(string-split "/aa/bb//cc" #\/)    ⇒ ("" "aa" "bb" "" "cc")
(string-split "/aa/bb//cc" "/")    ⇒ ("" "aa" "bb" "" "cc")
(string-split "/aa/bb//cc" "//")   ⇒ ("/aa/bb" "cc")
(string-split "/aa/bb//cc" #[/])   ⇒ ("" "aa" "bb" "cc")
(string-split "/aa/bb//cc" #/\/+/) ⇒ ("" "aa" "bb" "cc")
(string-split "/aa/bb//cc" #[\w])  ⇒ ("/" "/" "//" "")
(string-split "/aa/bb//cc" char-alphabetic?) ⇒ ("/" "/" "//" "")

;; some boundary cases
(string-split "abc" #\/) ⇒ ("abc")
(string-split ""    #\/) ⇒ ("")

string-tokenize (他の文字列操作) も参照して下さい。

[ < ]

[ > ]

[ << ]

[ Up ]

[ >> ]

[Top]

[Contents]

[Index]

[ ? ]