关于go:String的底层实现1

String的底层实现（1）

原理

字符串能够分为两种：

在编译时确定其长度，值不能够批改
不在编译时确定其长度，在运行时能够动静批改其长度，值能够批改

计算机中应用二进制来体现数据，字符串在计算机中也是以二进制进行示意。那么问题来了：怎么确定哪段二进制示意的是字符串而不是其余类型的数据？

字符串的首地址咱们能够很容易失去，重点在于怎么确定字符串的完结地位。

所以咱们须要拆分二进制，能够通过分隔符来拆分（遇到分隔符示意从zi），也能够通过实现确定字符串的长度来拆分。

C语言通过字符数组的最初一位为"\0"作为字符串的定界符
Go应用长度来记录字符串边界，字符的长度就是数组大小

应用分隔符进行拆分须要N+1的字符数组来示意一个长度为N的字符串，并且字符数组最初一位总是空字符"\0"。

string的概念

// string is the set of all strings of 8-bit bytes, conventionally but not
// necessarily representing UTF-8-encoded text. A string may be empty, but
// not nil. Values of string type are immutable.
type string string

string 是所有 8 位字节字符串的汇合，通常但不肯定代表 UTF-8 编码的文本。
字符串能够为空（长度为 0），但不会是 nil。
字符串类型的值是不可变的。

Go中的字符串实际上是一个只读的字节切片[]byte。这答复了”当我在地位n索引 Go 字符串时，为什么我没有失去第 n 个字符？”这个问题：字符串是从字节构建的，因而对它们进行索引会产生字节，而不是字符。字符串甚至可能不蕴含字符。

字符串常量会在编译期调配到只读段，对应数据地址不可写入，雷同的字符串常量不会反复存储

如果是代码中存在的字符串，编译器会将其标记成只读数据 SRODATA 。

package main

func main() {
    s := "golang"
    println(s)
}

go.string."golang" SRODATA dupok size=6
        0x0000 67 6f 6c 61 6e 67                                golang

stringStruct

type stringStruct struct {
    // str是字符串的首地址
    str unsafe.Pointer
    // len是字符串的长度
    len int
}

为什么是只读的呢？

string 通常指向字符串字面量，字面量存储的地位是只读段，并不是堆或栈上，所以 string 不能被批改。

应用长度来记录字符串的益处是什么？

如果应用分隔符则获取字符串的长度必须遍历整个字符串，工夫复杂度为O（N）；

因为stringStruct中记录了字符串的长度，所以工夫复杂度为O（1）。

解析

Go中的字符串能够应用反引号(“)和双引号（””）。

s := `Golang`
s := "Golang"

双引号申明与其余语言统一，它只能用于单行字符串的初始化，如果字符串外部呈现双引号，须要应用 \ 符号防止编译器的解析谬误，而反引号申明的字符串能够解脱单行的限度。当应用反引号时，因为双引号不再负责标记字符串的开始和完结，咱们能够在字符串外部间接应用 "。

func (s *scanner) stdString() {
    ok := true
    s.nextch()

    for {
        if s.ch == '"' {
            s.nextch()
            break
        }
        if s.ch == '\\' {
            s.nextch()
            if !s.escape('"') {
                ok = false
            }
            continue
        }
        if s.ch == '\n' {
            s.errorf("newline in string")
            ok = false
            break
        }
        if s.ch < 0 {
            s.errorAtf(0, "string not terminated")
            ok = false
            break
        }
        s.nextch()
    }

    s.setLit(StringLit, ok)
}

规范字符串应用双引号示意结尾和结尾
规范字符串须要应用反斜杠 \ 来逃逸双引号
规范字符串不能呈现隐式换行 \n

func (s *scanner) rawString() {
    ok := true
    s.nextch()

    for {
        if s.ch == '`' {
            s.nextch()
            break
        }
        if s.ch < 0 {
            s.errorAtf(0, "string not terminated")
            ok = false
            break
        }
        s.nextch()
    }
    // We leave CRs in the string since they are part of the
    // literal (even though they are not part of the literal
    // value).

    s.setLit(StringLit, ok)
}

rawString会将非反引号的所有字符都划分到以后字符串的范畴中，所以咱们能够应用它反对简单的多行字符串：

关于go:String的底层实现1

String的底层实现（1）

原理

string的概念

stringStruct

解析

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于go:String的底层实现1

String的底层实现（1）

原理

string的概念

stringStruct

解析

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复