python字符串驻留技术的示例分析

  

小编给大家分享一下python字符串驻留技术的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!

前言

每种编程语言为了表现出色,并且实现卓越的性能,都需要有大量编译器级与解释器级的优化。

由于字符串是任何编程语言中不可或缺的一个部分,因此,如果有快速操作字符串的能力,就可以迅速地提高整体的性能。

在本文中,我们将深入研究 Python 的内部实现,并了解 Python 如何使用一种名为字符串驻留(String Interning)的技术,实现解释器的高性能。本文的目的不仅在于介绍 Python 的内部知识,而且还旨在使读者能够轻松地浏览 Python 的源代码;因此,本文中将有很多出自CPython的代码片段。

全文提纲如下:

python字符串驻留技术的示例分析

1、什么是“字符串驻留”?

字符串驻留是一种编译器/解释器的优化方法,它通过缓存一般性的字符串,从而节省字符串处理任务的空间和时间。

这种优化方法不会每次都创建一个新的字符串副本,而是仅为每个适当的不可变值保留一个字符串副本,并使用指针引用之。每个字符串的唯一拷贝被称为它的intern,并因此而得名 String Interning。

String Interning 一般被译为“字符串驻留”或“字符串留用”,在某些语言中可能习惯用 String Pool(字符串常量池)的概念,其实是对同一种机制的不同表述。intern 作为名词时,是“实习生、实习医生”的意思,在此可以理解成“驻留物、驻留值”。

查找字符串 intern 的方法可能作为公开接口公开,也可能不公开。现代编程语言如 Java、Python、PHP、Ruby、Julia 等等,都支持字符串驻留,以使其编译器和解释器做到高性能。

python字符串驻留技术的示例分析

2、为什么要驻留字符串?

字符串驻留提升了字符串比较的速度。如果没有驻留,当我们要比较两个字符串是否相等时,它的时间复杂度将上升到 O(n),即需要检查两个字符串中的每个字符,才能判断出它们是否相等。

但是,如果字符串是固定的,由于相同的字符串将使用同一个对象引用,因此只需检查指针是否相同,就足以判断出两个字符串是否相等,不必再逐一检查每个字符。由于这是一个非常普遍的操作,因此,它被典型地实现为指针相等性校验,仅使用一条完全没有内存引用的机器指令。

字符串驻留减少了内存占用。Python 避免内存中充斥多余的字符串对象,通过享元设计模式共享和重用已经定义的对象,从而优化内存占用。

3、Python的字符串驻留

像大多数其它现代编程语言一样,Python 也使用字符串驻留来提高性能。在 Python 中,我们可以使用is运算符,检查两个对象是否引用了同一个内存对象。

因此,如果两个字符串对象引用了相同的内存对象,则is运算符将得出True,否则为False。

 >> & # 39;python # 39;& # 39;python # 39;

,真正的

我们可以使用这个特定的运算符,来判断哪些字符串是被驻留的。在CPython的,字符串驻留是通过以下函数实现的,声明在unicodeobject。h中,定义在unicodeobject。c中。

PyAPI_FUNC(空白),PyUnicode_InternInPlace (PyObject  * *),

为了检查一个字符串是否被驻留,CPython的实现了一个名为PyUnicode_CHECK_INTERNED的宏,同样是定义在unicodeobject。h中。

这个宏表明了Python在PyASCIIObject结构中维护着一个名为实习的成员变量,它的值表示相应的字符串是否被驻留。

# define  PyUnicode_CHECK_INTERNED (op), \   ,,,,,(((PyASCIIObject  *) (op))→state.interned)

4字符串驻留的原理

在CPython的中,字符串的引用被一个名为实习的Python字典所存储,访问和管理。该字典在第一次调用字符串驻留时,被延迟地初始化,并持有全部已驻留字符串对象的引用。

4.1如何驻留字符串?

负责驻留字符串的核心函数是PyUnicode_InternInPlace,它定义在unicodeobject。c中,当调用时,它会创建一个准备容纳所有驻留的字符串的字典实习过,然后登记入参中的对象,令其键和值都使用相同的对象引用。

以下函数片段显示了Python实现字符串驻留的过程。

python字符串驻留技术的示例分析