结构化数组#
简介#
结构化数组是ndarrays,其数据类型是由组织为命名 fields 序列的更简单的数据类型组成.例如,:
>>> x = np.array([('Rex', 9, 81.0), ('Fido', 3, 27.0)],
... dtype=[('name', 'U10'), ('age', 'i4'), ('weight', 'f4')])
>>> x
array([('Rex', 9, 81.), ('Fido', 3, 27.)],
dtype=[('name', '<U10'), ('age', '<i4'), ('weight', '<f4')])
这里 x 是一个长度为2的一维数组,其数据类型是一个包含三个字段的结构:1. 一个长度为10或更少的字符串,名为’name’,2. 一个名为’age’的32位整数,3. 一个名为’weight’的32位浮点数.
如果在位置1索引 x ,你将得到一个结构:
>>> x[1]
np.void(('Fido', 3, 27.0), dtype=[('name', '<U10'), ('age', '<i4'), ('weight', '<f4')])
您可以通过使用字段名称进行索引来访问和修改结构化数组的各个字段:
>>> x['age']
array([9, 3], dtype=int32)
>>> x['age'] = 5
>>> x
array([('Rex', 5, 81.), ('Fido', 5, 27.)],
dtype=[('name', '<U10'), ('age', '<i4'), ('weight', '<f4')])
结构化数据类型旨在模拟C语言中的’structs’,并共享类似的内存布局. 它们用于与C代码接口,以及用于结构化缓冲区的低级操作,例如用于解释二进制blob. 为此,它们支持诸如子数组,嵌套数据类型和联合之类的专用功能,并允许控制结构的存储器布局.
希望处理表格数据的用户,例如存储在 csv 文件中的数据,可能会发现其他 pydata 项目更适合,例如 xarray,pandas 或 DataArray.这些项目为表格数据分析提供了一个高级接口,并且针对该用途进行了更好的优化.例如,与此相比,numpy 中结构化数组的类似 C 结构的内存布局可能会导致较差的缓存行为.
结构化数据类型#
可以将结构化数据类型视为具有特定长度(结构的 itemsize )的字节序列,该序列被解释为字段的集合.每个字段都有一个名称,一个数据类型和一个结构内的字节偏移量.字段的数据类型可以是任何 numpy 数据类型,包括其他结构化数据类型,它也可以是 subarray data type ,其行为类似于指定形状的 ndarray.字段的偏移量是任意的,字段甚至可能重叠.这些偏移量通常由 numpy 自动确定,但也可以指定.
结构化数据类型创建#
可以使用函数 numpy.dtype 创建结构化数据类型. 有 4 种可选的指定形式,它们的灵活性和简洁性各不相同. 这些在 Data Type Objects 参考页面中有更详细的说明,总结如下:
元组列表,每个字段一个元组
每个元组的形式为
(fieldname, datatype, shape),其中 shape 是可选的.fieldname是一个字符串(或者如果使用标题,则为元组,请参见下面的 Field Titles ),datatype可以是任何可转换为数据类型的对象,而shape是一个整数元组,用于指定子数组形状.>>> np.dtype([('x', 'f4'), ('y', np.float32), ('z', 'f4', (2, 2))]) dtype([('x', '<f4'), ('y', '<f4'), ('z', '<f4', (2, 2))])
如果
fieldname是空字符串'',则该字段将被赋予默认名称f#,其中#是该字段的整数索引,从左侧从 0 开始计数:>>> np.dtype([('x', 'f4'), ('', 'i4'), ('z', 'i8')]) dtype([('x', '<f4'), ('f1', '<i4'), ('z', '<i8')])
结构中字段的字节偏移和总结构大小都自动确定.
逗号分隔的 dtype 规范的字符串
在这种简写表示法中,任何 string dtype specifications 都可以用在字符串中,并用逗号分隔.字段的 itemsize 和字节偏移量是自动确定的,字段名称被赋予默认名称
f0,f1等.:>>> np.dtype('i8, f4, S3') dtype([('f0', '<i8'), ('f1', '<f4'), ('f2', 'S3')]) >>> np.dtype('3int8, float32, (2, 3)float64') dtype([('f0', 'i1', (3,)), ('f1', '<f4'), ('f2', '<f8', (2, 3))])
字段参数数组的字典
这是最灵活的指定形式,因为它允许控制字段的字节偏移量和结构的 itemsize.
该字典有两个必需的键:“names”和“formats”,以及四个可选的键:“offsets”,“itemsize”,“aligned”和“titles”.“names”和“formats”的值应分别为字段名称列表和 dtype 规范列表,长度相同.可选的“offsets”值应为整数字节偏移量的列表,结构中每个字段一个.如果未给出“offsets”,则自动确定偏移量.可选的“itemsize”值应为整数,描述 dtype 的总大小(以字节为单位),该大小必须足够大以包含所有字段.:
>>> np.dtype({'names': ['col1', 'col2'], 'formats': ['i4', 'f4']}) dtype([('col1', '<i4'), ('col2', '<f4')]) >>> np.dtype({'names': ['col1', 'col2'], ... 'formats': ['i4', 'f4'], ... 'offsets': [0, 4], ... 'itemsize': 12}) dtype({'names': ['col1', 'col2'], 'formats': ['<i4', '<f4'], 'offsets': [0, 4], 'itemsize': 12})
可以选择偏移量,使字段重叠,尽管这意味着分配给一个字段可能会破坏任何重叠字段的数据.作为例外,由于存在破坏内部对象指针然后取消引用的风险,因此
numpy.object_类型的字段不能与其他字段重叠.可以将可选的“aligned”值设置为
True,以使自动偏移量计算使用对齐的偏移量(请参见 自动字节偏移和对齐 ),就像已将numpy.dtype的“align”关键字参数设置为 True 一样.可选的“titles”值应为与“names”长度相同的标题列表,请参阅下面的 Field Titles .
字段名称的字典
字典的键是字段名称,值是指定类型和偏移量的元组:
>>> np.dtype({'col1': ('i1', 0), 'col2': ('f4', 1)}) dtype([('col1', 'i1'), ('col2', '<f4')])
这种形式不被推荐,因为在Python 3.6之前的Python版本中,Python字典不保留顺序. 可以使用3元组来指定 Field Titles , 见下文.
操作和显示结构化数据类型#
结构化数据类型的字段名称列表可以在 dtype 对象的 names 属性中找到:
>>> d = np.dtype([('x', 'i8'), ('y', 'f4')])
>>> d.names
('x', 'y')
可以通过名称查找每个单独字段的 dtype:
>>> d['x']
dtype('int64')
可以通过使用相同长度的字符串序列赋值给 names 属性来修改字段名称.
dtype 对象还有一个类似字典的属性 fields ,其键是字段名称(和 Field Titles ,见下文),其值是包含每个字段的 dtype 和字节偏移量的元组.:
>>> d.fields
mappingproxy({'x': (dtype('int64'), 0), 'y': (dtype('float32'), 8)})
对于非结构化数组, names 和 fields 属性都将等于 None . 建议使用 if dt.names is not None 而不是 if dt.names 来测试 dtype 是否为结构化的,以考虑具有 0 个字段的 dtype.
如果可能,结构化数据类型的字符串表示形式将以“元组列表”形式显示,否则 numpy 将回退到使用更通用的字典形式.
自动字节偏移和对齐#
Numpy 使用两种方法之一来自动确定字段字节偏移量和结构化数据类型的总 itemsize,具体取决于是否将 align=True 指定为 numpy.dtype 的关键字参数.
默认情况下 ( align=False ),numpy 会将字段打包在一起,以便每个字段都从前一个字段结束的字节偏移量开始,并且这些字段在内存中是连续的.:
>>> def print_offsets(d):
... print("offsets:", [d.fields[name][1] for name in d.names])
... print("itemsize:", d.itemsize)
>>> print_offsets(np.dtype('u1, u1, i4, u1, i8, u2'))
offsets: [0, 1, 2, 6, 7, 15]
itemsize: 17
如果设置了 align=True ,numpy 将以与许多 C 编译器填充 C 结构相同的方式填充该结构.对齐的结构可以在某些情况下提高性能,但代价是增加了数据类型的大小.在字段之间插入填充字节,以便每个字段的字节偏移量是该字段对齐方式的倍数,对于简单数据类型,该对齐方式通常等于字段的大小(以字节为单位),请参见 PyArray_Descr.alignment . 该结构还将添加尾随填充,以便其 itemsize 是最大字段对齐方式的倍数.:
>>> print_offsets(np.dtype('u1, u1, i4, u1, i8, u2', align=True))
offsets: [0, 1, 4, 8, 16, 24]
itemsize: 32
请注意,尽管几乎所有现代 C 编译器默认都以这种方式进行填充,但 C 结构中的填充与 C 实现有关,因此不能保证此内存布局与 C 程序中相应结构的内存布局完全匹配.可能需要在 numpy 侧或 C 侧进行一些工作才能获得完全对应.
如果使用基于字典的 dtype 规范中的可选 offsets 键指定了偏移量,则设置 align=True 将检查每个字段的偏移量是否为其大小的倍数以及 itemsize 是否为最大字段大小的倍数,如果不是,则引发异常.
如果结构化数组的字段偏移量和 itemsize 满足对齐条件,则该数组将设置 ALIGNED flag .
一个便捷函数 numpy.lib.recfunctions.repack_fields 将对齐的 dtype 或数组转换为打包的 dtype 或数组,反之亦然. 它接受 dtype 或结构化的 ndarray 作为参数,并返回一个重新打包了字段的副本,无论是否使用填充字节.
字段标题#
除了字段名称外,字段还可以具有关联的 title ,一个备用名称,有时用作该字段的附加描述或别名. 该标题可以像字段名称一样用于索引数组.
要在使用元组列表形式的dtype规范时添加标题,可以将字段名指定为由两个字符串组成的元组,而不是单个字符串,这两个字符串将分别是字段的标题和字段名.例如:
>>> np.dtype([(('my title', 'name'), 'f4')])
dtype([(('my title', 'name'), '<f4')])
当使用基于字典的规范的第一种形式时,标题可以作为额外的 'titles' 键提供,如上所述.当使用第二种(不推荐)基于字典的规范时,可以通过提供一个包含3个元素的元组 (datatype, offset, title) 来提供标题,而不是通常的包含2个元素的元组:
>>> np.dtype({'name': ('i4', 0, 'my title')})
dtype([(('my title', 'name'), '<i4')])
如果使用了任何标题, dtype.fields 字典将包含标题作为键.这意味着实际上,带有标题的字段将在fields字典中表示两次.这些字段的元组值也将有第三个元素,即字段标题.因此,并且由于 names 属性保留了字段顺序,而 fields 属性可能不保留,因此建议使用dtype的 names 属性来迭代dtype的字段,该属性不会列出标题,例如:
>>> for name in d.names:
... print(d.fields[name][:2])
(dtype('int64'), 0)
(dtype('float32'), 8)
联合类型#
结构化数据类型在numpy中实现为默认具有基本类型 numpy.void ,但是可以使用 Data Type Objects 中描述的 (base_dtype, dtype) 形式的dtype规范将其他numpy类型解释为结构化类型.在这里, base_dtype 是所需的底层dtype,字段和标志将从 dtype 复制.此dtype类似于C语言中的“联合”.
结构化数组的索引和赋值#
将数据赋值给结构化数组#
有许多方法可以将值分配给结构化数组:使用python元组,使用标量值或使用其他结构化数组.
从Python原生类型赋值(元组)#
将值赋值给结构化数组的最简单方法是使用python元组.每个赋值的值都应该是长度等于数组中字段数的元组,而不是列表或数组,因为这些会触发numpy的广播规则.元组的元素从左到右依次赋值给数组的各个字段:
>>> x = np.array([(1, 2, 3), (4, 5, 6)], dtype='i8, f4, f8')
>>> x[1] = (7, 8, 9)
>>> x
array([(1, 2., 3.), (7, 8., 9.)],
dtype=[('f0', '<i8'), ('f1', '<f4'), ('f2', '<f8')])
从标量赋值#
分配给结构化元素的标量将分配给所有字段.当标量分配给结构化数组,或者非结构化数组分配给结构化数组时,会发生这种情况:
>>> x = np.zeros(2, dtype='i8, f4, ?, S1')
>>> x[:] = 3
>>> x
array([(3, 3., True, b'3'), (3, 3., True, b'3')],
dtype=[('f0', '<i8'), ('f1', '<f4'), ('f2', '?'), ('f3', 'S1')])
>>> x[:] = np.arange(2)
>>> x
array([(0, 0., False, b'0'), (1, 1., True, b'1')],
dtype=[('f0', '<i8'), ('f1', '<f4'), ('f2', '?'), ('f3', 'S1')])
结构化数组也可以分配给非结构化数组,但前提是结构化数据类型只有一个字段:
>>> twofield = np.zeros(2, dtype=[('A', 'i4'), ('B', 'i4')])
>>> onefield = np.zeros(2, dtype=[('A', 'i4')])
>>> nostruct = np.zeros(2, dtype='i4')
>>> nostruct[:] = twofield
Traceback (most recent call last):
...
TypeError: Cannot cast array data from dtype([('A', '<i4'), ('B', '<i4')]) to dtype('int32') according to the rule 'unsafe'
从其他结构化数组赋值#
两个结构化数组之间的赋值就像源元素已转换为元组然后分配给目标元素一样发生.也就是说,源数组的第一个字段被分配给目标数组的第一个字段,第二个字段也是如此,依此类推,而与字段名称无关.具有不同字段数的结构化数组不能相互赋值.未包含在任何字段中的目标结构的字节不受影响.:
>>> a = np.zeros(3, dtype=[('a', 'i8'), ('b', 'f4'), ('c', 'S3')])
>>> b = np.ones(3, dtype=[('x', 'f4'), ('y', 'S3'), ('z', 'O')])
>>> b[:] = a
>>> b
array([(0., b'0.0', b''), (0., b'0.0', b''), (0., b'0.0', b'')],
dtype=[('x', '<f4'), ('y', 'S3'), ('z', 'O')])
涉及子数组的赋值#
当分配给作为子数组的字段时,分配的值将首先广播到子数组的形状.
索引结构化数组#
访问单个字段#
可以通过使用字段名索引数组来访问和修改结构化数组的单个字段.:
>>> x = np.array([(1, 2), (3, 4)], dtype=[('foo', 'i8'), ('bar', 'f4')])
>>> x['foo']
array([1, 3])
>>> x['foo'] = 10
>>> x
array([(10, 2.), (10, 4.)],
dtype=[('foo', '<i8'), ('bar', '<f4')])
结果数组是原始数组的视图.它共享相同的内存位置,并且写入视图将修改原始数组.:
>>> y = x['bar']
>>> y[:] = 11
>>> x
array([(10, 11.), (10, 11.)],
dtype=[('foo', '<i8'), ('bar', '<f4')])
此视图与索引字段具有相同的 dtype 和 itemsize,因此通常是一个非结构化数组,嵌套结构的情况除外.
>>> y.dtype, y.shape, y.strides
(dtype('float32'), (2,), (12,))
如果访问的字段是一个子数组,则子数组的维度将附加到结果的形状:
>>> x = np.zeros((2, 2), dtype=[('a', np.int32), ('b', np.float64, (3, 3))])
>>> x['a'].shape
(2, 2)
>>> x['b'].shape
(2, 2, 3, 3)
访问多个字段#
可以使用多字段索引来索引和赋值结构化数组,其中索引是字段名称的列表.
警告
从 Numpy 1.15 到 Numpy 1.16,多字段索引的行为发生了改变.
使用多字段索引进行索引的结果是原始数组的视图,如下所示:
>>> a = np.zeros(3, dtype=[('a', 'i4'), ('b', 'i4'), ('c', 'f4')])
>>> a[['a', 'c']]
array([(0, 0.), (0, 0.), (0, 0.)],
dtype={'names': ['a', 'c'], 'formats': ['<i4', '<f4'], 'offsets': [0, 8], 'itemsize': 12})
对视图的赋值会修改原始数组.视图的字段将按照它们被索引的顺序排列.请注意,与单字段索引不同,视图的 dtype 与原始数组具有相同的 itemsize,并且在原始数组中具有相同的偏移量,而未索引的字段仅是缺失的.
警告
在 Numpy 1.15 中,使用多字段索引索引数组会返回上面结果的副本,但字段在内存中紧密排列,就像通过 numpy.lib.recfunctions.repack_fields 传递一样.
与 1.15 相比,Numpy 1.16 的新行为导致未索引字段的位置出现额外的“填充”字节. 您需要更新任何依赖于具有“紧密”布局的数据的代码. 例如,诸如以下的代码:
>>> a[['a', 'c']].view('i8') # Fails in Numpy 1.16
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
ValueError: When changing to a smaller dtype, its size must be a divisor of the size of original dtype
需要进行更改. 此代码自 Numpy 1.12 以来引发了 FutureWarning ,而类似的代码自 1.7 以来引发了 FutureWarning .
在 1.16 中, numpy.lib.recfunctions 模块中引入了许多函数,以帮助用户解决此更改. 它们是 numpy.lib.recfunctions.repack_fields . numpy.lib.recfunctions.structured_to_unstructured , numpy.lib.recfunctions.unstructured_to_structured , numpy.lib.recfunctions.apply_along_fields , numpy.lib.recfunctions.assign_fields_by_name 和 numpy.lib.recfunctions.require_fields .
numpy.lib.recfunctions.repack_fields 函数始终可以用于重现旧的行为,因为它将返回结构化数组的打包副本. 例如,上面的代码可以用以下代码替换:
>>> from numpy.lib.recfunctions import repack_fields
>>> repack_fields(a[['a', 'c']]).view('i8') # supported in 1.16
array([0, 0, 0])
此外,numpy 现在提供了一个新的函数 numpy.lib.recfunctions.structured_to_unstructured ,对于希望将结构化数组转换为非结构化数组的用户来说,这是一个更安全,更有效的替代方案,因为上面的视图通常旨在这样做. 此函数允许安全地转换为非结构化类型,同时考虑填充,通常避免复制,并且还根据需要转换数据类型,这与视图不同. 诸如以下的代码:
>>> b = np.zeros(3, dtype=[('x', 'f4'), ('y', 'f4'), ('z', 'f4')])
>>> b[['x', 'z']].view('f4')
array([0., 0., 0., 0., 0., 0., 0., 0., 0.], dtype=float32)
可以通过替换为以下内容来使其更安全:
>>> from numpy.lib.recfunctions import structured_to_unstructured
>>> structured_to_unstructured(b[['x', 'z']])
array([[0., 0.],
[0., 0.],
[0., 0.]], dtype=float32)
使用多字段索引对数组进行赋值会修改原始数组:
>>> a[['a', 'c']] = (2, 3)
>>> a
array([(2, 0, 3.), (2, 0, 3.), (2, 0, 3.)],
dtype=[('a', '<i4'), ('b', '<i4'), ('c', '<f4')])
这服从上面描述的结构化数组赋值规则. 例如,这意味着可以使用适当的多字段索引交换两个字段的值:
>>> a[['a', 'c']] = a[['c', 'a']]
使用整数索引获取结构化标量#
索引结构化数组的单个元素(带有整数索引)会返回一个结构化标量:
>>> x = np.array([(1, 2., 3.)], dtype='i, f, f')
>>> scalar = x[0]
>>> scalar
np.void((1, 2.0, 3.0), dtype=[('f0', '<i4'), ('f1', '<f4'), ('f2', '<f4')])
>>> type(scalar)
<class 'numpy.void'>
与其他 numpy 标量不同,结构化标量是可变的,并且像原始数组的视图一样工作,因此修改标量将修改原始数组. 结构化标量还支持按字段名称访问和赋值:
>>> x = np.array([(1, 2), (3, 4)], dtype=[('foo', 'i8'), ('bar', 'f4')])
>>> s = x[0]
>>> s['bar'] = 100
>>> x
array([(1, 100.), (3, 4.)],
dtype=[('foo', '<i8'), ('bar', '<f4')])
与元组类似,结构化标量也可以用整数索引:
>>> scalar = np.array([(1, 2., 3.)], dtype='i, f, f')[0]
>>> scalar[0]
np.int32(1)
>>> scalar[1] = 4
因此,元组可以被认为是 numpy 结构化类型的本机 Python 等效项,就像本机 python 整数是 numpy 整数类型的等效项一样. 可以通过调用 numpy.ndarray.item 将结构化标量转换为元组:
>>> scalar.item(), type(scalar.item())
((1, 4.0, 3.0), <class 'tuple'>)
查看包含对象的结构化数组#
为了防止破坏 object 类型的字段中的对象指针,numpy 当前不允许查看包含对象的结构化数组.
结构体比较和提升#
如果两个 void 结构化数组的 dtypes 相等,则测试数组的相等性将导致一个与原始数组具有相同维度的布尔数组,其中元素设置为 True ,表示相应结构体的所有字段都相等:
>>> a = np.array([(1, 1), (2, 2)], dtype=[('a', 'i4'), ('b', 'i4')])
>>> b = np.array([(1, 1), (2, 3)], dtype=[('a', 'i4'), ('b', 'i4')])
>>> a == b
array([True, False])
NumPy 将提升单个字段的数据类型以执行比较.因此,以下操作也是有效的(注意 'a' 字段的 'f4' dtype):
>>> b = np.array([(1.0, 1), (2.5, 2)], dtype=[("a", "f4"), ("b", "i4")])
>>> a == b
array([True, False])
要比较两个结构化数组,必须可以将它们提升为 numpy.result_type 和 numpy.promote_types 返回的公共 dtype.这强制要求字段数量,字段名称和字段标题必须完全匹配.如果由于字段名称不匹配等原因导致无法提升,NumPy 将引发错误.两个结构化 dtype 之间的提升会产生一个规范 dtype,确保所有字段都使用本机字节序:
>>> np.result_type(np.dtype("i,>i"))
dtype([('f0', '<i4'), ('f1', '<i4')])
>>> np.result_type(np.dtype("i,>i"), np.dtype("i,i"))
dtype([('f0', '<i4'), ('f1', '<i4')])
提升产生的 dtype 还可以保证是被打包的,这意味着所有字段都是连续排序的,并且所有不必要的填充都会被删除:
>>> dt = np.dtype("i1,V3,i4,V1")[["f0", "f2"]]
>>> dt
dtype({'names': ['f0', 'f2'], 'formats': ['i1', '<i4'], 'offsets': [0, 4], 'itemsize': 9})
>>> np.result_type(dt)
dtype([('f0', 'i1'), ('f2', '<i4')])
请注意,结果打印时没有 offsets 或 itemsize ,表明没有额外的填充.如果使用 align=True 创建结构化 dtype,确保 dtype.isalignedstruct 为 true,则此属性将保留:
>>> dt = np.dtype("i1,V3,i4,V1", align=True)[["f0", "f2"]]
>>> dt
dtype({'names': ['f0', 'f2'], 'formats': ['i1', '<i4'], 'offsets': [0, 4], 'itemsize': 12}, align=True)
>>> np.result_type(dt)
dtype([('f0', 'i1'), ('f2', '<i4')], align=True)
>>> np.result_type(dt).isalignedstruct
True
当提升多个 dtype 时,如果任何输入是对齐的,则结果也是对齐的:
>>> np.result_type(np.dtype("i,i"), np.dtype("i,i", align=True))
dtype([('f0', '<i4'), ('f1', '<i4')], align=True)
当比较 void 结构化数组时, < 和 > 运算符始终返回 False ,并且不支持算术和按位运算.
在 1.23 版本发生变更: 在 NumPy 1.23 之前,当提升到公共 dtype 失败时,会发出警告并返回 False .此外,提升的限制性更强:它会拒绝上面混合浮点/整数比较的示例.
记录数组#
作为一种可选的便利方式,numpy 提供了一个 ndarray 子类 numpy.recarray ,它允许通过属性而不是仅通过索引来访问结构化数组的字段.记录数组使用一种特殊的数据类型 numpy.record ,它允许通过属性访问从数组获得的结构化标量上的字段. numpy.rec 模块提供了一些函数用于从各种对象创建 recarray.可以在 numpy.lib.recfunctions 中找到用于创建和操作结构化数组的其他辅助函数.
创建记录数组的最简单方法是使用 numpy.rec.array
>>> recordarr = np.rec.array([(1, 2., 'Hello'), (2, 3., "World")],
... dtype=[('foo', 'i4'),('bar', 'f4'), ('baz', 'S10')])
>>> recordarr.bar
array([2., 3.], dtype=float32)
>>> recordarr[1:2]
rec.array([(2, 3., b'World')],
dtype=[('foo', '<i4'), ('bar', '<f4'), ('baz', 'S10')])
>>> recordarr[1:2].foo
array([2], dtype=int32)
>>> recordarr.foo[1:2]
array([2], dtype=int32)
>>> recordarr[1].baz
b'World'
numpy.rec.array 可以将各种各样的参数转换为记录数组,包括结构化数组:
>>> arr = np.array([(1, 2., 'Hello'), (2, 3., "World")],
... dtype=[('foo', 'i4'), ('bar', 'f4'), ('baz', 'S10')])
>>> recordarr = np.rec.array(arr)
numpy.rec 模块提供了许多其他方便的函数来创建记录数组,请参见 record array creation routines .
使用适当的 view 可以获得结构化数组的记录数组表示形式:
>>> arr = np.array([(1, 2., 'Hello'), (2, 3., "World")],
... dtype=[('foo', 'i4'),('bar', 'f4'), ('baz', 'S10')])
>>> recordarr = arr.view(dtype=np.dtype((np.record, arr.dtype)),
... type=np.recarray)
为了方便起见,将 ndarray 视为 numpy.recarray 类型将自动转换为 numpy.record 数据类型,因此可以将 dtype 从视图中省略:
>>> recordarr = arr.view(np.recarray)
>>> recordarr.dtype
dtype((numpy.record, [('foo', '<i4'), ('bar', '<f4'), ('baz', 'S10')]))
要返回到普通的 ndarray,必须重置 dtype 和类型.以下视图执行此操作,同时考虑了 recordarr 不是结构化类型的特殊情况:
>>> arr2 = recordarr.view(recordarr.dtype.fields or recordarr.dtype, np.ndarray)
如果字段具有结构化类型,则通过索引或属性访问的记录数组字段将作为记录数组返回,否则将作为普通 ndarray 返回.:
>>> recordarr = np.rec.array([('Hello', (1, 2)), ("World", (3, 4))],
... dtype=[('foo', 'S6'),('bar', [('A', int), ('B', int)])])
>>> type(recordarr.foo)
<class 'numpy.ndarray'>
>>> type(recordarr.bar)
<class 'numpy.rec.recarray'>
注意,如果字段的名称与 ndarray 的属性相同,则 ndarray 的属性优先.这些字段将无法通过属性访问,但仍然可以通过索引访问.
Recarray 辅助函数#
用于操作结构化数组的实用工具集合.
这些函数中的大多数最初由 John Hunter 为 matplotlib 实现.为了方便起见,它们已被重写和扩展.
- numpy.lib.recfunctions.append_fields(base, names, data, dtypes=None, fill_value=-1, usemask=True, asrecarray=False)[源代码]#
向现有数组添加新字段.
字段的名称由 names 参数给出,对应的值由 data 参数给出.如果追加单个字段,则 names , data 和 dtypes 不必是列表,而只是值.
- 参数:
- basearray
要扩展的输入数组.
- namesstring, sequence
字符串或字符串序列,对应于新字段的名称.
- dataarray or sequence of arrays
存储要添加到基数组的字段的数组或数组序列.
- dtypessequence of datatypes, optional
数据类型或数据类型序列. 如果为 None,则数据类型从 data 估计.
- fill_value{float}, optional
用于填充较短数组上缺失数据的填充值.
- usemask{False, True}, optional
是否返回masked array.
- asrecarray{False, True}, optional
是否返回 recarray (MaskedRecords).
- numpy.lib.recfunctions.apply_along_fields(func, arr)[源代码]#
将函数“func”作为结构化数组字段上的归约应用.
这类似于
numpy.apply_along_axis,但将结构化数组的字段视为额外的轴. 首先,所有字段都根据numpy.result_type应用于字段的 dtypes 的类型提升规则转换为通用类型.- 参数:
- funcfunction
应用于“field”维度的函数. 此函数必须支持 axis 参数,例如
numpy.mean,numpy.sum等.- arrndarray
应用 func 的结构化数组.
- Returns:
- outndarray
归约运算的结果
Examples
>>> import numpy as np
>>> from numpy.lib import recfunctions as rfn >>> b = np.array([(1, 2, 5), (4, 5, 7), (7, 8 ,11), (10, 11, 12)], ... dtype=[('x', 'i4'), ('y', 'f4'), ('z', 'f8')]) >>> rfn.apply_along_fields(np.mean, b) array([ 2.66666667, 5.33333333, 8.66666667, 11. ]) >>> rfn.apply_along_fields(np.mean, b[['x', 'z']]) array([ 3. , 5.5, 9. , 11. ])
- numpy.lib.recfunctions.assign_fields_by_name(dst, src, zero_unassigned=True)[源代码]#
通过字段名称将值从一个结构化数组分配给另一个结构化数组.
通常,在 numpy >= 1.14 中,将一个结构化数组分配给另一个结构化数组会“按位置”复制字段,这意味着来自 src 的第一个字段被复制到 dst 的第一个字段,依此类推,而与字段名称无关.
此函数改为“按字段名称”复制,这样 dst 中的字段是从 src 中具有相同名称的字段分配的. 这递归地适用于嵌套结构. 这是 numpy >= 1.6 到 <= 1.13 中结构体赋值的工作方式.
- 参数:
- dstndarray
- srcndarray
赋值期间的源数组和目标数组.
- zero_unassignedbool, optional
如果为 True,则 dst 中 src 中没有匹配字段的字段将填充值 0(零). 这是 numpy <= 1.13 的行为. 如果为 False,则不会修改这些字段.
- numpy.lib.recfunctions.drop_fields(base, drop_names, usemask=True, asrecarray=False)[源代码]#
返回一个新数组,其中删除了 drop_names 中的字段.
支持嵌套字段.
- 参数:
- basearray
输入数组
- drop_names字符串或序列
与要删除的字段名称相对应的字符串或字符串序列.
- usemask{False, True}, optional
是否返回masked array.
- asrecarray字符串或序列,可选
是否返回 recarray 或 mrecarray(如果 asrecarray=True ),或者返回具有灵活 dtype 的普通 ndarray 或 masked array. 默认为 False.
Examples
>>> import numpy as np >>> from numpy.lib import recfunctions as rfn >>> a = np.array([(1, (2, 3.0)), (4, (5, 6.0))], ... dtype=[('a', np.int64), ('b', [('ba', np.double), ('bb', np.int64)])]) >>> rfn.drop_fields(a, 'a') array([((2., 3),), ((5., 6),)], dtype=[('b', [('ba', '<f8'), ('bb', '<i8')])]) >>> rfn.drop_fields(a, 'ba') array([(1, (3,)), (4, (6,))], dtype=[('a', '<i8'), ('b', [('bb', '<i8')])]) >>> rfn.drop_fields(a, ['ba', 'bb']) array([(1,), (4,)], dtype=[('a', '<i8')])
- numpy.lib.recfunctions.find_duplicates(a, key=None, ignoremask=True, return_index=False)[源代码]#
查找结构化数组中沿着给定键的重复项
- 参数:
- a类数组
输入数组
- key{字符串, None},可选
用于检查重复项的字段的名称. 如果为 None,则按记录执行搜索
- ignoremask{True, False},可选
是否应放弃掩码数据或将其视为重复项.
- return_index{False, True}, optional
是否返回重复值的索引.
Examples
>>> import numpy as np >>> from numpy.lib import recfunctions as rfn >>> ndtype = [('a', int)] >>> a = np.ma.array([1, 1, 1, 2, 2, 3, 3], ... mask=[0, 0, 1, 0, 0, 0, 1]).view(ndtype) >>> rfn.find_duplicates(a, ignoremask=True, return_index=True) (masked_array(data=[(1,), (1,), (2,), (2,)], mask=[(False,), (False,), (False,), (False,)], fill_value=(999999,), dtype=[('a', '<i8')]), array([0, 1, 3, 4]))
- numpy.lib.recfunctions.flatten_descr(ndtype)[源代码]#
展平结构化数据类型描述.
Examples
>>> import numpy as np >>> from numpy.lib import recfunctions as rfn >>> ndtype = np.dtype([('a', '<i4'), ('b', [('ba', '<f8'), ('bb', '<i4')])]) >>> rfn.flatten_descr(ndtype) (('a', dtype('int32')), ('ba', dtype('float64')), ('bb', dtype('int32')))
- numpy.lib.recfunctions.get_fieldstructure(adtype, lastname=None, parents=None)[源代码]#
返回一个字典,其中字段索引其父字段的列表.
此函数用于简化对嵌套在其他字段中的字段的访问.
- 参数:
- adtypenp.dtype
输入数据类型
- lastname可选
上次处理的字段名称(在递归期间内部使用).
- parents字典
父字段的字典(在递归期间内部使用).
Examples
>>> import numpy as np >>> from numpy.lib import recfunctions as rfn >>> ndtype = np.dtype([('A', int), ... ('B', [('BA', int), ... ('BB', [('BBA', int), ('BBB', int)])])]) >>> rfn.get_fieldstructure(ndtype) ... # XXX: possible regression, order of BBA and BBB is swapped {'A': [], 'B': [], 'BA': ['B'], 'BB': ['B'], 'BBA': ['B', 'BB'], 'BBB': ['B', 'BB']}
- numpy.lib.recfunctions.get_names(adtype)[源代码]#
将输入数据类型的字段名称作为元组返回.输入数据类型必须具有字段,否则会引发错误.
- 参数:
- adtypedtype
输入数据类型
Examples
>>> import numpy as np >>> from numpy.lib import recfunctions as rfn >>> rfn.get_names(np.empty((1,), dtype=[('A', int)]).dtype) ('A',) >>> rfn.get_names(np.empty((1,), dtype=[('A',int), ('B', float)]).dtype) ('A', 'B') >>> adtype = np.dtype([('a', int), ('b', [('ba', int), ('bb', int)])]) >>> rfn.get_names(adtype) ('a', ('b', ('ba', 'bb')))
- numpy.lib.recfunctions.get_names_flat(adtype)[源代码]#
将输入数据类型的字段名称作为元组返回.输入数据类型必须具有字段,否则会引发错误.嵌套结构会预先展平.
- 参数:
- adtypedtype
输入数据类型
Examples
>>> import numpy as np >>> from numpy.lib import recfunctions as rfn >>> rfn.get_names_flat(np.empty((1,), dtype=[('A', int)]).dtype) is None False >>> rfn.get_names_flat(np.empty((1,), dtype=[('A',int), ('B', str)]).dtype) ('A', 'B') >>> adtype = np.dtype([('a', int), ('b', [('ba', int), ('bb', int)])]) >>> rfn.get_names_flat(adtype) ('a', 'b', 'ba', 'bb')
- numpy.lib.recfunctions.join_by(key, r1, r2, jointype='inner', r1postfix='1', r2postfix='2', defaults=None, usemask=True, asrecarray=False)[源代码]#
联接数组 r1 和 r2 上的键 key .
键应该是一个字符串,或者一个与用于联接数组的字段相对应的字符串序列.如果无法在两个输入数组中找到 key 字段,则会引发异常.沿着 key , r1 和 r2 都不应有任何重复项:重复项的存在将使输出非常不可靠.请注意,算法不会查找重复项.
- 参数:
- key{字符串,序列}
与用于比较的字段相对应的字符串或字符串序列.
- r1, r2数组
结构化数组.
- jointype{‘inner’, ‘outer’, ‘leftouter’},可选
如果为“inner”,则返回 r1 和 r2 共有的元素. 如果为“outer”,则返回公共元素以及 r1 中不在 r2 中的元素和不在 r2 中的元素. 如果为“leftouter”,则返回公共元素和 r1 中不在 r2 中的元素.
- r1postfix字符串,可选
附加到 r1 的字段名称的字符串,这些字段存在于 r2 中但不存在于键中.
- r2postfix字符串,可选
附加到 r2 的字段名称的字符串,这些字段存在于 r1 中但不存在于键中.
- defaults{字典},可选
将字段名称映射到相应默认值的字典.
- usemask{True, False},可选
是否返回 MaskedArray(如果 asrecarray==True ,则返回 MaskedRecords)或 ndarray.
- asrecarray{False, True}, optional
是否返回 recarray(如果 usemask==True ,则返回 MaskedRecords),或者仅返回灵活类型的 ndarray.
注释
输出结果按照键进行排序.
通过删除两个数组中不在键中的字段并将结果连接起来形成一个临时数组.然后对该数组进行排序,并选择公共条目.通过使用所选条目填充字段来构造输出.如果存在一些重复项,则匹配不会被保留…
- numpy.lib.recfunctions.merge_arrays(seqarrays, fill_value=-1, flatten=False, usemask=False, asrecarray=False)[源代码]#
按字段合并数组.
- 参数:
- seqarraysndarray 序列
数组序列
- fill_value{float}, optional
用于填充较短数组上缺失数据的填充值.
- 扁平化{False, True}, optional
是否折叠嵌套字段.
- usemask{False, True}, optional
是否返回masked array.
- asrecarray{False, True}, optional
是否返回 recarray (MaskedRecords).
注释
如果没有掩码,缺失值将被填充一些东西,具体取决于其对应的类型:
-1对于整数-1.0对于浮点数'-'对于字符'-1'对于字符串True对于布尔值
XXX:我只是凭经验获得了这些值
Examples
>>> import numpy as np >>> from numpy.lib import recfunctions as rfn >>> rfn.merge_arrays((np.array([1, 2]), np.array([10., 20., 30.]))) array([( 1, 10.), ( 2, 20.), (-1, 30.)], dtype=[('f0', '<i8'), ('f1', '<f8')])
>>> rfn.merge_arrays((np.array([1, 2], dtype=np.int64), ... np.array([10., 20., 30.])), usemask=False) array([(1, 10.0), (2, 20.0), (-1, 30.0)], dtype=[('f0', '<i8'), ('f1', '<f8')]) >>> rfn.merge_arrays((np.array([1, 2]).view([('a', np.int64)]), ... np.array([10., 20., 30.])), ... usemask=False, asrecarray=True) rec.array([( 1, 10.), ( 2, 20.), (-1, 30.)], dtype=[('a', '<i8'), ('f1', '<f8')])
- numpy.lib.recfunctions.rec_append_fields(base, names, data, dtypes=None)[源代码]#
向现有数组添加新字段.
字段的名称由 names 参数给出,对应的值由 data 参数给出.如果追加单个字段,则 names , data 和 dtypes 不必是列表,而只是值.
- 参数:
- basearray
要扩展的输入数组.
- namesstring, sequence
字符串或字符串序列,对应于新字段的名称.
- dataarray or sequence of arrays
存储要添加到基数组的字段的数组或数组序列.
- dtypessequence of datatypes, optional
数据类型或数据类型序列. 如果为 None,则数据类型从 data 估计.
- Returns:
- appended_arraynp.recarray
- numpy.lib.recfunctions.rec_drop_fields(base, drop_names)[源代码]#
返回一个新的numpy.recarray,其中删除了 drop_names 中的字段.
- numpy.lib.recfunctions.rec_join(key, r1, r2, jointype='inner', r1postfix='1', r2postfix='2', defaults=None)[源代码]#
在键上连接数组 r1 和 r2 .
join_by的替代方法,它总是返回一个np.recarray.参见
join_by等效函数
- numpy.lib.recfunctions.recursive_fill_fields(input, output)[源代码]#
使用输入中的字段填充输出中的字段,并支持嵌套结构.
- 参数:
- 输入ndarray
输入数组.
- 输出ndarray
输出数组.
注释
output 应至少与 input 的大小相同
Examples
>>> import numpy as np >>> from numpy.lib import recfunctions as rfn >>> a = np.array([(1, 10.), (2, 20.)], dtype=[('A', np.int64), ('B', np.float64)]) >>> b = np.zeros((3,), dtype=a.dtype) >>> rfn.recursive_fill_fields(a, b) array([(1, 10.), (2, 20.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])
- numpy.lib.recfunctions.rename_fields(base, namemapper)[源代码]#
重命名灵活数据类型ndarray或recarray中的字段.
支持嵌套字段.
- 参数:
- basendarray
必须修改字段的输入数组.
- namemapper字典
将旧字段名称映射到新版本的字典.
Examples
>>> import numpy as np >>> from numpy.lib import recfunctions as rfn >>> a = np.array([(1, (2, [3.0, 30.])), (4, (5, [6.0, 60.]))], ... dtype=[('a', int),('b', [('ba', float), ('bb', (float, 2))])]) >>> rfn.rename_fields(a, {'a':'A', 'bb':'BB'}) array([(1, (2., [ 3., 30.])), (4, (5., [ 6., 60.]))], dtype=[('A', '<i8'), ('b', [('ba', '<f8'), ('BB', '<f8', (2,))])])
- numpy.lib.recfunctions.repack_fields(a, align=False, recurse=False)[源代码]#
在内存中重新打包结构化数组或dtype的字段.
结构化数据类型的内存布局允许字段位于任意字节偏移量.这意味着字段可以被填充字节分隔,它们的偏移量可以是非单调递增的,并且它们可以重叠.
此方法删除任何重叠,并重新排序内存中的字段,使其具有递增的字节偏移量,并根据 align 选项添加或删除填充字节,其行为类似于
numpy.dtype的 align 选项.如果 align=False ,则此方法生成“packed”内存布局,其中每个字段从前一个字段结束的字节开始,并且删除任何填充字节.
如果 align=True ,则此方法生成“aligned”内存布局,其中每个字段的偏移量都是其对齐方式的倍数,并且总项目大小是最大对齐方式的倍数,并根据需要添加填充字节.
- 参数:
- andarray或dtype
用于重新打包字段的数组或dtype.
- align布尔值
如果为true,则使用“aligned”内存布局,否则使用“packed”布局.
- recurse布尔值
如果为True,则同时重新打包嵌套结构.
- Returns:
- repackedndarray或dtype
a 的副本,其中字段已重新打包,如果不需要重新打包,则为 a 本身.
Examples
>>> import numpy as np
>>> from numpy.lib import recfunctions as rfn >>> def print_offsets(d): ... print("offsets:", [d.fields[name][1] for name in d.names]) ... print("itemsize:", d.itemsize) ... >>> dt = np.dtype('u1, <i8, <f8', align=True) >>> dt dtype({'names': ['f0', 'f1', 'f2'], 'formats': ['u1', '<i8', '<f8'], 'offsets': [0, 8, 16], 'itemsize': 24}, align=True) >>> print_offsets(dt) offsets: [0, 8, 16] itemsize: 24 >>> packed_dt = rfn.repack_fields(dt) >>> packed_dt dtype([('f0', 'u1'), ('f1', '<i8'), ('f2', '<f8')]) >>> print_offsets(packed_dt) offsets: [0, 1, 9] itemsize: 17
- numpy.lib.recfunctions.require_fields(array, required_dtype)[源代码]#
使用按字段名称赋值的方式将结构化数组转换为新的dtype.
此函数通过名称从旧数组分配到新数组,因此输出数组中字段的值是源数组中具有相同名称的字段的值. 这样做会创建一个新的 ndarray,其中仅包含 required_dtype“需要”的字段.
如果 required_dtype 中的字段名在输入数组中不存在,则将在输出数组中创建该字段并设置为 0.
- 参数:
- andarray
要转换的数组
- required_dtypedtype
输出数组的数据类型
- Returns:
- outndarray
具有新数据类型的数组,其字段值从输入数组中具有相同名称的字段复制而来
Examples
>>> import numpy as np
>>> from numpy.lib import recfunctions as rfn >>> a = np.ones(4, dtype=[('a', 'i4'), ('b', 'f8'), ('c', 'u1')]) >>> rfn.require_fields(a, [('b', 'f4'), ('c', 'u1')]) array([(1., 1), (1., 1), (1., 1), (1., 1)], dtype=[('b', '<f4'), ('c', 'u1')]) >>> rfn.require_fields(a, [('b', 'f4'), ('newf', 'u1')]) array([(1., 0), (1., 0), (1., 0), (1., 0)], dtype=[('b', '<f4'), ('newf', 'u1')])
- numpy.lib.recfunctions.stack_arrays(arrays, defaults=None, usemask=True, asrecarray=False, autoconvert=False)[源代码]#
按字段叠加数组
- 参数:
- 数组数组或序列
输入数组的序列.
- defaults字典,可选
将字段名称映射到相应默认值的字典.
- usemask{True, False},可选
是否返回 MaskedArray(如果 asrecarray==True ,则返回 MaskedRecords)或 ndarray.
- asrecarray{False, True}, optional
是否返回 recarray(如果 usemask==True ,则返回 MaskedRecords),或者仅返回灵活类型的 ndarray.
- autoconvert{False, True}, optional
是否自动将字段类型转换为最大值.
Examples
>>> import numpy as np >>> from numpy.lib import recfunctions as rfn >>> x = np.array([1, 2,]) >>> rfn.stack_arrays(x) is x True >>> z = np.array([('A', 1), ('B', 2)], dtype=[('A', '|S3'), ('B', float)]) >>> zz = np.array([('a', 10., 100.), ('b', 20., 200.), ('c', 30., 300.)], ... dtype=[('A', '|S3'), ('B', np.double), ('C', np.double)]) >>> test = rfn.stack_arrays((z,zz)) >>> test masked_array(data=[(b'A', 1.0, --), (b'B', 2.0, --), (b'a', 10.0, 100.0), (b'b', 20.0, 200.0), (b'c', 30.0, 300.0)], mask=[(False, False, True), (False, False, True), (False, False, False), (False, False, False), (False, False, False)], fill_value=(b'N/A', 1e+20, 1e+20), dtype=[('A', 'S3'), ('B', '<f8'), ('C', '<f8')])
- numpy.lib.recfunctions.structured_to_unstructured(arr, dtype=None, copy=False, casting='unsafe')[源代码]#
将 n 维结构化数组转换为 (n+1) 维非结构化数组.
新数组将具有一个新的作为最后一维,其大小等于输入数组的字段元素数.如果未提供,则输出数据类型由应用于所有字段数据类型的 numpy 类型提升规则确定.
嵌套字段以及任何子数组字段的每个元素都算作单个字段元素.
- 参数:
- arrndarray
要转换的结构化数组或 dtype.不能包含 object 数据类型.
- dtypedtype,可选
输出非结构化数组的 dtype.
copybool, optional如果为 true,则始终返回副本.如果为 false,则在可能的情况下返回视图,例如当字段的 dtype 和 strides 适合,并且数组子类型是
numpy.ndarray,numpy.recarray或numpy.memmap之一时.在 1.25.0 版本发生变更: 如果字段被统一的步幅分隔,则现在可以返回视图.
- casting{‘no’, ‘equiv’, ‘safe’, ‘same_kind’, ‘unsafe’},可选
参见
numpy.ndarray.astype的 casting 参数.控制可能发生的数据类型转换种类.
- Returns:
- unstructuredndarray
具有更多维度的非结构化数组.
Examples
>>> import numpy as np
>>> from numpy.lib import recfunctions as rfn >>> a = np.zeros(4, dtype=[('a', 'i4'), ('b', 'f4,u2'), ('c', 'f4', 2)]) >>> a array([(0, (0., 0), [0., 0.]), (0, (0., 0), [0., 0.]), (0, (0., 0), [0., 0.]), (0, (0., 0), [0., 0.])], dtype=[('a', '<i4'), ('b', [('f0', '<f4'), ('f1', '<u2')]), ('c', '<f4', (2,))]) >>> rfn.structured_to_unstructured(a) array([[0., 0., 0., 0., 0.], [0., 0., 0., 0., 0.], [0., 0., 0., 0., 0.], [0., 0., 0., 0., 0.]])
>>> b = np.array([(1, 2, 5), (4, 5, 7), (7, 8 ,11), (10, 11, 12)], ... dtype=[('x', 'i4'), ('y', 'f4'), ('z', 'f8')]) >>> np.mean(rfn.structured_to_unstructured(b[['x', 'z']]), axis=-1) array([ 3. , 5.5, 9. , 11. ])
- numpy.lib.recfunctions.unstructured_to_structured(arr, dtype=None, names=None, align=False, copy=False, casting='unsafe')[源代码]#
将 n 维非结构化数组转换为 (n-1) 维结构化数组.
输入数组的最后一维被转换为一个结构,其字段元素数等于输入数组最后一维的大小.默认情况下,所有输出字段都具有输入数组的 dtype,但也可以提供具有相等数量的字段元素的输出结构化 dtype.
嵌套字段以及任何子数组字段的每个元素都计入字段元素的数量.
- 参数:
- arrndarray
要转换的非结构化数组或 dtype.
- dtypedtype,可选
输出数组的结构化 dtype
- names字符串列表,可选
如果未提供 dtype,则此参数指定输出 dtype 的字段名称,按顺序排列.字段 dtype 将与输入数组相同.
- align布尔值,可选
是否创建对齐的内存布局.
copybool, optional参见
numpy.ndarray.astype的 copy 参数.如果为 true,则始终返回副本.如果为 false 且满足 dtype 要求,则返回视图.- casting{‘no’, ‘equiv’, ‘safe’, ‘same_kind’, ‘unsafe’},可选
参见
numpy.ndarray.astype的 casting 参数.控制可能发生的数据类型转换种类.
- Returns:
- structuredndarray
具有较少维度的结构化数组.
Examples
>>> import numpy as np
>>> from numpy.lib import recfunctions as rfn >>> dt = np.dtype([('a', 'i4'), ('b', 'f4,u2'), ('c', 'f4', 2)]) >>> a = np.arange(20).reshape((4,5)) >>> a array([[ 0, 1, 2, 3, 4], [ 5, 6, 7, 8, 9], [10, 11, 12, 13, 14], [15, 16, 17, 18, 19]]) >>> rfn.unstructured_to_structured(a, dt) array([( 0, ( 1., 2), [ 3., 4.]), ( 5, ( 6., 7), [ 8., 9.]), (10, (11., 12), [13., 14.]), (15, (16., 17), [18., 19.])], dtype=[('a', '<i4'), ('b', [('f0', '<f4'), ('f1', '<u2')]), ('c', '<f4', (2,))])