numpy.ma 模块#
原理#
掩码数组是可能缺少条目或无效条目的数组. numpy.ma 模块提供了一个几乎可以替代 numpy 的替代品,它支持带有掩码的数据数组.
什么是掩码数组?#
在很多情况下,数据集可能是不完整的,或者被无效数据的存在所污染.例如,传感器可能未能记录数据,或者记录了无效值. numpy.ma 模块提供了一种方便的方式来解决这个问题,通过引入掩码数组.
掩码数组是标准 numpy.ndarray 和掩码的组合.掩码要么是 nomask ,表示关联数组中没有无效值,要么是一个布尔数组,用于确定关联数组的每个元素是否有效.当掩码的元素为 False 时,关联数组的相应元素有效,并称为未掩码.当掩码的元素为 True 时,关联数组的相应元素被称为掩码(无效).
该包确保在计算中不使用掩码条目.
举例说明,让我们考虑以下数据集:
>>> import numpy as np
>>> import numpy.ma as ma
>>> x = np.array([1, 2, 3, -1, 5])
我们希望将第四个条目标记为无效.最简单的方法是创建一个掩码数组:
>>> mx = ma.masked_array(x, mask=[0, 0, 0, 1, 0])
我们现在可以计算数据集的平均值,而无需考虑无效数据:
>>> mx.mean()
2.75
numpy.ma 模块#
numpy.ma 模块的主要特性是 MaskedArray 类,它是 numpy.ndarray 的一个子类.该类,其属性和方法在 MaskedArray class 部分中有更详细的描述.
>>> import numpy as np >>> import numpy.ma as ma要创建一个第二个元素无效的数组,我们可以这样做:
>>> y = ma.array([1, 2, 3], mask = [0, 1, 0])要创建一个所有接近 1.e20 的值都无效的掩码数组,我们可以这样做:
>>> z = ma.masked_values([1.0, 1.e20, 3.0, 4.0], 1.e20)
有关掩码数组创建方法的完整讨论,请参见 Constructing masked arrays 部分.
使用 numpy.ma#
构造掩码数组#
有几种构造掩码数组的方法.
第一种可能性是直接调用
MaskedArray类.第二种可能性是使用两个掩码数组构造函数,
array和masked_array.array(data[, dtype, copy, order, mask, ...])一个可能带有屏蔽值的数组类.
MaskedArray的别名第三种选择是获取现有数组的视图.在这种情况下,如果数组没有命名字段,则视图的掩码设置为
nomask,否则设置为与数组具有相同结构的布尔数组.
>>> import numpy as np
>>> x = np.array([1, 2, 3])
>>> x.view(ma.MaskedArray)
masked_array(data=[1, 2, 3],
mask=False,
fill_value=999999)
>>> x = np.array([(1, 1.), (2, 2.)], dtype=[('a',int), ('b', float)])
>>> x.view(ma.MaskedArray)
masked_array(data=[(1, 1.0), (2, 2.0)],
mask=[(False, False), (False, False)],
fill_value=(999999, 1e+20),
dtype=[('a', '<i8'), ('b', '<f8')])
另一种可能性是使用以下任何函数:
asarray(a[, dtype, order])将输入转换为给定数据类型的屏蔽数组.
asanyarray(a[, dtype])将输入转换为屏蔽数组,保留子类.
fix_invalid(a[, mask, copy, fill_value])返回输入,其中无效数据被屏蔽并替换为填充值.
masked_equal(x, value[, copy])掩盖数组中等于给定值的位置.
masked_greater(x, value[, copy])掩盖数组中大于给定值的位置.
masked_greater_equal(x, value[, copy])掩盖数组中大于或等于给定值的位置.
masked_inside(x, v1, v2[, copy])掩盖给定区间内的数组.
masked_invalid(a[, copy])掩盖出现无效值(NaN 或 inf)的数组.
masked_less(x, value[, copy])掩盖数组中小于给定值的位置.
masked_less_equal(x, value[, copy])掩盖数组中小于或等于给定值的位置.
masked_not_equal(x, value[, copy])掩盖数组中不等于给定值的位置.
masked_object(x, value[, copy, shrink])掩盖数组 x 中数据完全等于值的位置.
masked_outside(x, v1, v2[, copy])掩盖给定区间外的数组.
masked_values(x, value[, rtol, atol, copy, ...])使用浮点相等性进行掩盖.
masked_where(condition, a[, copy])在满足条件的地方掩盖数组.
访问数据#
可以通过以下几种方式访问掩码数组的底层数据:
通过
data属性.输出是数组的一个视图,类型为numpy.ndarray或其子类之一,具体取决于掩码数组创建时底层数据的类型.通过
__array__方法.输出则是一个numpy.ndarray.直接将掩码数组视为
numpy.ndarray或其子类的视图(实际上就是使用data属性所做的).通过使用
getdata函数.
如果某些条目已被标记为无效,则这些方法都不是完全令人满意的.作为一般规则,如果需要没有任何掩码条目的数组表示,建议使用 filled 方法填充数组.
访问掩码#
可以通过 mask 属性访问掩码数组的掩码.我们必须记住,掩码中的 True 条目表示无效数据.
另一种可能性是使用 getmask 和 getmaskarray 函数.如果 x 是一个掩码数组,则 getmask(x) 输出 x 的掩码,否则输出特殊值 nomask .如果 x 是一个掩码数组,则 getmaskarray(x) 输出 x 的掩码. 如果 x 没有无效条目或不是掩码数组,则该函数会输出一个由 False 组成的布尔数组,该数组的元素个数与 x 相同.
仅访问有效条目#
要仅检索有效条目,我们可以使用掩码的逆作为索引.掩码的逆可以用 numpy.logical_not 函数计算,或者直接使用 ~ 运算符:
>>> import numpy as np
>>> x = ma.array([[1, 2], [3, 4]], mask=[[0, 1], [1, 0]])
>>> x[~x.mask]
masked_array(data=[1, 4],
mask=[False, False],
fill_value=999999)
检索有效数据的另一种方法是使用 compressed 方法,该方法返回一个一维的 ndarray (或其子类之一,具体取决于 baseclass 属性的值):
>>> x.compressed()
array([1, 4])
请注意, compressed 的输出始终是 1D 的.
修改掩码#
掩码一个条目#
将掩码数组中的一个或多个特定条目标记为无效的推荐方法是将特殊值 masked 分配给它们:
>>> x = ma.array([1, 2, 3])
>>> x[0] = ma.masked
>>> x
masked_array(data=[--, 2, 3],
mask=[ True, False, False],
fill_value=999999)
>>> y = ma.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
>>> y[(0, 1, 2), (1, 2, 0)] = ma.masked
>>> y
masked_array(
data=[[1, --, 3],
[4, 5, --],
[--, 8, 9]],
mask=[[False, True, False],
[False, False, True],
[ True, False, False]],
fill_value=999999)
>>> z = ma.array([1, 2, 3, 4])
>>> z[:-2] = ma.masked
>>> z
masked_array(data=[--, --, 3, 4],
mask=[ True, True, False, False],
fill_value=999999)
第二种可能性是直接修改 mask ,但不建议使用此方法.
备注
当创建一个具有简单,非结构化数据类型的新掩码数组时,掩码最初设置为特殊值 nomask ,它大致对应于布尔值 False .尝试设置 nomask 的元素将会失败,并出现 TypeError 异常,因为布尔值不支持项赋值.
可以通过将 True 分配给掩码来一次掩码数组的所有条目:
>>> import numpy.ma as ma
>>> x = ma.array([1, 2, 3], mask=[0, 0, 1])
>>> x.mask = True
>>> x
masked_array(data=[--, --, --],
mask=[ True, True, True],
fill_value=999999,
dtype=int64)
最后,可以通过将布尔序列分配给掩码来掩码和/或取消掩码特定条目:
>>> x = ma.array([1, 2, 3])
>>> x.mask = [0, 1, 0]
>>> x
masked_array(data=[1, --, 3],
mask=[False, True, False],
fill_value=999999)
取消掩码一个条目#
要取消掩码一个或多个特定的条目,我们可以简单地将一个或多个新的有效值分配给它们:
>>> import numpy.ma as ma
>>> x = ma.array([1, 2, 3], mask=[0, 0, 1])
>>> x
masked_array(data=[1, 2, --],
mask=[False, False, True],
fill_value=999999)
>>> x[-1] = 5
>>> x
masked_array(data=[1, 2, 5],
mask=[False, False, False],
fill_value=999999)
备注
如果掩码数组具有硬掩码(由 hardmask 属性显示),则通过直接赋值取消掩码条目将静默失败.引入此功能是为了防止覆盖掩码.要在数组具有硬掩码的条目上强制取消掩码,必须首先使用 soften_mask 方法软化掩码,然后再进行分配.可以使用 harden_mask 重新硬化,如下所示:
>>> import numpy.ma as ma
>>> x = ma.array([1, 2, 3], mask=[0, 0, 1], hard_mask=True)
>>> x
masked_array(data=[1, 2, --],
mask=[False, False, True],
fill_value=999999)
>>> x[-1] = 5
>>> x
masked_array(data=[1, 2, --],
mask=[False, False, True],
fill_value=999999)
>>> x.soften_mask()
masked_array(data=[1, 2, --],
mask=[False, False, True],
fill_value=999999)
>>> x[-1] = 5
>>> x
masked_array(data=[1, 2, 5],
mask=[False, False, False],
fill_value=999999)
>>> x.harden_mask()
masked_array(data=[1, 2, 5],
mask=[False, False, False],
fill_value=999999)
要取消掩码掩码数组的所有掩码条目(前提是掩码不是硬掩码),最简单的解决方案是将常量 nomask 分配给掩码:
>>> import numpy.ma as ma
>>> x = ma.array([1, 2, 3], mask=[0, 0, 1])
>>> x
masked_array(data=[1, 2, --],
mask=[False, False, True],
fill_value=999999)
>>> x.mask = ma.nomask
>>> x
masked_array(data=[1, 2, 3],
mask=[False, False, False],
fill_value=999999)
索引和切片#
由于 MaskedArray 是 numpy.ndarray 的子类,它继承了它的索引和切片机制.
当访问一个没有命名字段的掩码数组的单个条目时,如果掩码的相应条目是 False ,则输出是一个标量,如果掩码的相应条目是 True ,则输出是特殊值 masked :
>>> import numpy.ma as ma
>>> x = ma.array([1, 2, 3], mask=[0, 0, 1])
>>> x[0]
1
>>> x[-1]
masked
>>> x[-1] is ma.masked
True
如果掩码数组具有命名字段,则当没有字段被掩码时,访问单个条目将返回一个 numpy.void 对象;如果至少有一个字段被掩码,则返回一个 0d 掩码数组,其 dtype 与初始数组相同.
>>> import numpy.ma as ma
>>> y = ma.masked_array([(1,2), (3, 4)],
... mask=[(0, 0), (0, 1)],
... dtype=[('a', int), ('b', int)])
>>> y[0]
(1, 2)
>>> y[-1]
(3, --)
当访问切片时,输出是一个掩码数组,其 data 属性是原始数据的视图,其掩码要么是 nomask (如果原始数组中没有无效条目),要么是原始掩码的相应切片的视图.需要该视图以确保将掩码的任何修改传播到原始掩码.
>>> import numpy.ma as ma
>>> x = ma.array([1, 2, 3, 4, 5], mask=[0, 1, 0, 0, 1])
>>> mx = x[:3]
>>> mx
masked_array(data=[1, --, 3],
mask=[False, True, False],
fill_value=999999)
>>> mx[1] = -1
>>> mx
masked_array(data=[1, -1, 3],
mask=[False, False, False],
fill_value=999999)
>>> x.mask
array([False, False, False, False, True])
>>> x.data
array([ 1, -1, 3, 4, 5])
访问具有结构化数据类型的掩码数组的字段将返回一个 MaskedArray .
掩码数组上的操作#
掩码数组支持算术和比较运算.在可能的情况下,掩码数组的无效条目不会被处理,这意味着相应的 data 条目在操作前后应该相同.
警告
我们需要强调的是,这种行为可能不是系统性的,掩码数据可能会在某些情况下受到操作的影响,因此用户不应依赖此数据保持不变.
numpy.ma 模块附带了大多数 ufunc 的特定实现.具有有效域的单值和二元函数(例如 log 或 divide )在输入被屏蔽或超出有效域时返回 masked 常量:
>>> import numpy.ma as ma
>>> ma.log([-1, 0, 1, 2])
masked_array(data=[--, --, 0.0, 0.6931471805599453],
mask=[ True, True, False, False],
fill_value=1e+20)
掩码数组还支持标准 numpy ufunc.输出结果是一个掩码数组.单值 ufunc 的结果在输入被屏蔽的地方被屏蔽.二元 ufunc 的结果在任何输入被屏蔽的地方被屏蔽.如果 ufunc 还返回可选的上下文输出(一个包含 ufunc 名称,其参数及其域的三元素元组),则会处理该上下文,并且输出掩码数组的条目在相应的输入超出有效域时被屏蔽:
>>> import numpy.ma as ma
>>> x = ma.array([-1, 1, 0, 2, 3], mask=[0, 0, 0, 0, 1])
>>> np.log(x)
masked_array(data=[--, 0.0, --, 0.6931471805599453, --],
mask=[ True, False, True, False, True],
fill_value=1e+20)
示例#
具有表示缺失数据的给定值的数据#
让我们考虑一个元素列表 x ,其中 -9999 的值表示缺失数据.我们希望计算数据的平均值和异常向量(与平均值的偏差):
>>> import numpy.ma as ma
>>> x = [0.,1.,-9999.,3.,4.]
>>> mx = ma.masked_values (x, -9999.)
>>> print(mx.mean())
2.0
>>> print(mx - mx.mean())
[-2.0 -1.0 -- 1.0 2.0]
>>> print(mx.anom())
[-2.0 -1.0 -- 1.0 2.0]
填充缺失数据#
现在假设我们希望打印相同的数据,但将缺失值替换为平均值.
>>> import numpy.ma as ma
>>> mx = ma.masked_values (x, -9999.)
>>> print(mx.filled(mx.mean()))
[0. 1. 2. 3. 4.]
数值运算#
可以轻松地执行数值运算,而无需担心缺失值,除以零,负数的平方根等.:
.. try_examples::
>>> import numpy.ma as ma
>>> x = ma.array([1., -1., 3., 4., 5., 6.], mask=[0,0,0,0,1,0])
>>> y = ma.array([1., 2., 0., 4., 5., 6.], mask=[0,0,0,0,0,1])
>>> print(ma.sqrt(x/y))
[1.0 -- -- 1.0 -- --]
输出的四个值无效:第一个来自取负数的平方根,第二个来自除以零,最后两个是输入被屏蔽的地方.
忽略极端值#
让我们考虑一个介于 0 和 1 之间的浮点数数组 d .我们希望计算 d 值的平均值,同时忽略 [0.2, 0.9] 范围之外的任何数据:
>>> import numpy as np
>>> import numpy.ma as ma
>>> d = np.linspace(0, 1, 20)
>>> print(d.mean() - ma.masked_outside(d, 0.2, 0.9).mean())
-0.05263157894736836