数据科学学习手札144 使用管道操作符高效书写Python代码 _生活百科

本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes

1 简介大家好我是费老师，一些比较熟悉pandas的读者朋友应该经常会使用query()、eval()、pipe()、assign()等pandas的常用方法（相关知识详见我的pandas专题教程https://www.cnblogs.com/feffery/tag/pandas/），书写可读性很高的链式数据分析处理代码，从而更加丝滑流畅地组织代码逻辑。
但在原生Python中并没有提供类似shell中的管道操作符|、R中的管道操作符%>%等语法，也没有针对列表等数组结构的可进行链式书写的快捷方法，譬如javascript中数组的map()、filter()、some()、every()等。
正所谓“标准库不够，三方库来凑”，Python原生对链式写法支持不到位没关系，我们可以使用一些简单方便且轻量的第三方库来协助我们在Python代码中大面积实现链式写法，今天的文章中费老师我就将带大家一起学习相关的知识技巧~

文章插图
2 在Python中配合pipe灵活使用链式写法我们将使用到pipe这个第三方库，它不仅内置了很多实用的管道操作函数，还提供了将常规函数快捷转换为管道操作函数的方法，使用pip install pipe对其进行安装即可。
pipe的用法非常方便，类似shell中的管道操作：以你的数组变量为起点，使用操作符|衔接pipe内置的各个常见管道操作函数，组装起自己所需的计算步骤即可，譬如，我们筛选输入数组中为偶数的，再求平方，就可以写作：
import pipelist(range(10) |pipe.filter(lambda x: x % 2 == 0) |pipe.select(lambda x: x ** 2))

文章插图
因为pipe搭建的管道默认都是惰性运算的，直接产生的结果是生成器类型，所以上面的例子中我们最外层套上了list()来取得实际计算结果，更优雅的方式是配合pipe.Pipe() ，将list()也改造为管道操作函数：
from pipe import Pipe(range(10) |pipe.filter(lambda x: x % 2 == 0) |pipe.select(lambda x: x ** 2) |Pipe(list))

文章插图
在上面的简单例子中我们使用到的filter()、select()等就是pipe中常见的管道操作函数，事实上pipe中的管道操作函数相当的丰富，下面我们来展示其中一些常用的：
2.1 pipe中常用的管道操作函数2.1.1 使用traverse()展平嵌套数组如果你想要将任意嵌套数组结构展平，可以使用traverse()：
([1, [2, 3, [4, 5]], 6, [7, 8, [9, [10, 11]]]] |pipe.traverse |Pipe(list))

文章插图
2.1.2 使用dedup()进行顺序去重如果我们需要对包含若干重复值的数组进行去重，且希望保留原始数据的顺序，则可以使用dedup() ，其还支持key参数，类似sorted()中的同名参数，实现自定义去重规则：

([-1, 0, 0, 0, 1, 2, 3] |pipe.dedup |Pipe(list))([-1, 0, 0, 0, 1, 2, 3] |# 基于每个元素的绝对值进行去重pipe.dedup(key=abs) |Pipe(list))

文章插图
2.1.3 使用filter()进行值过滤我们最开始的例子中使用过它，用法就是基于传入的lambda函数对每个元素进行条件判断，并保留结果为True的，与javascript中的filter()方法非常相似：
([1, 4, 3, 2, 5, 6, 8] |# 保留大于5的元素pipe.filter(lambda x: x > 5) |Pipe(list))

文章插图
2.1.4 使用groupby()进行分组运算这个函数非常实用，其功能相当于管道操作版本的itertools.groupby()，可以帮助我们基于lambda函数运算结果对原始输入数组进行分组，通过groupby()操作后直接得到的结果是分组结果的二元组列表，每个元组的第一个元素是分组标签，第二个元素是分到该组内的各个元素：