查看: 2057|回复: 0

Python 中的一些小技巧,适合有一定基础者

[复制链接]
  • TA的每日心情
    无聊
    2019-1-9 09:43
  • 签到天数: 6 天

    连续签到: 1 天

    [LV.2]偶尔看看I

    发表于 2018-9-21 15:49:10 | 显示全部楼层 |阅读模式
    分享到:
    本帖最后由 qiaoweiyiyi 于 2018-9-21 15:49 编辑

    一、函数式编程
    函数式编程用来处理数据,感觉很方便。(要是再配上管道操作符 | 或者 Java 的那种链式调用,超级爽!可惜 Python 都没有。。需要借助第三方库)

    1. 分组/group
    数据处理中一个常见的操作,是将列表中的元素,依次每 k 个分作一组。
    1. def group_each(a, size: int):
    2.     """
    3.         将一个可迭代对象 a 内的元素, 每 size 个分为一组
    4.         group_each([1,2,3,4], 2) -> [(1,2), (3,4)]
    5.     """
    6.     iterators = [iter(a)] * size  # 将新构造的 iterator 复制 size 次(浅复制)
    7.     return zip(*iterators)  # 然后 zip
    复制代码

    这个函数之前在 Python 拾遗 - 奇技淫巧 中就写过,记得是某次 Google 时在 stackoverflow 上发现的,不过它的最初来源应该是 Python 官方文档的某个角落。
    顺便如果某个 size 比较常用(比如 2),还可以用 partial 封装一下
    1. from functools import partial

    2. # 每两个分一组
    3. group_each_2 = partial(group_each, size=2)  # 等同于 group_each_2 = lambda a: group_each(a, 2)
    复制代码

    2. 扁平版本的 map
    稍微接触过函数式应该都知道 flat_map,可 Python 标准库却没有提供。下面是我在 stackoverflow 上找到的实现,其实很简单
    1. from itertools import chain

    2. def flat_map(f, items):
    3.     return chain.from_iterable(map(f, items))
    复制代码
    它和 map 的差别在于是不是扁平(flat) 的(废话。。),举个例子
    1. >>> list(map(list, ['123', '456']))
    2. [['1', '2', '3'], ['4', '5', '6']]
    3. >>> list(flat_map(list, ['123', '456']))
    4. ['1', '2', '3', '4', '5', '6']
    复制代码
    3. 上述函数的应用举例
    在做爬虫工作时,有时会遇到这样的 table 元素:
    1.png
    对这种 html 元素,我一般会直接把它转换成 list,结果如下:
    1. table = [['label1', 'value1', 'label2', 'value2'],
    2.          ['label3', 'value3'],
    3.          ['label4', 'value4', 'label5', 'value5'],
    4.          ...
    5.          ]
    复制代码
    为了方便索引,现在我需要把上面的数据转换成下面这个样子的 dict
    1. {
    2.     'label1': 'value1',
    3.     'label2': 'value2',
    4.     'label3': 'value3',
    5.     'label4': 'value4',
    6.     'label5': 'value5'
    7. }
    复制代码
    如果是平常,大概需要写循环了。不过如果用刚刚说到的几个函数的话,会变得异常简单
    1. # 1. 分组
    2. groups = flat_map(group_each_2, table)

    3. # 1.1 flat_map 返回的是迭代器,list 后内容如下:
    4. # [('label1', 'value1'),
    5. #  ('label2', 'value2'),
    6. #  ('label3', 'value3'),
    7. #  ('label4', 'value4'),
    8. #  ('label5', 'value5')]

    9. # 2. 转换成 dict
    10. key_values = dict(groups)   # 得到的 key_values 与上面需要的 dict 别无二致。
    复制代码
    涨姿势的模块
    • 迭代器:itertools,这个模块的内容,感觉全都非常实用。
    • 特殊数据结构:colletions,也都各有用途,我用的最多的应该是 defaultdict。
    • 函数式:functools 中的 partical、reduce 可以了解一下,还有 builtins 的 map、filter、zip.(不过这后面的三个函数,其实可以用推导式替代)
      除了函数式外,还有一个 singledispatch 值得注意,这个装饰器实现了单重派发(类似于 Java 的方法重载),可通过同名函数的第一个参数的类型,来决定调用哪一个实现。
    • 和比较有关的函数:sorted、max、min 和 itertools.groupby,常常使用 opreator 的 itemgetter (有时可能是 attrgetter/methodcaller)作为参数 key。
    • 常用操作的函数库:operator,包含了非常多的抽象操作的函数形式(加减乘除、in、等等),经常被用作 reduce/map/filter 的参数 function。内容比较多,建议在需要用到时再查阅.

    P.S. 使用这些模块的话,最好附带上详细的注释。(方便事后理解)

    二、其他1. 多 dict 的去重
    假设我们有一个 dict 的列表,里面可能有内容一模一样的 dict,我们需要对它做去重。
    容易想到的方法就是使用 set,可是 set 中的元素必须是 hashable 的,而 dict 是 unhashable 的,因此不能直接放进 set 里。
    1. >>> a = [{'a': 1}, {'a': 1}, {'b': 2}]
    2. >>> set(a)
    3. Traceback (most recent call last):
    4.   File "/usr/local/lib/python3.7/site-packages/IPython/core/interactiveshell.py", line 2961, in run_code
    5.     exec(code_obj, self.user_global_ns, self.user_ns)
    6.   File "<ipython-input-5-5b4c643a6feb>", line 1, in <module>
    7.     set(a)
    8. TypeError: unhashable type: 'dict'
    复制代码
    难道就必须手写递归了么?未必,我在 stackoverflow 看到这样一个小技巧
    1. import json

    2. def unique_dicts(data_list: list):
    3.     """unique a list of dict
    4.         dict 是 unhashable 的,不能放入 set 中,所以先转换成 str
    5.         
    6.         unique_dicts([{'a': 1}, {'a': 1}, {'b': 2}])  ->  [{'a': 1}, {'b': 2}]
    7.     """
    8.     data_json_set = set(json.dumps(item) for item in data_list)
    9.     return [json.loads(item) for item in data_json_set]
    复制代码
    2. str 的 startswith 和 endswith 两个函数的参数可以是元组
    1. In[7]: a = "bb.gif"
    2. In[8]: b = 'a.jpg'
    3. In[9]: a.endswith(('.jpg', '.gif'))
    4. Out[9]: True
    5. In[10]: b.startswith(('bb', 'a'))
    6. Out[10]: True
    复制代码


    本文转载自网络
    回复

    使用道具 举报

    您需要登录后才可以回帖 注册/登录

    本版积分规则

    关闭

    站长推荐上一条 /4 下一条

    手机版|小黑屋|与非网

    GMT+8, 2024-11-27 03:45 , Processed in 0.114174 second(s), 16 queries , MemCache On.

    ICP经营许可证 苏B2-20140176  苏ICP备14012660号-2   苏州灵动帧格网络科技有限公司 版权所有.

    苏公网安备 32059002001037号

    Powered by Discuz! X3.4

    Copyright © 2001-2024, Tencent Cloud.