Python处理时间数据的另一种选择,在标准库之外|Arrow使用笔记

Arrow简介

Arrow是一个优秀的Python时间处理库,比起Python内置的多个日期时间库,它简化了时间类型数据的解析和输出方法,增强了时间属性的获取能力。经过多年的发展,现在其他有追求的第三方Python时间处理库基本都会对标Arrow,足矣见其影响力。目前Arrow是0.17版,其GitHub页面 上有6千多Star,而且保持着活跃的更新,可见其未来会更加强大。

Arrow概览导图

时间数据输入与转换

从各种输入解析为时间对象是经常面对的需求,Arrow库将数据的输入解析统一封装在arrow.get()函数里,不需要去记time的strptime、gmtime等方法,只要将输入数据传给get,就可以得到一个时间对象,例如dt=arrow.get('2020-12-07')。当get()不输入参数时得到的是当前的UTC时间,相当于datetime.utcnow();get(s)则解析字符串s里的日期要素;get()传入浮点数(float)或int则把输入当成时间戳进行解析;get还可以传入time或datetime的对象,转为arrow的时间对象。
arrow的时间对象是封装为自己的自定义类型,要转为datetime的时间对象可以调用dt.datetime,同理要转为时间戳格式使用dt.timestamp,时间戳一般为一个浮点数,表示时间基准点至特定时间dt的总秒数(小数部分对应毫秒等更精细的时间要素),基准点是格林威治时间1970年01月01日00时00分00秒这一时刻,也就是说如果dt是1970年1月1日0时0分0秒,则时间戳的值为0,而小于1970年是负数。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
import arrow #Anaconda下已经安装
arrow.get('2020-12-07 14:20:10') #内置的对象,不是datetime
#Out[]: <Arrow [2020-12-07T14:20:10+00:00]>
arrow.now() #获取当前时间
dt=arrow.get(1607334506) #get可输入Unix时间戳,也可以输入datetime对象
dt=arrow.get(datetime(2020,12,7), 'US/Pacific')
dt=arrow.get('June was born in May 1980', 'MMMM YYYY')
dt.datetime #转为dateime类型
#datetime.datetime(2020, 12,...)
dt.naive #转为当地时区的datetime类型
dt.year #dt所在的年,输出 2020
dt.floor('hour') #从小时处截断,取dt的小时,后面的分钟秒都是0
#<Arrow [2020-12-07T14:00:00+00:00]>
#对应的有 .ceil('hour')

arrow和Python内置的time、datetime库并不割裂,arrow有dt.time、dt.datetime、dt.timestamp将时间数据从Arrow内置对象转为time等库的时间对象,另一方面,从datetime等时间对象转为arrow对象也是容易的,不仅仅是通过get()转换,arrow的range、span_range也支持datetime对象作为参数输入。
arrow.now() 可以获取当前时间,另外arrow也有.utcnow()获取当前时间UTC(Coordinated Universal Time,世界协调时)时间,在now()函数中可以传入时区 例如写arrow.now('Asia/Shanghai')

要修改时间的某些部分使用replace函数,输入的参数是时间要素的那些属性,如year、month等。

1
2
3
d2=d1.replace(hour=3)
d3=d1.shift(weeks=+4) #当前时间4周后
d4=d1.to('local') #换时区

replace更侧重属性的修改,而shift更多是一种时间偏移的感觉,从当前时间向前或向后偏移一个时间间隔,通常在时间序列的生成中使用到。在转换时区时,除了修改时区的值外,还有一类需求是把当前时间转换为其他时区下的时间,例如dt是北京时间9点,转换成美国东部时间是多少点,这个使用的是dt.to('US/Eastern')

arrow使用format进行格式化,从时间对象转为特定格式的字符串,arrow没有使用strptime的 %Y类型的占位符,而是省略了%号。

1
2
3
4
dt.format('YYYY-MM-DD')
#'2020-12-07'
dt.format() #不输入参数其实对应 YYYY-MM-DD HH:mm:ss ZZ
#'2020-12-07 20:42:18+08:00'

时间序列

arrow可以方便地生成一组时间,和其他数值组合成时间序列,这是datetime等内置库的弱点。通过Arrow.range(frame,start,end)可以生成从start开始,到end结束,按frame为周期重复的一个时间序列,range还支持的参数有tz及limit

1
2
3
list(arrow.Arrow.range('hour',arrow.now(),arrow.now().shift(hours=5)))
#输出:
#[<Arrow [2020-12-10T20:54:19.878759+08:00]>,<Arrow [2020-12-10T21:54:19.878759+08:00]>, ...]

arrow另一大特色是可以把时间对象转为人类容易理解的自然语言形式进行输出,对应的方法为dt.humanize(),humanize还可以根据locale参数输出特定语言的自然语言,有趣的封装。

1
2
3
4
5
6
7
8
dt=arrow.now().shift(hours=-1)
dt.humanize() #当前时间的自然语言表示
#'an hour ago'
future =dt.shift(minutes=75)
dt.humanize(future, granularity="minute")
#'in 75 minutes' #两个时间的对比自然语言表示
dt.humanize(locale='ko_kr') #在韩语里的自然语言
#'2시간 전'

总结

从上文可看出,Arrow有着简洁友好的接口,get统筹各种输入的解析,replace负责各种时间要素的修改,format解决各类格式化输出的需求,range处理时间序列生成问题。
通过dt.year等很自然地获取时间对象的要素,也提供了dt.time等从Arrow自定义对象转为内置的time、datetime对象。Arrow通过收束接口增强了易用性,满足了大部分时间格式处理的需求,而类似的Pendulum、Maya等时间库在解析字符串及输出自然语言方面更进一步,在一些细节上比Arrow更强一些。

Arrow整体导图

参考资料