PDF作为可移植文档格式(Portable Document Format),在日常生活中经常接触到,最近处理一些数据更是频繁接触一些需要批量处理pdf文件的需求,因此便想整理一下自己实践的用Python处理PDF格式数据的笔记。本文会保持更新。
PDF处理的高频需求有:读取、写入、格式转换(pdf提取文本写入txt、根据url写入pdf等)
、批处理(多个pdf合并为1个、切分pdf)等等。

阅读全文 »

最近遇到一个问题:

如何合并多个jupyter notebook的笔记为一个笔记文件?

经常用jupyter notebook写Python代码,看到这个需求不是想去找轮子而是想自己做解析和合并。通过深入文件格式去加深对jupyter notebook的了解。用jb 写代码有很多优势:交互式的编程体验、文档图表整合、扩展性强而且非常容易复现结果。从2017年开始,已有大量的北美顶尖计算机课程,开始完全使用Jupyter Notebook作为工具。如李飞飞的CS231N《计算机视觉与神经网络》课程,在16年时作业还是命令行Python的形式,但是17年的作业就全部在Jupyter Notebook上完成了。因此除了改主题安插件之外,探索更多的Jupyter Notebook用法和原理是有趣有用的。

阅读全文 »

Jupyter Notebook 是很好的数据科学创作环境,反正我做数据分析的项目或小练习的时候,基本都是在用jupyter notebook(原先是叫ipython notebook,所以现在文件后缀还是.ipynb),以前不怎么用到导出pdf功能,然后要用的时候就遇到很多坑了。jupyter提供导出的格式有.py、.html、.md、.pdf等。

阅读全文 »

初心:更好地利用前端交互性,做更优秀的笔记效果,更方便更新

配置Hexo总结。关于Hexo建站的教程太多了,很多细节很到位,不想重复,整体建站和配置的框架如下:

  • 安装node(可用node -v命令检验是否安装成功);添加国内阿里镜像进行加速(可选);
阅读全文 »

数独起源于18世纪初瑞士数学家欧拉等人研究的拉丁方阵,20世纪70年代,经过美国及日本学者的推广和改良,定名为数独(Sudoku),大致的意思是“独个的数字”或“只出现一次的数字”。
标准的九宫格数独包含9×9个格子,且每3×3的区域组成一宫,数独的规则要求在空出来的格子里填如1~9的数字,要满足每行、每列和每宫内的数字都不重复,也就是行、列及宫里都是由不重复的1~9构成。数独还包含了一些6×6、不规则九宫等个性数独,本篇仅讨论标准九宫格数独的情况。

阅读全文 »

为什么需要配Windows to go

Windows To Go 是 Windows 10 企业版和 Windows 10 教育版中的一项功能,支持创建可从电脑上 USB 连接的外部驱动器启动的 Windows To Go 工作区

说得通俗一点就是把 Windows 系统集成到U盘等便携设备上,且能在不同的电脑硬件上直接运行。无论走到天涯海角,都可以在任何一台符合基本条件的电脑上,使用U盘里安装的系统。这个系统是包含了安装的各种软件和个性化设置的Windows系统。大家配置Windows to go(简称WTG)的原因主要有:电脑是Mac,想有Windows打游戏;经常出差需要用其他地方的电脑,不习惯用那些电脑的Win 7甚至XP;配某些开发环境,换一个环境只需要再拿这个U盘做一次Windows to go。

阅读全文 »

Altair简介

Altair是一个强大且简明的声明式统计可视化Python库,它能够快速绘制出各种优雅可交互的统计图表。
Altair基于一个前端图表库Vega-Lite,因此绘图的成果也可以通过 chart.to_json() 在前端项目中结合vega库使用。Vega-Lite是一套交互式图形语法,通过简洁的JSON键值对配置快速生成可视化结果,来支持数据分析工作。Altair可读作阿泰尔,天文学中指牵牛星、牛郎星,天鹰座中最明亮的恒星,用这个意象也表达了这个库的野望。

阅读全文 »

cutecharts简介

Matplotlib默认主题下绘制的可视化图形如一位高贵冷艳、不沾烟火的冰山女神,而cutecharts的图就像不拘常规、潇洒无羁的活力少年。

纤尘不染vs洒脱无畏
cutecharts是基于chart.xkcd的Python可视化库,chart.xkcd则是基于SVG来绘制可视化图表的JavaScript库,cutecharts充分利用了JavaScript灵活易用的特点,通过简单的语句让可视化图形有强大的表现力和优秀的交互效果,对操作系统和设备的依赖很低。

cutecharts进行可视化的基本代码框架如下:

阅读全文 »