互联网+

scrapy-spalsh使用UA和IP代理

1

子航 发布于 2019-03-21

核心 设置UA,优先在lua脚本中使用splash:set_user_agent("{ua}") 设置ip代理,使用SplashRequest的proxy 代码 pip install fake-useragent # -*- coding: utf-8 -*...

阅读(41)评论(0)赞 (1)

数字货币交易基础

27

子航 发布于 2019-03-02

笔记地址: https://mubu.com/doc/32oAKe88E8 数字货币交易基础 交易入门基本知识 基本知识 交易时间:7*24小时全年无休市 开户:开户流程简单 交易手续费: 0.2%(火币) T+0: 股票是T+1交易,即当天买入股票,下一个交易日才可卖出。而比特...

阅读(113)评论(0)赞 (0)

[数字货币交易所]历史流量 排名 视频图表(B站、YouTube)

1

子航 发布于 2019-03-02

选择一家优秀的交易所,开启你的财富自由之路…… (上句纯粹为了在熊市扯个独自) 一、说一下已知bug,没时间去改 由于第一次做的版本,有一些已知的BUG,不过不算太严重,如下: (数据截止到2018年10月) 1,数据来源 Alex网站流量数据,单位 /百万人 2,没有对一家交易...

阅读(159)评论(0)赞 (1)

Mac配置终端梯子模式

5

子航 发布于 2019-02-19

一、确定ss的端口 看 HTTP代理设置 或者 高级设置,确定http(s)和socks的端口 http端口: socks端口: 二、修改终端 用户目录下: 1➜  ~ vim .bash_profile2或者3➜  ~...

阅读(172)评论(0)赞 (2)

爬虫敏感图片的识别与过滤,了解一下?

4

子航 发布于 2018-11-02

爬虫敏感图片的识别与过滤,了解一下? 需求 我们需要识别出敏感作者的avatar头像,把”皮卡丘“换成”优雅的python“。 敏感图片样本属性: 爬虫获取的图片属性: 替换成: 原理 检查两个图片的相似度,一个简单而快速的算法:感知哈希算法(Perceptual Hash),通...

阅读(2491)评论(0)赞 (0)

调研:爬取微信公众号的方法

子航 发布于 2018-06-18

微信公众号爬虫梳理汇总 一、微信公众号数据源: 1.搜狗微信 :可以获取到 订阅号,近期没有做过变动的公众号。没有服务号,数据分析所需数据不全(点赞/打赏/阅读等等) 2.手机app :数据最全 3.微信公众平台后台历史链接:采集微信公共号历史信息,除了通过中间代理采集APP就是...

阅读(2164)评论(1)赞 (0)

python scrapy 爬虫 业务全球化 解决时区问题

子航 发布于 2018-06-10

目标网站位于国外,如何通过爬虫,获取数据,并转出时间戳入库。 首先,为了实现业务全球化,入库时间必须要UTC +0时间。 但是由于在中国本地调试爬虫和爬取数据,网页返回的时间字符串可能是东八区的时间,不是我们需要的UTC 0时间。同时,通过python转时间戳,也是有坑的。 解决...

阅读(1335)评论(0)赞 (0)

分享一个关于PM职业规划的ppt,接地气且优秀:《如何规划我的产品经理之路?》

29

子航 发布于 2017-10-07

为利于分享,此份ppt我转为了图片格式并上传新浪图床 划重点:产品经理的主要输出物 划重点:产品经理的日常 划重点:职业特点及其优劣势: 划重点:转行人士可以参考,结合自身优势入行 一点随笔: 1、即使作为开发,也应该有产品思维。 2、无需复杂的专业知识培训,从其他行业跳入互联网...

阅读(1674)评论(0)赞 (3)

树莓派烧入ubuntu mate系统时,不能开机启动ssh的问题

1

子航 发布于 2017-09-12

由于手头没有外界显示器,树莓派烧入官方raspbian系统,都是通过通过 cd/Volumes/BOOT, 之后touch ssh的方式,不需要使用一次HDMI屏幕。仅需要一根网线用mac和树莓派建立局域网。 然而,ubuntu mate 系统必须使用外界屏幕,进行第一次的初始化...

阅读(1951)评论(0)赞 (3)