使用python脚本实现自动替换博文图片为新浪微博图床链接

简介
前期配置
程序实现
新浪图床原理
后记

简介

1542047918551

静态博客搭建完毕后，我开始尝试着写一些博文，但由于博客是基于jekyll的静态页面，所有图片都是基于md文件中带链接的图片，因此本地的链接在po上网之后就不再管用了。于是需要将图片放到图床上，感谢新浪微博提供的免费图床(对外链无限制),以及很棒的cdn图片加速服务，博客图片有了好归宿。

然而在写博客过程中，每次要插入图片都专门去登录微博上传太麻烦了。我就发现了https://simg.lylares.com/，一个很棒的新浪图床网站，直接拖动图片甚至粘贴过去都可以使用并返回图片。然而在写起博客来开着一个网页不停地拖图片过去然后再复制链接然后再按着md规范写图片链接还是很麻烦。我就想，有什么办法能像写word一样直接粘贴就oxxk了呢？

感谢大佬封装好了api供广大用户使用，不用我再去造轮子放在自己极其不稳的服务器上了；于是我使用了berryapi提供的api（他家还有很多很实用的api，我写QQ机器人会有用到）。有了api，我可以通过上传本地的图片或者发送网络上的图片的url到他的服务器，他的服务器回传给我上传图床之后的链接。

由此，实现word化插入图片的准备已经做好，只需一个能够将粘贴图片转换为本地/网络链接的md编辑器（我用的Typora，免费好用颜值爆表还有中文，官网实在是太漂亮了），再加上一个python脚本就可以实现md文件中本地/网络图片替换成新浪图床链接的操作，由此只需在写博客的时候粘贴，写完跑一跑脚本就完事了skrskr。搭配截图软件（我用的搜狗输入法自带的），还能实现截图完直接粘贴，Typora自动插入并转存本地的某位置，再然后脚本转换为图床链接一条龙模式，写博文更加的方便了。那么这个脚本要怎么做呢，由此写出了如下的程序结构：

1542048545096

前期配置

要使用或是参与改良这个脚本，需要如下的环境：

Python3
能够实现粘贴图片自动生成md格式的md编辑器（如Typora）
互联网

使用时只需将脚本的py文件挪至存有md文件的文件夹下即可实现对所有md文件中图片地址的替换。只是使用的话你可以在我的github看到所有代码：https://github.com/BHMulberry/efficientScripts/blob/master/weiboPic/mdPicHandler.py

新人求星呀~

程序实现

定位md文件

# try to discover md files in the directory
filelist = os.listdir()
for name in filelist:
    if name.endswith('.md') | name.endswith('.markdown'):
        replacePicAddr(name)

使用os.listdir()方法获取当前目录下所有的文件名，校检后缀，找到md文件，调用自己写的方法对其进行替换处理。

获取图床链接

def getWeiboUrl(addr):
    if addr.startswith('http'):                # use picture from the Internet
        data = {'url': addr}
        r = requests.post(apiurl, headers=heads, data=data)
    else:                                       # use local picture
        p = open(addr, 'rb')
        dir = addr.split("\\")
        files = {'file': (dir[len(dir)-1], p, 'image/jpeg', {})}
        r = requests.post(apiurl, headers=heads, files=files)
    j = r.json()
    if j['msg'] != 'ok': return 'failed'
    return r.json()['data']['images']['large']

通过对传参得到的地址进行判断，判断其属于外部url或是本地地址，针对不同地址post不同内容，由api获取返回的图床链接并返回。若遇到非法的地址提交会出错，返回failed。

地址替换

def replacePicAddr(filedir):
    f = open(filedir, encoding='UTF-8')
    texts = []
    for s in f.readlines():
        matchObj = re.match(r'!\[(.*)\].*\((.*?)\)', s, re.M | re.I)
        if matchObj == None:
            texts += [s]
        else:
            addr = matchObj.group(2)
            texts += [s.replace(addr, getWeiboUrl(addr))]
    f.close()
    f = open(filedir, mode='w', encoding='UTF-8')
    for line in texts:
        f.write(line)
    f.close()
    print(filedir, 'has been successfully converted!')

首先读取md文件，使用texts按行暂存转换得到的内容。对每一行使用正则匹配检验是否出现md的图片语法（即是否出现“！【…】（…）”），进而调用api获取图床链接进行替换。注意使用open时要用UTF-8编码否则中文会出问题。

新浪图床原理

参见博客原文：新浪图床API接口及源码

copy核心的php代码如下：

/**
     * 新浪微博登录
     * @param  string $u 微博账户
     * @param  string $p 密码
     * @return string    返回cookie
     */
    function weiboLogin($u,$p){
        $loginUrl = 'https://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.15)&_=1403138799543';
        $loginData['entry'] = 'sso';
        $loginData['gateway'] = '1';
        $loginData['from'] = 'null';
        $loginData['savestate'] = '30';
        $loginData['useticket'] = '0';
        $loginData['pagerefer'] = '';
        $loginData['vsnf'] = '1';
        $loginData['su'] = base64_encode($u);
        $loginData['service'] = 'sso';
        $loginData['sp'] = $p;
        $loginData['sr'] = '1920*1080';
        $loginData['encoding'] = 'UTF-8';
        $loginData['cdult'] = '3';
        $loginData['domain'] = 'sina.com.cn';
        $loginData['prelt'] = '0';
        $loginData['returntype'] = 'TEXT';
        return loginPost($loginUrl,$loginData); 
    }
 /**
     * 发送微博登录请求
     * @param  string $url  接口地址
     * @param  array  $data 数据
     * @return json   返回cookie
     */
    function loginPost($url,$data){
        $tmp = '';
        if(is_array($data)){
            foreach($data as $key =>$value){
                $tmp .= $key."=".$value."&";
            }
            $post = trim($tmp,"&");
        }else{
            $post = $data;
        }
        $ch = curl_init();
        curl_setopt($ch,CURLOPT_URL,$url); 
        curl_setopt($ch,CURLOPT_RETURNTRANSFER,1); 
        curl_setopt($ch,CURLOPT_HEADER,1);
        curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
        curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);
        curl_setopt($ch,CURLOPT_POST,1);
        curl_setopt($ch,CURLOPT_POSTFIELDS,$post);
        $return = curl_exec($ch);
        curl_close($ch);
        $preg = "/SUB=.*?;/";
        preg_match($preg,$return,$arr);
        return $arr['0'];
    }
    /**
     * 上传图片到微博图床
     * @param $file 图片文件/图片url
     * @param $multipart 上传方式，true采用本地上传，false采用url上传
     * @return 返回的json数据
     */
    function weiboUpload($file,$cookie, $multipart = true) {
		
		$url="http://picupload.service.weibo.com/interface/pic_upload.php?mime=image%2Fjpeg&data=base64&url=0&markpos=1&logo=&nick=0&marks=1&app=miniblog";
		
        if($multipart) {
            $url .= '&cb=http://weibo.com/aj/static/upimgback.html?_wv=5&callback=STK_ijax_'.time();
            if (class_exists('CURLFile')) {     // php 5.5
                $post['pic1'] = new \CURLFile(realpath($file));
            } else {
                $post['pic1'] = '@'.realpath($file);
            }
        } else {
            $post['b64_data'] = base64_encode(file_get_contents($file));

        }
        // Curl提交
        $ch = curl_init($url);
        curl_setopt_array($ch, array(
            CURLOPT_POST => true,
            CURLOPT_VERBOSE => true,
            CURLOPT_RETURNTRANSFER => true,
            CURLOPT_HTTPHEADER => array("Cookie:" . $cookie),
            CURLOPT_POSTFIELDS => $post,
        ));
        $output = curl_exec($ch);
        curl_close($ch);
        preg_match('/({.*)/i', $output, $match);
        if(!isset($match[1])) return '';
        return $match[1];
    }
  /** 
     * 获取不同尺寸的图片链接
     * @param string $pid 微博图床pid，或者微博图床链接(带后缀)。
     * @param string $size 图片尺寸 0-7(数字越大尺寸越大)
     * @param bool $https (true) 是否使用 https 协议 
     * @return string 图片链接 当 $pid 既不是 pid 也不是合法的微博图床链接时返回空值 
     */  
    function getImageUrl($pid, $size = 0, $https = true){  
        $sizeArr = array('large', 'mw1024', 'mw690', 'bmiddle', 'small', 'thumb180', 'thumbnail', 'square');
        $pid = trim($pid);  
        $size = $sizeArr[$size];  
        // 传递 pid 
        $data =array( 
	'large'=> geturl($pid,'large')
	);			
      return json_encode($data);  
    }
 /** 
     * 获取图片链接
     * @param string $pid 微博图床pid，或者微博图床链接(带后缀)。
     * @param string $size 图片尺寸 0-7(数字越大尺寸越大)
     * @param bool $https (true) 是否使用 https 协议 
     * @return string 图片链接 当 $pid 既不是 pid 也不是合法的微博图床链接时返回空值 
     */
function getUrl($pid,$size){
			
			   if (preg_match('/^[a-zA-Z0-9]{32}$/', $pid) === 1) {  
            return ($https ? 'https' : 'http') . '://' . ($https ? 'ws' : 'ww')  
                . ((crc32($pid) & 3) + 1) . ".sinaimg.cn/" . $size  
                . "/$pid." . ($pid[21] === 'g' ? 'gif' : 'jpg');  
        }  
        // 传递 url  
        $url = $pid;  
        $imgUrl = preg_replace_callback('/^(https?:\/\/[a-z]{2}\d\.sinaimg\.cn\/)'.'(large|bmiddle|mw1024|mw690|small|square|thumb180|thumbnail)'.'(\/[a-z0-9]{32}\.(jpg|gif))$/i', function ($match) use ($size) {  
                return $match[1] . $size . $match[3];  
            }, $url, -1, $count);  
        if ($count === 0) {  
            return '';  
        }
        return  $imgUrl;
			
			
		}

后记

头一次写这么多，比报告还精致。要是只打代码就能很早睡了……唉唉