一个简单的github 500+赞的python项目分析

altify是近些日子在github上了热门页的python应用,它简洁而具有创意。让我们来学习一下。

Donald Trump wearing a suit and tie 图像描述效果

痛点

我们知道,在编写网页(html)时,对图片(img)标签的文本描述(alt)属性的填写总是让人觉得麻烦(实现更好的SEO),有没有什么办法解决这个烦恼呢?有没有可能让它不烦人,自动化完成呢?

解决

Altify 以两百行不到的python代码实现了对html文件中的图片的alt属性的自动生成。 主要是运用了微软提供的深度学习图像识别API来产生图片相应的描述性语言,然后利用该描述性语言自动填充待处理的html文件中的图片属性。整个步骤一个命令就可以完成,且描述效果很好

效果

分析

  1. 用BeautifulSoup分析要处理的html文件
  2. 找到所有的图片标签
  3. 使用uploads.im网站的API上传图片,得到图片的url,然后使用该url向微软的API请求,得到图片的描述性语言。(对于图片宽度小于200px的不予处理)
  4. 填写html中所有图片的alt属性
  5. 将编辑后的html文件保存在原html文件旁边

整个代码主要是三个函数

  • def apply(html_file, api_key)
    利用BeautifulSoup分析html文件,修改html中的图片标签的属性,将修改后的html保存
    apply 调用 upload 和 caption 函数
  • def upload(image_address)
    上传图片得到图片的url和宽度
  • def caption(image_src, api_key)
    请求微软的api获取描述性文本

主要使用库:

  • BeautifulSoup 爬虫常用的简便好使的html处理库。
  • requests httplib urllib 网络请求常用库。实际上只用requests就够了。
  • argparse 命令行参数解析库。

其原理简单,逻辑清晰,没有大难点。

启发

  • 把合适的工具组合起来用于合适的情景中就能产生很好的效果。
  • 利用现成的API和python简便的网络请求功能以及广泛的第三方库,可以实现很有用的功能。
  • Python简洁强大的特性自动化方面具有很大的优势

适用Py3 - 微软API访问修改

import json
import requests

api_url = 'http://api.projectoxford.ai/vision/v1.0/describe'
api_key = "d0a6afa1311e4baabd6666692762eaea"
image_src = "http://h.hiphotos.baidu.com/image/h%3D200/sign=9d91b09b6f63f624035d3e03b745eb32/b90e7bec54e736d140a0b7aa9f504fc2d46269e4.jpg" 
# 测试图片

headers = {
    # Request headers
    'Content-Type': 'application/json',
    'Ocp-Apim-Subscription-Key': api_key,
}

data = {
    # Request parameters
    'maxCandidates': '1',
    "Url": image_src,
}
data = json.dumps(data, separators=(',',':'))

r = requests.post(api_url, data = data, headers = headers)

captioned_data = r.json()['description']['captions'][0]["text"]
# 测试返回为 'a dog sitting in the grass' 

# 此外用py3的话,源码中的BeautifulSoup函数删掉第二个参数,并且去掉一些冗余的引用库

返回数据


其它

  • 源码中使用的Uploads.im 是一个简单快速提供图片上传服务的网站,功能类似国内的七牛云。
  • 获取一个免费的微软机器视觉服务的 API Key。使用微软账户登录该网址后就能获取到Key了。如下图,在Computer Vision栏里。

此外可以学习的地方

res = 0
# Use this loop to see if a file with the same name exits. If ti does, add a suffix.
while os.path.exists(os.path.dirname(html_file) + "/altify" + str(res) +".html"):
    res+=1
parsed_html = BeautifulSoup(html_data)
parsed_html.prettify()
# 将修改后的html美化后保存
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Python 面向对象Python从设计之初就已经是一门面向对象的语言,正因为如此,在Python中创建一个类和对...
    顺毛阅读 4,267评论 4 16
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,273评论 19 139
  • # Python 资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
    aimaile阅读 26,645评论 6 427
  • 横看成岭侧成峰,远近高低各不同。不识庐山真面目,只缘身在此山中。 说到庐山,苏轼的《题西林壁》和李白的《望庐山瀑布...
    陌小豆wh阅读 585评论 0 0
  • 总结下我一直以来想学好却未能学好的技能: 1. 日语 2. 英语 3. 游泳 反思 1. 虽然在日本已经待了2年半...
    小卡亲阅读 179评论 0 0