搜狗词库的批量下载#Python

在制作电子病历全文索引时，需要建立索引，索引是根据索引词建立的，现有索引词匮乏，不能满足需求，搜寻之后，发现搜狗输入法的医学词库很庞大，所以，想着自学写一个Python脚本，完成词库的自动下载工作。

正文

分析参考资料代码

通过分析代码发现，思路是：

获取分类链接
获取该分类的分页链接
获取该页下载链接-->生成一个list
通过list下载内容

所需模块知识补充

1、requests和BeautifulSoup模块（分类、分页、下载链接都涉及）

爬取网页过程
获取网页数据-->requests模块，并转换成txt格式
解析数据-->BeautifulSoup模块，txt转换成bs对象
提取相关数据-->需要分析url找到想要的数据内容，确定对应的class_
举例，小分类的全部链接可以在cate_words_list的table下面全部找到，所以提取整体内容items = soup.find_all('table', class_='cate_words_list')

image

2、write模块

def download_dict(dl_url, path):    
    res = requests.get(dl_url, timeout=5)    
    with open(path, "wb") as fw:        
          fw.write(res.content)

总结

解析网页和下载内容部分进行了详细解释，针对如何将scel文件转换成txt文件，这里先不做讲解了（我也没弄明白呢），下次有机会再给大家分析分析。

附赠代码下载链接

我用夸克网盘分享了「搜狗词库的批量下载#Python」，点击链接即可保存。打开「夸克APP」，无需下载在线播放视频，畅享原画5倍速，支持电视投屏。
链接：https://pan.quark.cn/s/2d42c4b3ee60
提取码：dtp5

参考资料

Python 搜狗词库的批量下载

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

搜狗词库的批量下载#Python

搜狗词库的批量下载#Python

正文

分析参考资料代码

所需模块知识补充

1、requests和BeautifulSoup模块（分类、分页、下载链接都涉及）

2、write模块

总结

附赠代码下载链接

参考资料

相关阅读更多精彩内容

友情链接更多精彩内容