本文总共586个字,阅读需2分钟,全文加载时间:2.305s,本站综合其他专栏收录该内容! 字体大小:

文章导读:很多人都会遇到需要下载百度文库的资料,但大部分的文档都需要会员才可以下载或复制,有的甚至需要付费,而百度文库的使用频次太低又没必要开通会员,所以大部分人就只能通过截图文字识别的方式提取文字内容,遇到……各位看官请向下阅读:

很多人都会遇到需要下载百度文库的资料,但大部分的文档都需要会员才可以下载或复制,有的甚至需要付费,而百度文库的使用频次太低又没必要开通会员,所以大部分人就只能通过截图文字识别的方式提取文字内容,遇到内容多的时候就很麻烦。该方法或可解决您的难题,但是需要自己后期简单调整内容和格式。

建议使用Chrome浏览器

文档查找

在百度文库查找自己所需的Word文档,并打开链接。以《互联网医院在线处方管理制度》为例。

百度文库搜索示例图

文档内容提取

浏览器内单击鼠标右键,选择“检查”或按F12调取浏览器开发者调试工具,选择Elements标签。

点击调试工具左上角小鼠标按钮,单击选择正文部门,找到浏览器元素中class=“reader-container”的div标签,并选择复制

文档内容元素提取

将其复制到notepad、sublime、coteditor等支持正则表达式的编辑器中

内容元素整理

打开编辑器的“查找/替换”功能,选择正则表达式匹配。

通过<div class="hx-warp.*?<div class="reader-page.*?>批量替换为空去除广告内容;

通过<.*?>批量替换为空内容,去除网页标签内容;

通过&nbsp批量替换为空内容,去除多余的空格。

替换前内容

替换后内容

文档格式调整

将内容元素整理好后,粘贴至Word文档,删掉多余的文字和广告,并进行简单的格式调整即可。

以上内容由优质教程资源合作伙伴 “鲸鱼办公” 整理编辑,如果对您有帮助欢迎转发分享!

你可能对这些文章感兴趣:

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注