回到首页

金山文档突破限制提取整个文档内容的方法

六月 04, 2025

直接讲方法:

用chrome或egde浏览器打开在线文档

F12打开控制台

进入“网络”选项卡,筛选器选择“文档”

刷新一下网页,让资源重新加载,然后就能看到列表里多了一些文档类型的加载资源

基本上你想要的东西是那个体积最大的一项

右击它在右侧出现的窗口中选择“响应”

内容可能很多,直接全选复制,粘贴到你的编辑器中,别用系统的记事本,会很卡,我用的是VSCODE

复制出来的内容需要清洗,可以用python脚本

以我处理的文档为例:文本有十几万行,我想要的内容都包含在"text": "{目标文字}"这样的位置

于是可以用以下python脚本提取

import re
import os
os.chdir(os.path.dirname(__file__))

# 输入文件和输出文件路径
input_file = 'input.txt'
output_file = 'output.txt'

# 正则表达式,匹配 "text": "目标文字"
pattern = re.compile(r'"text":\s*"([^"]+)"')

with open(input_file, 'r', encoding='utf-8') as infile, \
     open(output_file, 'w', encoding='utf-8') as outfile:
    
    for line in infile:
        match = pattern.search(line)
        if match:
            target_text = match.group(1)
            outfile.write(target_text + '\n')

print("提取完成,结果已保存至 output.txt")

0 条评论

发表评论

最近文章