徐明的博客: 金山文档突破限制提取整个文档内容的方法

直接讲方法：

用chrome或egde浏览器打开在线文档

F12打开控制台

进入“网络”选项卡，筛选器选择“文档”

刷新一下网页，让资源重新加载，然后就能看到列表里多了一些文档类型的加载资源

基本上你想要的东西是那个体积最大的一项

右击它在右侧出现的窗口中选择“响应”

内容可能很多，直接全选复制，粘贴到你的编辑器中，别用系统的记事本，会很卡，我用的是VSCODE

复制出来的内容需要清洗，可以用python脚本

以我处理的文档为例：文本有十几万行，我想要的内容都包含在"text": "{目标文字}"这样的位置

于是可以用以下python脚本提取

import re
import os
os.chdir(os.path.dirname(__file__))

# 输入文件和输出文件路径
input_file = 'input.txt'
output_file = 'output.txt'

# 正则表达式，匹配 "text": "目标文字"
pattern = re.compile(r'"text":\s*"([^"]+)"')

with open(input_file, 'r', encoding='utf-8') as infile, \
     open(output_file, 'w', encoding='utf-8') as outfile:
    
    for line in infile:
        match = pattern.search(line)
        if match:
            target_text = match.group(1)
            outfile.write(target_text + '\n')

print("提取完成，结果已保存至 output.txt")