六月 04, 2025
直接讲方法:
用chrome或egde浏览器打开在线文档
F12打开控制台
进入“网络”选项卡,筛选器选择“文档”
刷新一下网页,让资源重新加载,然后就能看到列表里多了一些文档类型的加载资源
基本上你想要的东西是那个体积最大的一项
右击它在右侧出现的窗口中选择“响应”
内容可能很多,直接全选复制,粘贴到你的编辑器中,别用系统的记事本,会很卡,我用的是VSCODE
复制出来的内容需要清洗,可以用python脚本
以我处理的文档为例:文本有十几万行,我想要的内容都包含在"text": "{目标文字}"这样的位置
于是可以用以下python脚本提取
import re
import os
os.chdir(os.path.dirname(__file__))
# 输入文件和输出文件路径
input_file = 'input.txt'
output_file = 'output.txt'
# 正则表达式,匹配 "text": "目标文字"
pattern = re.compile(r'"text":\s*"([^"]+)"')
with open(input_file, 'r', encoding='utf-8') as infile, \
open(output_file, 'w', encoding='utf-8') as outfile:
for line in infile:
match = pattern.search(line)
if match:
target_text = match.group(1)
outfile.write(target_text + '\n')
print("提取完成,结果已保存至 output.txt")
0 条评论
发表评论