【英雄再聚】活动内容爬取工具 (表格版)
来源于活动员们的需求,减少需要大量统计活动的工作量。相关功能已经经过【疯狂之旅】活动测试,保证可用。主要功能:自动爬取指定帖子的每一楼,获取用户id、uid,以及楼内的文本内容,并且写入表格内(目前默认文件名为day1.xlsx)以便于后续使用表格而非python处理
使用说明:1. 首先打开浏览器的控制台,获取论坛的cookie,并将其内容复制到工具同目录下的cookie.txt内2. 打开worker.exe,输入所需要爬取的帖子tid(帖子网址thread-xxxxxx-1-1.html)3. 爬取的内容会放在同目录下的day1.xlsx中,一楼为一行,可以根据楼内内容产生特定的列标楼内为:key1#value1key2#value2则xlsx内每一行为:value1 value2注:未对表格内key进行写入,请自行后续添加表头的key,以及要求楼内key不可乱序,亦不支持空行,具体参照【疯狂之旅】活动主页https://www.gamemale.com/thread-139179-1-5.html
注意事项:1.cookie有一定有效期(一般为一个月),如果失效请即时更新2. id和uid的爬取都是准确的,但目前没有针对高楼重复问题进行修正,建议修复后使用本工具3. 楼层内容的提取仅限文本内容,即不可以使用任何美化。包括但不限于字体调整,颜色调整,加粗,折叠等。上述操作将把纯文字用代码块修饰而无法简单提取,并且请勿在key或value内使用“#”符号,仅做为分隔符使用。4. 有能力的用户可以自行安装python环境运行源码,并做出修改。
欢迎反馈bug并且提出更细致的需求鉴于工具实际上对帖子每一页内容进行快速访问,因此不对普通用户开放下载权限。源码:exe打包:暂不提供,有需要可以直接联系我
泥潭療養院 牛牛牛,之前没投活动就是记录太麻烦
不过现在有的活动早就已经排到明年力 活动员福音吧,如果还是一个人慢慢整理,估计要累死了。 太好了,这次活动我就试用一下{:6_195:} 好强大的工具,直接爬取简直不要太方便了{:6_197:} 利好活动员惹 感觉活动员确实蛮辛苦的 好像不少人回帖复制回帖格式的时候都会复制到字体格式,之前看格雷天天一个个手动检查修改就好累的 建议加上楼层数字,只看id不方便回头查找 好厉害的脚本
这下可以大大减轻活动信息收集工作量了 对帖子格式的要求很严格呢,当时格雷就是不停在修改格式,其实提醒的过程也是很麻烦的 感觉如果合适的话会大大提高工作效率呢,奖励核对也会更快了 活动员狂喜啊,另外参与活动的也可以很快就领到勋章了{:6_200:} 牛~~大佬不是说说而已~~ 墨老师的工具很方便惹{:6_184:}不过要控制格式,人多了就会有问题的是{:6_167:} 对回帖格式只需要纯文本,带格式粘贴还不用格式刷的好像看到了格雷统计crazy的样子( 应该可以再引入一些库更好优化一下 大大利好活动员呢! 有這個至少可以減少很多重複勞動...
活動員只有一個忙起來真的是天昏地暗/w\ 这么一看感觉泥潭活动员好辛苦 喔⊙ω⊙看着就好方便的欸~要是俺上就真的只是一个一个手动保存咯(´×ω×`)
页:
[1]
2