Writing

文章

这页主要放技术文章、研究笔记和方法总结。大多写系统、内容和 AIGC。

2024年5月7日

技术面的ai宝贝计划(总篇)

传统的面试题整理+检索对 fakeable 的突破有限,且面试过程中鼠标翻找笔记或者键盘在搜索引擎敲字实在观感有点差。

阅读全文 →

2024年5月5日

重操旧业之某某新版加密及字体反爬的破解

真金白银充值的 VIP,没看几篇就快过期了,为值回票价 + 后续搭建 AIGC 生产流,花了一点时间研究出了一套自动化下载流程。当然前提是你的账号必须也开通了 VIP,另外提醒账号都是绑定手机号的,下载量自己斟酌。只供自己阅读,尊重版权。

阅读全文 →

2023年6月12日

练习时长两年的鹅厂经历回顾

工作经历

阅读全文 →

2021年1月16日

爬虫工程师的自我修养之系统架构

距离写上一篇 爬虫工程师的自我修养之基础模块 已经过去大半年了,接着来填坑系统架构。现在大多数爬虫工程师似乎都在往逆向方向发展,传统系统架构相关的文章反而销声匿迹了。这里我抛砖引玉,谈一谈我在爬虫系统架构相关的理解

阅读全文 →

2020年12月31日

逆向之android native emu初探

最近一款搬运Youtube视频的App在小圈子里火了起来,通常新App的防护是比较差的,逆向难度低。本来是不适合用来水博客的,但既然简单那就可以玩点花样,试试来用 AndroidNativeEmu 实现加解密算法的调用。

阅读全文 →

2020年7月23日

逆向settings实现监控app通知

通知是App促活用户的重要手段,推送的内容往往也是各家最时效和优质的内容。市面上的通知监控软件往往只能获取到通知的标题、内容和缩略图,无法获取到内容的地址。

阅读全文 →

2020年5月11日

基于cef和chromium的浏览器集群

在JS动态加载遍地都是的现在,通用爬虫系统离不开强大的浏览器集群。市面上有诸多关于selenium和puppeteer操纵浏览器进行爬取的教程。但是随着反爬技术的发展,selenium的特征很容易被检测,这里有一些相关的讨论: Can a website detect when you are using selenium with chromedriver? 。当然清除selenium特征,或者篡改检测的代码也是一种应对策略。除了自动化测试流派,是否还有其他操纵浏览器的方式呢?本文提出基于CEF(Chromium Embedded Framework)和Chromium,定制一套专业的爬虫浏览器环境,并工程化为浏览器集群。

阅读全文 →

2020年5月8日

逆向某音短视频app之设备激活

某音的爬取,除了逆向协议以外,还有个关键点是设备注册。协议的逆向已经有很多前辈分享,也比较简单,抛开不谈。这篇文章主要讲讲某音的设备注册和激活。

阅读全文 →

2020年4月12日

Elf文件格式与hook

read_elf.py

阅读全文 →

2020年4月5日

爬虫工程师的自我修养之基础模块

近几年,各网站和App对核心内容的保护意识大大提高,反爬机制和风控的手段多种多样。移动互联网步入后半场,各厂倾向于在自家的APP中分发内容,PC/H5站点的内容正在萎缩,甚至消失不见。

阅读全文 →

2020年2月27日

Websocket与js加密函数调用

目前JS加密参数的使用越来越广泛且复杂,同时针对主流web自动化测试工具selenium和puppeteer的检测也已成熟且代码隐蔽。

阅读全文 →

2020年2月14日

记录一次文字点选验证码的破解(中篇)

接上回汉字定位,本篇来讲讲汉字的分类识别

阅读全文 →

2020年2月1日

逆向某风控sdk

背景 市面上用某美SDK的APP越来越多了。去年曾研究过,现在回顾一下,看看一年过去了,都更新了什么内容。

阅读全文 →

2020年1月31日

记录一次文字点选验证码的破解(上篇)

仓库:gsxt_captcha,参考破解含语序问题的点击验证码,修复了一些bug,并上传了已训练好的某验文字定位模型。

阅读全文 →

2020年1月18日

Dex文件的结构及解析

为什么使用Dex而不是Class Dex针对ARM CPU做了定制优化 单个文件,减少IO操作次数 减少冗余信息

阅读全文 →

2019年12月19日

Class文件的结构及解析

ClassFile 伪代码结构

阅读全文 →

2019年12月19日

逆向某电商社区app

抓包

阅读全文 →

2019年12月18日

逆向某付费电竞社交app

不要问我这个App是做什么的,我也不知道。

阅读全文 →