情况是这样:
1. 我通过网络抓包(wireshark)能得到用户的所有http请求
2. 我也知道如何解析http,通过host+path的方式还原url
3. 在访问一个网站的时候,会有大量的内嵌的url一并发出,例如图片,iframe标签等
我的问题是 -- 如何是通过网络抓包分析,确定在浏览器地址栏中的URL,而不要那些由于页面src引入的其他url。
我为此问题做的一些思考:
1. 过滤掉js,css,png等请求。不全面,有些iframe的情况是html的
2. refer。只过滤没有refer的url,这条路行不通,因为用户在浏览器中点击链接,新网页的Get请求也会带上原来页面的refer,所以此方法不靠谱。如果只考虑没有refer和refer字段的情况,也不全面。
一般第一个请求会是地址栏URL。
这个问题通过网络抓包,很难实现,如果用户打开了多个页面进行浏览或者刷新,感觉没法分析出来,
如果你用webbrowse自己封装个浏览器,就比较好实现
估计通过抓包的办法不好弄,一个URL可以是src内的,我也可以把它复制后放到地址栏上进行请求。
所以估计是需要获取运行的浏览器,然后获取它们的地址栏窗口,最后获取该窗口上的URL字符串
我知询了很多相关的同事和同学,基本上可以确定用抓包的方式很难确定用户的浏览器的地址栏访问哪一条url。
那么想问问,网关设备是如何对用户上网的行为进行审计的呢?
请问楼主,现在问题有没有解决,我最近也遇到相同的问题了,求解