博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
HttpClient对网页编码的精确识别
阅读量:4078 次
发布时间:2019-05-25

本文共 3343 字,大约阅读时间需要 11 分钟。

最近用Httpclient对网页进行采集,因为采集的网页编码不确定,主要是中文的网址,而httpclient对编码的识别也是靠response的head来识别的,但是有的服务器根本不返回这个头,httpclient默认就采用了ISO-8859-1的编码。上网搜索了下,有人写出了浏览器对页面编码的自动识别原理,还是个北京人呢。我找到了他的java实现算法,为了保证写好的代码不会被重新大修改,我就extends了httpclient中的GetMethod(因为我在用这个类)对里面的编码识别进行了修改,完整的算法如下(使用了chardet.jar这个类库):

这个代码是对chardet.jar的使用,这个算法来自网上:

 

 

下面是对GetMethod的扩充

 

 

 

 

 

转载地址:http://ivini.baihongyu.com/

你可能感兴趣的文章
APM官方教程的视频的作者用的固件版本是3.6.9稳定版,苍穹四轴/阿木他们那个APM树莓派T265用的3.6.11版本的固件
查看>>
APM官方固件下载
查看>>
树莓派+英特尔神经网络计算棒
查看>>
我已经多次看到猛禽360机架了
查看>>
T265在无人机上的固定
查看>>
我可以路由器也绑在无人机上面,然后树莓派直接网线插路由器,这样树莓派就自动连路由器并分配地址了
查看>>
关于EKF2和EKF3
查看>>
APM中一些设置的参数修改后怎么改回来,有没有上面一键全部改为默认值这种选项?重刷固件后这些参数会不会变?
查看>>
这里有比较系统全面的树莓派教程
查看>>
由于发现树莓派官方提供的系统镜像默认是关闭SSH服务的,所以我还是得先买个屏幕
查看>>
树莓派上装realsense/T265的各种教程集合
查看>>
ubuntu mate 18.04官网下载,烧录及安装 SSH VNC ROS MAVROS librealsense realsense-ros vision_to_mavros(我自己亲自弄的)
查看>>
实际树莓派拿到手后感觉比想象中的漂亮,要结实,要沉,说实话还挺喜欢的
查看>>
原来ubuntu meta 18.04不是respbian,所以树莓派T265的安装教程参考时注意了
查看>>
来解决一下putty 树莓派 remote side unexpectedly closed network connection
查看>>
[树莓派]Ubuntu MATE 18.04安装ROS环境
查看>>
回首我玩过DE1-SOC(2015) NUC(2017) 树莓派(2020)
查看>>
LeetCode 刷题之路(python版)
查看>>
我的T265 win10上手操作
查看>>
我解决VNC连不上,已经连上但灰屏,以及VNC的一些常用命令使用(ubuntu meta 18.04,树莓派3b+)
查看>>