c#使用nsoup解析html亂碼解決方法分享 nsoup教程
下載地址:http://nsoup.codeplex.com/
簡單用法如下:
NSoup.Nodes.Document doc = NSoup.NSoupClient.Parse(HtmlString);
處理網(wǎng)絡(luò)上的頁面:
NSoup.Nodes.Document doc = NSoup.NSoupClient.Connect("http://chabaoo.cn/").Get();
但是遺憾的是NSoup默認的編碼是UTF-8,處理中文有亂碼(對于編碼是UTF-8的自然不會有亂碼,但是有些GB2312的就可能有亂碼,謝謝 forhells的提醒)。
目前我找到兩種解決辦法:
1.下載網(wǎng)頁源代碼再處理
WebClient webClient = new WebClient();
String HtmlString=Encoding.GetEncoding("utf-8").GetString(webClient.DownloadData("http://chabaoo.cn"));
NSoup.Nodes.Document doc = NSoup.NSoupClient.Parse(HtmlString);
2.獲得網(wǎng)頁的流
WebRequest webRequest=WebRequest.Create("http://chabaoo.cn");
NSoup.Nodes.Document doc = NSoup.NSoupClient.Parse(webRequest.GetResponse().GetResponseStream(),"utf-8");
第二種用著比較方便,但是我覺得第一種比較合適,畢竟NSoup是個Html解析類,下載網(wǎng)頁代碼這種事情本來不應(yīng)該交給它。
- c#使用htmlagilitypack解析html格式字符串
- C#抓取網(wǎng)頁數(shù)據(jù) 解析標題描述圖片等信息 去除HTML標簽
- C#自寫的一個HTML解析類(類似XElement語法)
- C#下解析HTML的兩種方法介紹
- C# 使用 WebBrowser 實現(xiàn) HTML 轉(zhuǎn)圖片功能的示例代碼
- 利用C#代碼將html樣式文件與Word文檔互換的方法
- C#正則過濾HTML標簽并保留指定標簽的方法
- C#基于正則表達式抓取a標簽鏈接和innerhtml的方法
- 通過C#實現(xiàn)發(fā)送自定義的html格式郵件
- c# 使用HtmlAgilityPack解析Html
相關(guān)文章
關(guān)于async和await的一些誤區(qū)實例詳解
這篇文章主要介紹了關(guān)于async和await的一些誤區(qū)實例詳解,有助于更加深入的理解C#程序設(shè)計,需要的朋友可以參考下2014-08-08Unity中 ShaderGraph 實現(xiàn)旋渦傳送門效果入門級教程(推薦)
通過Twirl 旋轉(zhuǎn)節(jié)點對Gradient Noise 梯度噪聲節(jié)點進行操作,就可得到一個旋轉(zhuǎn)的旋渦效果。具體實現(xiàn)代碼跟隨小編一起通過本文學(xué)習(xí)下吧2021-07-07