java微博爬蟲代碼爬蟲爬取微博用戶的所有微博

用java編寫網絡爬蟲，用來爬網絡音樂資源，再返回java頁面顯示該怎么實現

下面是源代碼,希望可以幫到你~~

10年積累的成都網站建設、做網站經驗，可以快速應對客戶對網站的新想法和需求。提供各種問題對應的解決方案。讓選擇我們的客戶得到更好、更有力的網絡服務。我雖然不認識你，你也不認識我。但先網站制作后付款的網站建設流程，更有老邊免費網站建設讓你可以放心的選擇與我們合作。

package com.ly.mainprocess;

import java.io.BufferedReader;

import java.io.InputStreamReader;

import java.util.ArrayList;

import java.util.List;

import org.apache.http.Consts;

import org.apache.http.Header;

import org.apache.http.HttpEntity;

import org.apache.http.HttpResponse;

import org.apache.http.NameValuePair;

import org.apache.http.StatusLine;

import org.apache.http.client.entity.UrlEncodedFormEntity;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.client.methods.HttpPost;

import org.apache.http.cookie.Cookie;

import org.apache.http.impl.client.DefaultHttpClient;

import org.apache.http.message.BasicNameValuePair;

import org.apache.http.util.EntityUtils;

public class Test1 {

public static void main(String[] args){

Test1 test1 = new Test1();

System.out.println(test1.process("******","******"));

}

@SuppressWarnings("deprecation")

public boolean process(String username,String password) {

boolean ret=false;

DefaultHttpClient httpclient = new DefaultHttpClient();

try {

HttpGet httpget;

HttpResponse response;

HttpEntity entity;

ListCookie cookies;

//組建登錄的post包

HttpPost httppost = new HttpPost(""); // 用戶登錄

ListNameValuePair nvps = new ArrayListNameValuePair();

nvps.add(new BasicNameValuePair("nickname", username));

nvps.add(new BasicNameValuePair("password", password));

nvps.add(new BasicNameValuePair("origURL", ""));

nvps.add(new BasicNameValuePair("loginregFrom", "index"));

nvps.add(new BasicNameValuePair("ss", "10101"));

httppost.setEntity(new UrlEncodedFormEntity(nvps, Consts.UTF_8));

httppost.addHeader("Referer", "");

httppost.addHeader("Connection", "keep-alive");

httppost.addHeader("Content-Type", "application/x-www-form-urlencoded");

httppost.addHeader("Accept-Language", "zh-CN,zh;q=0.8");

httppost.addHeader("Origin", "");

httppost.addHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36");

response = httpclient.execute(httppost);

entity = response.getEntity();

// System.out.println("Login form get: " + response.getStatusLine());

EntityUtils.consume(entity);

// System.out.println("Post logon cookies:");

cookies = httpclient.getCookieStore().getCookies();

if (cookies.isEmpty()) {

// System.out.println("None");

} else {

for (int i = 0; i cookies.size(); i++) {

// System.out.println("- " + cookies.get(i).toString());

}

//進行頁面跳轉

String url = ""; // 頁面跳轉

Header locationHeader = response.getFirstHeader("Location");

// System.out.println(locationHeader.getValue());

if (locationHeader != null) {

url = locationHeader.getValue(); // 得到跳轉href

HttpGet httpget1 = new HttpGet(url);

response = httpclient.execute(httpget1);

// 登陸成功。。。hoho

}

entity = response.getEntity();

// System.out.println(response.getStatusLine());

if (entity != null) {

// System.out.println("Response content length: " + entity.getContentLength());

}

// 顯示結果

BufferedReader reader = new BufferedReader(new InputStreamReader(entity.getContent(), "UTF-8"));

String line = null;

while ((line = reader.readLine()) != null) {

// System.out.println(line);

}

//自動打卡

// 訪問網站的子網頁。

HttpPost httppost1 = new HttpPost(""); // 設置個人信息頁面

httppost1.addHeader("Content-Type", "text/plain;charset=UTF-8");

httppost1.addHeader("Accept", "text/plain, */*");

httppost1.addHeader("X-Requested-With", "XMLHttpRequest");

httppost1.addHeader("Referer", "");

response = httpclient.execute(httppost1);

entity = response.getEntity();

// System.out.println(response.getStatusLine());

if(response.getStatusLine().toString().indexOf("HTTP/1.1 200 OK")=0){

ret = true;

}

if (entity != null) {

// System.out.println("Response content length: " + entity.getContentLength());

}

// 顯示結果

reader = new BufferedReader(new InputStreamReader(entity.getContent(), "UTF-8"));

line = null;

while ((line = reader.readLine()) != null) {

System.out.println(line);

}

} catch (Exception e) {

} finally {

httpclient.getConnectionManager().shutdown();

}

return ret;

}

java爬蟲抓取指定數據

根據java網絡編程相關的內容，使用jdk提供的相關類可以得到url對應網頁的html頁面代碼。

針對得到的html代碼，通過使用正則表達式即可得到我們想要的內容。

比如，我們如果想得到一個網頁上所有包括“java”關鍵字的文本內容，就可以逐行對網頁代碼進行正則表達式的匹配。最后達到去除html標簽和不相關的內容，只得到包括“java”這個關鍵字的內容的效果。

從網頁上爬取圖片的流程和爬取內容的流程基本相同，但是爬取圖片的步驟會多一步。

需要先用img標簽的正則表達式匹配獲取到img標簽，再用src屬性的正則表達式獲取這個img標簽中的src屬性的圖片url，然后再通過緩沖輸入流對象讀取到這個圖片url的圖片信息，配合文件輸出流將讀到的圖片信息寫入到本地即可。

java如何做高級爬蟲

下面說明知乎爬蟲的源碼和涉及主要技術點：

（1）程序package組織

（2）模擬登錄（爬蟲主要技術點1）

要爬去需要登錄的網站數據，模擬登錄是必要可少的一步，而且往往是難點。知乎爬蟲的模擬登錄可以做一個很好的案例。要實現一個網站的模擬登錄，需要兩大步驟是：（1）對登錄的請求過程進行分析，找到登錄的關鍵請求和步驟，分析工具可以有IE自帶(快捷鍵F12)、Fiddler、HttpWatcher；（2）編寫代碼模擬登錄的過程。

（3）網頁下載（爬蟲主要技術點2）

模擬登錄后，便可下載目標網頁html了。知乎爬蟲基于HttpClient寫了一個網絡連接線程池，并且封裝了常用的get和post兩種網頁下載的方法。

（4）自動獲取網頁編碼（爬蟲主要技術點3）

自動獲取網頁編碼是確保下載網頁html不出現亂碼的前提。知乎爬蟲中提供方法可以解決絕大部分亂碼下載網頁亂碼問題。

（5）網頁解析和提?。ㄅ老x主要技術點4）

使用Java寫爬蟲，常見的網頁解析和提取方法有兩種：利用開源Jar包Jsoup和正則。一般來說，Jsoup就可以解決問題，極少出現Jsoup不能解析和提取的情況。Jsoup強大功能，使得解析和提取異常簡單。知乎爬蟲采用的就是Jsoup。 ...展開下面說明知乎爬蟲的源碼和涉及主要技術點：

（1）程序package組織

（2）模擬登錄（爬蟲主要技術點1）

（3）網頁下載（爬蟲主要技術點2）

模擬登錄后，便可下載目標網頁html了。知乎爬蟲基于HttpClient寫了一個網絡連接線程池，并且封裝了常用的get和post兩種網頁下載的方法。

（4）自動獲取網頁編碼（爬蟲主要技術點3）

自動獲取網頁編碼是確保下載網頁html不出現亂碼的前提。知乎爬蟲中提供方法可以解決絕大部分亂碼下載網頁亂碼問題。

（5）網頁解析和提取（爬蟲主要技術點4）

使用Java寫爬蟲，常見的網頁解析和提取方法有兩種：利用開源Jar包Jsoup和正則。一般來說，Jsoup就可以解決問題，極少出現Jsoup不能解析和提取的情況。Jsoup強大功能，使得解析和提取異常簡單。知乎爬蟲采用的就是Jsoup。

（6）正則匹配與提?。ㄅ老x主要技術點5）

雖然知乎爬蟲采用Jsoup來進行網頁解析，但是仍然封裝了正則匹配與提取數據的方法，因為正則還可以做其他的事情，如在知乎爬蟲中使用正則來進行url地址的過濾和判斷。

（7）數據去重（爬蟲主要技術點6）

對于爬蟲，根據場景不同，可以有不同的去重方案。（1）少量數據，比如幾萬或者十幾萬條的情況，使用Map或Set便可；（2）中量數據，比如幾百萬或者上千萬，使用BloomFilter（著名的布隆過濾器）可以解決；（3）大量數據，上億或者幾十億，Redis可以解決。知乎爬蟲給出了BloomFilter的實現，但是采用的Redis進行去重。

（8）設計模式等Java高級編程實踐

除了以上爬蟲主要的技術點之外，知乎爬蟲的實現還涉及多種設計模式，主要有鏈模式、單例模式、組合模式等，同時還使用了Java反射。除了學習爬蟲技術，這對學習設計模式和Java反射機制也是一個不錯的案例。

4. 一些抓取結果展示收起

分享標題：java微博爬蟲代碼爬蟲爬取微博用戶的所有微博
本文鏈接：http://vcdvsql.cn/article28/dosdccp.html

成都網站建設公司_創新互聯，為您提供外貿網站建設、小程序開發、微信小程序、全網營銷推廣、外貿建站、品牌網站制作

聲明：本網站發布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創新互聯

猜你還喜歡下面的內容

bl双性强迫侵犯h_国产在线观看人成激情视频_蜜芽188_被诱拐的少孩全彩啪啪漫画

java微博爬蟲代碼 爬蟲爬取微博用戶的所有微博

用java編寫網絡爬蟲，用來爬網絡音樂資源，再返回java頁面顯示該怎么實現

java爬蟲抓取指定數據

java如何做高級爬蟲

java微博爬蟲代碼爬蟲爬取微博用戶的所有微博

用java編寫網絡爬蟲，用來爬網絡音樂資源，再返回java頁面顯示該怎么實現