Semalt: PHP वेब पृष्ठ स्क्र्यापिंगका 3 चरणहरू

वेब स्क्र्यापि,, जसलाई वेब डेटा निकासी वा वेब कटाई पनि भनिन्छ, वेबसाइट वा ब्लगबाट डाटा निकाल्ने प्रक्रिया हो। यस जानकारी पछि मेटा ट्याग, मेटा वर्णन, कुञ्जीशब्दहरू र साइटमा लिंकहरू सेट गर्न प्रयोग गरिन्छ, सर्च इन्जिन नतीजाहरूमा यसको समग्र प्रदर्शन सुधार गर्न।

डेटा स्क्र्याप गर्न दुई मुख्य प्रविधिहरू प्रयोग गरिन्छ:

  • कागजात पार्सि - - यसमा XML वा HTML कागजात समावेश छ जुन DOM (कागजात वस्तु मोडेल) फाइलहरूमा रूपान्तरण गरिएको छ। PHP ले हामीलाई महान DOM विस्तार प्रदान गर्दछ।
  • नियमित अभिव्यक्ति - यो नियमित अभिव्यक्तिको रूपमा वेब कागजातहरूबाट डाटा स्क्र्याप गर्ने एक तरीका हो।

तेस्रो पक्ष वेबसाइटको स्क्र्यापि data डाटाको साथमा मुद्दा यसको प्रतिलिपि अधिकारसँग सम्बन्धित छ किनकि तपाईंसँग यो डाटा प्रयोग गर्न अनुमति छैन। तर PHP को साथ, तपाईं सजिलैसँग डाटा प्रतिलिपि अधिकार वा कम गुणवत्ताको साथ जडान बिना डाटा स्क्र्याप गर्न सक्नुहुनेछ। एक PHP प्रोग्रामर को रूप मा, तपाईलाई कोडिंग उद्देश्यका लागि विभिन्न वेबसाइटहरुबाट डेटा आवश्यक पर्दछ। यहाँ हामीले विस्तृत रूपमा अन्य साइटहरूबाट कसरी डाटा प्राप्त गर्ने भनेर वर्णन गरेका छौं, तर त्योभन्दा अघि तपाईंले यो कुरा मनमा राख्नुपर्दछ कि अन्तमा तपाईंले या त index.php वा scrape.js फाईलहरू प्राप्त गर्नुहुनेछ।

चरण १: वेबसाइट यूआरएल प्रविष्ट गर्न फारम सिर्जना गर्नुहोस्:

सब भन्दा पहिले तपाईले अनुक्रमणिका.फैपमा फारम सिर्जना गर्नु पर्छ सबमिट बटनमा क्लिक गरेर र डाटा स्क्र्याप गर्नको लागि वेबसाइट यूआरएल प्रविष्ट गर्नुहोस्।

<फारम विधि = "पोष्ट" नाम = "स्क्र्याप_फार्म" आईडी = "स्क्र्याप_फार्म" acti>

डाटा स्क्र्याप गर्न वेबसाइट यूआरएल प्रविष्ट गर्नुहोस्

<इनपुट प्रकार = "इनपुट" नाम = "वेबसाइट_उर्ल" आईडी = "वेबसाइट_उर्ल">

<इनपुट प्रकार = "बुझाउनुहोस्" नाम = "बुझाउनुहोस्" मान = "बुझाउनुहोस्">

</for>

चरण २: वेबसाइट डाटा प्राप्त गर्न PHP प्रकार्य सिर्जना गर्नुहोस्:

दोस्रो चरण भनेको scrape.php फाईलमा PHP प्रकार्य स्क्र्यापहरू सिर्जना गर्नु हो किनकि यसले डेटा प्राप्त गर्न र यूआरएल लाइब्रेरी प्रयोग गर्न मद्दत गर्दछ। यसले तपाईंलाई कुनै समस्या बिना नै बिभिन्न सर्भरहरू र प्रोटोकलहरूसँग कनेक्ट हुन र संवाद गर्न अनुमति दिनेछ।

प्रकार्य scrapeSiteData ($ वेबसाइट_url) {

यदि (! function_exists ('curl_init')) {

die ('cURL स्थापित छैन। कृपया स्थापना गर्नुहोस् र पुन: प्रयास गर्नुहोस्।');

}

$ कर्ल = curl_init ();

curl_setopt ($ कर्ल, CURLOPT_URL, $ वेबसाइट_url);

curl_setopt ($ कर्ल, CURLOPT_REmittedTRANSFER, सही);

$ आउटपुट = curl_exec (l कर्ल);

curl_close ($ curl);

फिर्ता $ आउटपुट;

}

यहाँ हामी देख्न सक्छौं कि PHP cURL राम्रोसँग स्थापना भएको छ वा छैन। तीन मुख्य सीआरएलहरू प्रकार्य क्षेत्रमा प्रयोग गर्नुपर्नेछ र curl_init () सत्र सुरू गर्न मद्दत गर्दछ, curl_exec () यसलाई कार्यान्वयन गर्दछ र curl_close () जडान बन्द गर्न मद्दत गर्दछ। CURLOPT_URL जस्ता चरहरू वेबसाइट URL हरू सेट गर्न प्रयोग गरिन्छ जुन हामीलाई स्क्र्याप गर्न आवश्यक पर्दछ। दोस्रो CURLOPT_REmittedTRANSFER ले स्क्र्याप गरिएको पृष्ठहरू यसको पूर्वनिर्धारित फारमको सट्टा भेरिएबल फाराममा मद्दत गर्दछ, जसले अन्तत: सम्पूर्ण वेब पृष्ठ प्रदर्शन गर्दछ।

चरण 3: वेबसाइटबाट विशेष डाटा स्क्र्याप गर्नुहोस्:

यो समय हो तपाईंको PHP फाईलको कार्यक्षमताहरू नियन्त्रण गर्न र तपाईंको वेब पृष्ठको विशिष्ट सेक्सन खोप्न। यदि तपाईं एक विशिष्ट यूआरएलबाट सबै डाटा चाहनुहुन्न भने, तपाईं CURLOPT_REmittedTRANSFER भेरियबल्स प्रयोग सम्पादन गर्नुपर्नेछ र तपाईंले स्क्र्याप गर्न चाहानु हुने सेक्सनहरू हाइलाइट गर्नुहोस्।

यदि (isset ($ _ POST ['बुझाउनुहोस्'])) {

t html = scrapeWebsiteData ($ _ POST ['वेबसाइट_url']);

$ start_Point = strpos (t html, 'भर्खरका पोष्टहरू');

$ end_Point = strpos ($ html, '', $ start_Point);

$ लम्बाई = $ end_Point- $ start_Point;

$ html = substr ($ html, $ start_Point, $ लम्बाई);

इको $ html;

}

हामी तपाईंलाई यी मध्ये कुनै एक कोड प्रयोग गर्नु अघि वा व्यक्तिगत उद्देश्यको लागि विशेष ब्लग वा वेबसाइट स्क्र्याप गर्नु अघि PHP र नियमित अभिव्यक्तिको आधारभूत ज्ञानको विकास गर्न सुझाव दिन्छौं।