कैसे एक वेब क्रॉलर डिजाइन करने के लिए
📚 शिक्षण

कैसे एक वेब क्रॉलर डिजाइन करने के लिए

5 min read 928 words
5 min read
ShareWhatsAppPost on X
  • 1Designing a web crawler begins with outlining use cases and constraints to clarify requirements and assumptions.
  • 2The crawler must handle high availability, process a billion links, and ensure fast search result generation without infinite loops.
  • 3Core components of the crawler include managing links to crawl and using a NoSQL database for storing processed links and their signatures.

AI-generated summary · May not capture all nuances

Key Insight
AskGif

"Designing a web crawler begins with outlining use cases and constraints to clarify requirements and assumptions."

कैसे एक वेब क्रॉलर डिजाइन करने के लिए

चरण 1: मामलों और बाधाओं का उपयोग करें आवश्यकताओं को इकट्ठा करें और समस्या को हल करें। उपयोग के मामलों और बाधाओं को स्पष्ट करने के लिए प्रश्न पूछें। मान्यताओं पर चर्चा करें।

साक्षात्कारकर्ता के बिना स्पष्ट प्रश्नों को संबोधित करने के लिए, हम कुछ उपयोग मामलों और बाधाओं को परिभाषित करेंगे।

बक्सों का इस्तेमाल करें हम केवल निम्नलिखित उपयोग के मामलों को संभालने के लिए समस्या को हल करेंगे सेवा यूआरएल की सूची को क्रॉल करती है: खोज शब्दों वाले पृष्ठों के लिए शब्दों का रिवर्स इंडेक्स बनाता है पृष्ठों के लिए शीर्षक और स्निपेट्स बनाता है शीर्षक और स्निपेट स्थिर हैं, वे खोज क्वेरी के आधार पर नहीं बदलते हैं उपयोगकर्ता इनपुट खोज शब्द और संबंधित पेजों की सूची देखता है, जिसमें क्रॉलर उत्पन्न होते हैं इस उपयोग के मामले के लिए केवल उच्च स्तरीय घटकों और इंटरैक्शन को स्केच करें, गहराई में जाने की आवश्यकता नहीं है सेवा की उच्च उपलब्धता है दायरे से बाहर एनालिटिक्स खोजें वैयक्तिकृत खोज परिणाम पृष्ठ स्तर अड़चनें और धारणाएँ राज्य की धारणाएँ यातायात समान रूप से वितरित नहीं किया जाता है कुछ खोज बहुत लोकप्रिय हैं, जबकि अन्य केवल एक बार निष्पादित होती हैं केवल अनाम उपयोगकर्ताओं का समर्थन करें खोज परिणाम उत्पन्न करना तेज होना चाहिए वेब क्रॉलर को अनंत लूप में नहीं फंसना चाहिए हम एक अनंत लूप में फंस जाते हैं यदि ग्राफ़ में एक चक्र होता है क्रॉल करने के लिए 1 बिलियन लिंक ताजगी सुनिश्चित करने के लिए पृष्ठों को नियमित रूप से क्रॉल करने की आवश्यकता है सप्ताह में लगभग एक बार की औसत ताज़ा दर, लोकप्रिय साइटों के लिए अधिक लगातार हर महीने 4 बिलियन लिंक क्रॉल किया गया वेब पेज प्रति औसत संग्रहीत आकार: 500 KB सरलता के लिए, गिनती नए पृष्ठों के समान ही बदलती है प्रति माह 100 बिलियन की खोज अधिक पारंपरिक प्रणालियों के उपयोग का अभ्यास करें - मौजूदा सिस्टम जैसे कि सॉल या नच का उपयोग न करें।

उपयोग की गणना करें अपने साक्षात्कारकर्ता के साथ स्पष्ट करें कि क्या आपको बैक-ऑफ-द-लिफाफा उपयोग गणनाओं को चलाना चाहिए।

प्रति माह संग्रहित पृष्ठ सामग्री के 2 पीबी 500 KB प्रति पृष्ठ * 4 बिलियन लिंक प्रति माह क्रॉल किया गया 3 वर्षों में संग्रहित पृष्ठ सामग्री के 72 पीबी 1,600 प्रति सेकंड अनुरोध लिखें प्रति सेकंड 40,000 खोज अनुरोध आसान रूपांतरण गाइड:

2.5 मिलियन सेकंड प्रति माह 1 प्रति सेकंड अनुरोध = प्रति माह 2.5 मिलियन अनुरोध 40 प्रति सेकंड अनुरोध = प्रति माह 100 मिलियन अनुरोध प्रति माह 400 अनुरोध = प्रति माह 1 बिलियन अनुरोध चरण 2: एक उच्च स्तरीय डिज़ाइन बनाएं सभी महत्वपूर्ण घटकों के साथ एक उच्च स्तरीय डिजाइन की रूपरेखा।

Imgur

चरण 3: डिजाइन कोर घटक प्रत्येक मुख्य घटक के लिए विवरण में गोता लगाएँ।

मामले का उपयोग करें: सेवा यूआरएल की सूची को क्रॉल करती है हम मान लेंगे कि हमारे पास प्रारंभिक साइट लोकप्रियता के आधार पर शुरू में रैंक किए गए links_to_crawl की प्रारंभिक सूची है। यदि यह एक उचित धारणा नहीं है, तो हम क्रॉलर को लोकप्रिय साइटों से जोड़ सकते हैं, जो बाहरी सामग्री जैसे याहू, डीएमओजेड, आदि से लिंक करते हैं।

हम संसाधित लिंक और उनके पृष्ठ हस्ताक्षरों को संग्रहीत करने के लिए एक टेबल क्रॉल किए गए_लिंक का उपयोग करेंगे।

हम एक महत्वपूर्ण मान NoSQL डेटाबेस में links_to_crawl और crawled_links स्टोर कर सकते हैं। Links_to_crawl में रैंक किए गए लिंक के लिए, हम पृष्ठ लिंक की रैंकिंग बनाए रखने के लिए सॉर्ट किए गए सेट के साथ Redis का उपयोग कर सकते हैं। हमें SQL या NoSQL को चुनने के बीच उपयोग के मामलों और ट्रेडऑफ पर चर्चा करनी चाहिए।

क्रॉलर सेवा प्रत्येक पृष्ठ लिंक को एक लूप में निम्न करके संसाधित करती है: क्रॉल करने के लिए शीर्ष रैंक पेज लिंक लेता है समान पृष्ठ हस्ताक्षर के साथ प्रविष्टि के लिए NoSQL डेटाबेस में क्रॉल किए गए_लिंक चेक करता है यदि हमारे पास एक समान पृष्ठ है, तो पृष्ठ लिंक की प्राथमिकता कम कर देता है यह हमें एक चक्र में जाने से रोकता है जारी रखें एल्स, लिंक को क्रॉल करता है रिवर्स इंडेक्स बनाने के लिए रिवर्स इंडेक्स सर्विस कतार में नौकरी जोड़ता है एक स्थिर शीर्षक और स्निपेट बनाने के लिए दस्तावेज़ सेवा कतार में नौकरी जोड़ता है पेज हस्ताक्षर बनाता है NoSQL डेटाबेस में links_to_crawl से लिंक हटाता है पृष्ठ लिंक और हस्ताक्षर को NoSQL डेटाबेस में crawled_links में सम्मिलित करता है अपने साक्षात्कारकर्ता के साथ स्पष्ट करें कि आपको कितने कोड लिखने की उम्मीद है।

PagesDataStore क्रॉलर सेवा के भीतर एक अमूर्त है जो NoSQL डेटाबेस का उपयोग करता है:

क्लास पेजडैस्टस्टोर (ऑब्जेक्ट):

def __init __ (स्व, डीबी); self.db = db ...

def add_link_to_crawl (स्वयं, url): "" "दिए गए लिंक को` links_to_crawl` "से जोड़ें।" " ...

def_link_to_crawl (स्वयं, url) को हटाएं: "" "दिए गए लिंक को` links_to_crawl` से हटा दें। "" ...

डीईएफ़_पायरिटी_लिंक_टो_क्रॉल (स्वयं, यूआरएल) "" "चक्र से बचने के लिए` links_to_crawl` में एक लिंक की प्राथमिकता को कम करें। "" " ...

def_max_priority_page (स्वयं): "" "Links_to_crawl`" में सर्वोच्च प्राथमिकता वाला लिंक लौटाएँ। "" ...

डीएनएस_क्रॉल्ड_लिंक (स्वयं, यूआरएल, हस्ताक्षर) को परिभाषित करें: "" "दिए गए लिंक को 'क्रॉल किए गए_लिंक्स' में जोड़ें।" " ...

डीएल क्रॉल_स्मिलर (स्व, हस्ताक्षर): "" निर्धारित करें कि क्या हमने पहले ही दिए गए हस्ताक्षर से मेल खाते पृष्ठ को क्रॉल किया है "" ... पृष्ठ क्रॉलर सेवा के भीतर एक अमूर्तता है जो एक पृष्ठ, इसकी सामग्री, बच्चे के यूआरएल, और हस्ताक्षर को समाप्‍त करता है:

वर्ग पृष्ठ (ऑब्जेक्ट):

def __init __ (स्वयं, url, सामग्री, child_urls, हस्ताक्षर): self.url = url self.contents = सामग्री self.child_urls = child_urls self.signature = हस्ताक्षर क्रॉलर, क्रॉलर सेवा के भीतर का मुख्य वर्ग है, जो पृष्ठ और PagesD से बना है

Enjoyed this article?

Share it with someone who'd find it useful.

ShareWhatsAppPost on X

sumitc91

Published on 20 November 2020 · 5 min read · 928 words

Part of AskGif Blog · शिक्षण

You might also like