सर्च इंजन को कैसे ब्लॉक करें (चित्रों के साथ)

2024 लेखक: Gilbert Ryder | [email protected]. अंतिम बार संशोधित: 2024-01-07 16:47

सर्च इंजन रोबोट से लैस होते हैं, जिन्हें स्पाइडर या बॉट भी कहा जाता है, जो वेबपेजों को क्रॉल और इंडेक्स करते हैं। यदि आपकी साइट या पृष्ठ का विकास हो रहा है या उसमें संवेदनशील सामग्री है, तो हो सकता है कि आप बॉट्स को अपनी साइट को क्रॉल और अनुक्रमित करने से रोकना चाहें। जानें कि कैसे पूरी वेबसाइट, पेज और robots.txt फाइलों के लिंक्स को ब्लॉक करें और विशिष्ट पेजों और लिंक्स को html टैग्स से ब्लॉक करें। विशिष्ट बॉट्स को अपनी सामग्री तक पहुँचने से रोकने का तरीका जानने के लिए आगे पढ़ें।

कदम

विधि 1 में से 2: robots.txt फ़ाइलों के साथ खोज इंजन को अवरुद्ध करना

चरण 1. robots.txt फ़ाइलों को समझें।

robots.txt फ़ाइल एक सादा या ASCII टेक्स्ट फ़ाइल है जो सर्च इंजन स्पाइडर को सूचित करती है कि उन्हें आपकी साइट पर क्या एक्सेस करने की अनुमति है। robots.txt फ़ाइल में सूचीबद्ध फ़ाइलों और फ़ोल्डरों को खोज इंजन स्पाइडर द्वारा क्रॉल और अनुक्रमित नहीं किया जा सकता है। आपको robots.txt फ़ाइल की आवश्यकता हो सकती है यदि:

आप सर्च इंजन स्पाइडर से विशिष्ट सामग्री को ब्लॉक करना चाहते हैं।
आप एक लाइव साइट विकसित कर रहे हैं और खोज इंजन स्पाइडर साइट को क्रॉल और अनुक्रमित करने के लिए तैयार नहीं हैं
आप प्रतिष्ठित बॉट्स तक पहुंच सीमित करना चाहते हैं।

चरण 2. बनाएं और सहेजें और robots.txt फ़ाइल।

फ़ाइल बनाने के लिए, एक सादा पाठ संपादक या कोड संपादक लॉन्च करें। फ़ाइल को इस रूप में सहेजें: robots.txt. फ़ाइल का नाम सभी लोअरकेस होना चाहिए।

"एस" मत भूलना।
जब आप फ़ाइल को सहेजते हैं, तो एक्सटेंशन "'.txt"' चुनें। यदि आप Word का उपयोग कर रहे हैं, तो "सादा पाठ" विकल्प चुनें।

चरण 3. एक पूर्ण-अस्वीकृत robots.txt फ़ाइल लिखें।

प्रत्येक प्रतिष्ठित खोज इंजन स्पाइडर को आपकी साइट को "पूर्ण-अस्वीकार" robots.txt के साथ क्रॉल और अनुक्रमित करने से रोकना संभव है। अपनी टेक्स्ट फ़ाइल में निम्नलिखित पंक्तियाँ लिखें:

उपयोगकर्ता-एजेंट: * अस्वीकृत करें: /

"पूर्ण-अस्वीकार" वाली robots.txt फ़ाइल का उपयोग करने की दृढ़ता से अनुशंसा नहीं की जाती है। जब कोई बॉट, जैसे बिंगबोट, इस फ़ाइल को पढ़ता है, तो यह आपकी साइट को अनुक्रमित नहीं करेगा और खोज इंजन आपकी वेबसाइट को प्रदर्शित नहीं करेगा।
उपयोगकर्ता-एजेंट: यह सर्च इंजन स्पाइडर, या रोबोट के लिए एक और शब्द है
*: तारक यह दर्शाता है कि कोड सभी उपयोगकर्ता-एजेंटों पर लागू होता है
अस्वीकार करें: /: फॉरवर्ड स्लैश इंगित करता है कि पूरी साइट बॉट्स के लिए ऑफ-लिमिट है

चरण 4. एक सशर्त-अनुमति वाली robots.txt फ़ाइल लिखें।

सभी बॉट्स को ब्लॉक करने के बजाय, अपनी साइट के कुछ क्षेत्रों से विशिष्ट स्पाइडर को ब्लॉक करने पर विचार करें। सामान्य सशर्त-अनुमति आदेशों में शामिल हैं:

किसी विशिष्ट बॉट को ब्लॉक करें: के आगे तारांकन बदलें उपयोगकर्ता एजेंट साथ गूगलबॉट, Googlebot- समाचार, googlebot-छवि, बिंगबोट, या तेओमा.

एक निर्देशिका और उसकी सामग्री को ब्लॉक करें:

उपयोगकर्ता-एजेंट: * अस्वीकृत करें: /नमूना-निर्देशिका/

वेबपेज को ब्लॉक करें:

उपयोगकर्ता-एजेंट: * अस्वीकृत करें: /private_file.html

इमेज को ब्लॉक करें:

उपयोगकर्ता-एजेंट: googlebot-image अनुमति न दें: /images_myPicture.jpg

सभी छवियों को ब्लॉक करें:

उपयोगकर्ता-एजेंट: googlebot-छवि अनुमति न दें: /

किसी विशिष्ट फ़ाइल स्वरूप को अवरोधित करें:
```
उपयोगकर्ता-एजेंट: * अस्वीकृत करें: /p*.gif$
```

चरण 5. बॉट्स को अपनी साइट को अनुक्रमित करने और क्रॉल करने के लिए प्रोत्साहित करें।

बहुत से लोग खोज इंजन मकड़ियों को ब्लॉक करने के बजाय स्वागत करना चाहते हैं क्योंकि वे चाहते हैं कि उनकी पूरी साइट अनुक्रमित हो। इसे पूरा करने के लिए, आपके पास तीन विकल्प हैं। सबसे पहले, आप robots.txt फ़ाइल बनाने से ऑप्ट आउट कर सकते हैं-जब रोबोट को robots.txt फ़ाइल नहीं मिलती है, तो यह आपकी पूरी साइट को क्रॉल और अनुक्रमित करना जारी रखेगा। दूसरा, आप एक खाली robots.txt फ़ाइल बना सकते हैं-रोबोट robots.txt फ़ाइल ढूंढेगा, पहचानेगा कि यह खाली है, और आपकी साइट को क्रॉल और अनुक्रमित करना जारी रखेगा। अंत में, आप एक पूर्ण-अनुमति वाली robots.txt फ़ाइल लिख सकते हैं। कोड का प्रयोग करें:

उपयोगकर्ता-एजेंट: * अस्वीकृत करें:

जब कोई बॉट, जैसे कि googlebot, इस फ़ाइल को पढ़ता है, तो वह आपकी पूरी साइट पर जाने के लिए स्वतंत्र महसूस करेगा।
उपयोगकर्ता-एजेंट: यह सर्च इंजन स्पाइडर, या रोबोट के लिए एक और शब्द है
*: तारक यह दर्शाता है कि कोड सभी उपयोगकर्ता-एजेंटों पर लागू होता है
अनुमति न दें: रिक्त अस्वीकरण आदेश इंगित करता है कि सभी फ़ाइलें और फ़ोल्डर्स पहुँच योग्य हैं

चरण 6. txt फ़ाइल को अपने डोमेन के रूट में सेव करें।

आपके द्वारा robots.txt फ़ाइल लिखने के बाद, परिवर्तनों को सहेजें। फ़ाइल को अपनी साइट की मूल निर्देशिका में अपलोड करें। उदाहरण के लिए, यदि आपका डोमेन है www.yourdomain.com, robots.txt फ़ाइल को यहां रखें www.yourdomain.com/robots.txt.

विधि २ का २: मेटा टैग के साथ खोज इंजन को अवरुद्ध करना

चरण 1. HTML रोबोट मेटा टैग को समझें।

रोबोट मेटा टैग प्रोग्रामर्स को बॉट्स या सर्च इंजन स्पाइडर के लिए पैरामीटर सेट करने की अनुमति देता है। इन टैग का उपयोग बॉट्स को पूरी साइट या साइट के कुछ हिस्सों को अनुक्रमित करने और क्रॉल करने से रोकने के लिए किया जाता है। आप इन टैगों का उपयोग किसी विशिष्ट खोज इंजन स्पाइडर को अपनी सामग्री को अनुक्रमित करने से रोकने के लिए भी कर सकते हैं। ये टैग आपकी HTML फ़ाइल के शीर्ष में दिखाई देते हैं।

इस पद्धति का उपयोग आमतौर पर प्रोग्रामर द्वारा किया जाता है जिनके पास वेबसाइट की रूट निर्देशिका तक पहुंच नहीं होती है।

चरण 2. एक ही पेज से बॉट्स को ब्लॉक करें।

सभी बॉट्स को किसी पृष्ठ को अनुक्रमित करने और या किसी पृष्ठ के लिंक का अनुसरण करने से रोकना संभव है। यह टैग आमतौर पर तब उपयोग किया जाता है जब कोई लाइव साइट विकास के अधीन होती है। साइट के पूर्ण हो जाने पर, यह दृढ़ता से अनुशंसा की जाती है कि आप इस टैग को हटा दें। यदि आप टैग नहीं हटाते हैं, तो आपका पृष्ठ अनुक्रमित नहीं होगा या खोज इंजन के माध्यम से खोजने योग्य नहीं होगा।

आप बॉट्स को पेज को इंडेक्स करने और किसी भी लिंक को फॉलो करने से ब्लॉक कर सकते हैं:
आप सभी बॉट्स को पेज को इंडेक्स करने से रोक सकते हैं:
आप सभी बॉट्स को पेज के लिंक का अनुसरण करने से रोक सकते हैं:

चरण 3. बॉट्स को किसी पृष्ठ को अनुक्रमित करने दें, लेकिन उसके लिंक का अनुसरण न करें।

यदि आप बॉट्स को पृष्ठ को अनुक्रमित करने की अनुमति देते हैं, तो पृष्ठ अनुक्रमित हो जाएगा; यदि आप मकड़ियों को लिंक का अनुसरण करने से रोकते हैं, तो इस विशिष्ट पृष्ठ से अन्य पृष्ठों का लिंक पथ टूट जाएगा। अपने हेडर में कोड की निम्न पंक्ति डालें:

चरण 4। खोज इंजन मकड़ियों को लिंक का अनुसरण करने दें, लेकिन पृष्ठ को अनुक्रमित नहीं करने दें।

यदि आप बॉट्स को लिंक का अनुसरण करने की अनुमति देते हैं तो इस विशिष्ट पृष्ठ से अन्य पृष्ठों तक लिंक पथ यथावत रहेगा; यदि आप उन्हें पृष्ठ को अनुक्रमित करने से प्रतिबंधित करते हैं, तो आपका वेब पृष्ठ अनुक्रमणिका में प्रकट नहीं होगा। अपने हेडर में कोड की निम्न पंक्ति डालें:

चरण 5. एकल आउटगोइंग लिंक को ब्लॉक करें।

किसी पृष्ठ पर एकल लिंक छिपाने के लिए, एम्बेड करें a रेले लिंक टैग के भीतर टैग। हो सकता है कि आप इस टैग का उपयोग उन अन्य पृष्ठों के लिंक को अवरुद्ध करने के लिए करना चाहें जो उस विशिष्ट पृष्ठ पर ले जाते हैं जिसे आप अवरुद्ध करना चाहते हैं।

ब्लॉक किए गए पेज का लिंक डालें

चरण 6. एक विशिष्ट खोज इंजन मकड़ी को अवरुद्ध करें।

अपने वेब पेज से सभी बॉट्स को ब्लॉक करने के बजाय, आप एक बॉट को पेज को क्रॉल और इंडेक्स करने से रोक सकते हैं। इसे पूरा करने के लिए, मेटा टैग के भीतर 'रोबोट'' को एक विशिष्ट बॉट के नाम से बदलें। उदाहरणों में शामिल: गूगलबॉट, Googlebot- समाचार, googlebot-छवि, बिंगबोट, तथा तेओमा.

चरण 7. बॉट्स को अपने पेज को क्रॉल और इंडेक्स करने के लिए प्रोत्साहित करें।

यदि आप यह सुनिश्चित करना चाहते हैं कि आपके पृष्ठ को अनुक्रमित किया जाएगा और उसके लिंक का अनुसरण किया जाएगा, तो आप एक अनुवर्ती-अनुमति सम्मिलित कर सकते हैं मेटा "रोबोट" अपने हेडर में टैग करें। निम्नलिखित कोड का प्रयोग करें: