في عام 2016 ، تعاملت Google مع أكثر من 3.2 تريليون استعلام بحث ، ومع ذلك فإن النتائج التي قدمها محرك البحث لم تمثل سوى جزء بسيط من المحتوى المتاح عبر الإنترنت. لا يمكن لمحركات البحث الوصول إلى الكثير من المعلومات المتاحة عبر الإنترنت ، لذلك تحتاج إلى استخدام أدوات خاصة ، أو التحقق من مواقع الويب بنفسك للعثور على هذه الصفحات المخفية. تُعرف هذه المعلومات المخفية المعروفة باسم الويب العميق ، بما يصل إلى 5000 ضعف ما هو متاح باستخدام تقنيات البحث النموذجية.
أنواع المحتوى المخفي
تنقسم الصفحات المخفية لمواقع الويب إلى فئات تصف سبب بقائها غير مرئية لمحركات البحث.
يشكل بعضها محتوى ديناميكيًا ، يتم تقديمه فقط عندما يصدر الزائر طلبًا معينًا على موقع ويب يستخدم رمزًا يعتمد على قاعدة البيانات لتقديم النتائج المستهدفة. على سبيل المثال ، يمكن أن تتضمن هذه الصفحات نتائج التسوق بناءً على مجموعات محددة من معايير المنتج. محركات البحث ليست مصممة لتتبع وتخزين المعلومات المخزنة في قواعد البيانات هذه. للعثور على هذه الصفحات ، سيتعين عليك الانتقال إلى موقع الويب والبحث عن المعلومات المحددة التي تبحث عنها ، أو استخدام خدمة بحث موجهة نحو قواعد البيانات مثل Bright Planet.
لا تحتوي بعض الصفحات على روابط تربطها بمصادر قابلة للبحث. يمكن أن تندرج الموارد المؤقتة ، مثل الإصدارات المتعددة من مواقع الويب قيد التطوير ، ضمن هذه الفئة ، كما هو الحال مع مواقع الويب سيئة التصميم. على سبيل المثال ، إذا قام شخص ما بإنشاء صفحة ويب وحملها على خادم موقع الويب ، لكنه فشل في إضافة رابط إليها على الصفحات الحالية للموقع ، فلن يعلم أحد بوجودها ، بما في ذلك محركات البحث.
لا يزال المزيد من الصفحات تتطلب بيانات اعتماد تسجيل الدخول لعرضها أو الوصول إليها ، مثل مواقع الاشتراك. يقوم مصممو الويب بتعيين صفحات وأقسام من المواقع على أنها محظورة على محركات البحث ، مما يزيلها بشكل فعال من العثور عليها من خلال الوسائل التقليدية. للوصول إلى هذه الصفحات ، تحتاج عادةً إلى إنشاء حساب قبل أن تحصل على إذن للوصول إليها.
استخدام ملفات Robots.txt
تزحف محركات البحث عبر الصفحات الموجودة على موقع الويب وتقوم بفهرسة محتواها حتى يمكن أن تظهر ردًا على الاستفسارات. عندما تريد مالكة موقع الويب استبعاد بعض أجزاء مجالها من إجراءات الفهرسة هذه ، فإنها تضيف عناوين هذه الأدلة أو الصفحات إلى ملف نصي خاص يسمى robots.txt ، مخزّنًا في جذر موقعها. نظرًا لأن معظم مواقع الويب تتضمن ملف روبوتات بغض النظر عما إذا كانت تضيف أي استثناءات إليه ، يمكنك استخدام الاسم الذي يمكن التنبؤ به للمستند لعرض محتوياته.
إذا قمت بكتابة "[domain name] /robots.txt" بدون علامات الاقتباس في سطر الموقع بالمستعرض الخاص بك ، مع استبدال "[domain name]" بعنوان الموقع ، فغالبًا ما يظهر محتوى ملف الروبوتات في نافذة المتصفح بعد تضغط على مفتاح "Enter". تمثل الإدخالات التي تبدأ بعبارة "disallow" أو "nofollow" أجزاءً من الموقع لا يزال يتعذر الوصول إليها من خلال محرك بحث.
قرصنة مواقع الويب افعلها بنفسك
بالإضافة إلى ملفات robot.txt ، يمكنك غالبًا العثور على محتوى مخفي عن طريق كتابة عناوين الويب لصفحات ومجلدات معينة في متصفح الويب الخاص بك. على سبيل المثال ، إذا كنت تبحث في موقع ويب لأحد الفنانين ولاحظت أن كل صفحة تستخدم نفس اصطلاح التسمية - مثل gallery1.html و gallery2.html و gallery4.html - فقد تتمكن من العثور على معرض مخفي عن طريق كتابة الصفحة " gallery3.html. " في متصفح الويب الخاص بك.
وبالمثل ، إذا رأيت أن موقع الويب يستخدم مجلدات لتنظيم الصفحات - مثل example.com/content/page1.html ، مع كون "/ content" هو المجلد - فقد تتمكن من عرض المجلد نفسه عن طريق كتابة موقع الويب والمجلد ، بدون صفحة ، مثل "example.com/content/" في متصفح الويب الخاص بك. إذا لم يتم تعطيل الوصول إلى المجلد ، فقد تتمكن من التنقل عبر الصفحات التي يحتوي عليها ، وكذلك الصفحات الموجودة في أي مجلدات فرعية ، للعثور على المحتوى المخفي.