File - Caracteristici și aplicații

anterior ◈ următoarea

Robots.txt - un fișier pentru a restricționa accesul la site-ul de conținut roboți motor de căutare situat la http-server. Fișierul robots.txt trebuie să fie localizat în directorul rădăcină al site-ului (de exemplu, au un nume de cale relativă a site-ului:

Dacă aveți mai multe subdomenii, fișierul robots.txt trebuie să fie localizat în directorul rădăcină al fiecărui. Acest fișier completează standardul sitemapuri. care este exact scopul opus: pentru a facilita accesul la crawler de conținut.

Fișierul robots.txt este utilizat pentru a controla indexarea parțială a site-ului de către motoarele de căutare. Acest fișier constă dintr-un set de instrucțiuni pentru roboți de căutare, cu care puteți specifica fișiere sau directoare site-ul de pagini care nu ar trebui să fie indexat. Fișierul robots.txt poate fi folosit pentru a specifica locația fișierului și poate arăta că este necesar, în primul rând, crawler la index.

În plus, dacă stocați date confidențiale sau sensibile, care nu sunt destinate pentru ochii indiscreti, tu, de asemenea, ar prefera ca motoarele de căutare nu indexeze aceste pagini. Cu toate că, în acest caz, modul corect de a salva pe date confidențiale indexare - este de a le menține într-un director local de pe computer sau de a proteja accesul cu o parolă.

Mai jos veți găsi o ilustrare schematică a modului în care site-urile arata ca un fișier robots.txt, și fără ea.

Ce takoerobots.txt?

Robots.txt - Acesta este un fișier text (nu HTML), care este plasat pe site-ul pentru roboții de căutare pe care paginile nu ar trebui să viziteze. instrucțiuni de fișier robots.txt nu sunt necesare pentru motoarele de căutare, dar, în general, motoarele de căutare sunt supuse faptul ca webmaster-ul este rugat să facă. Este important să se clarifice faptul că fișierul robots.txt nu este o modalitate de a preveni târască motorul de căutare pe site.

Faptul că ai pus un fișier robots.txt. asemănător cu cel pentru a închide o notă: „Vă rugăm să nu introduceți“ pe o ușă descuiată, de exemplu, că nu poți împiedica hoții să intre în ea, iar oamenii normali, după ce a citit nota, nu va încerca să intre este de ce a fost spus că. în cazul în care informațiile importante sunt disponibile de fapt, pe site-ul dvs., este prea naiv să se bazeze pe faptul că robots.txt proteja de indexare și de afișare în rezultatele căutării.

plasarea faylarobots.txt

Astfel, dacă nu plasați fișierul robots.txt cu instrucțiuni în locul potrivit, nu fi surprins de faptul că motoarele de căutare va indexa întregul site, inclusiv faptul că nu doriți să facă publice.

Sozdanierobots.txt

Recomandări de la Google pentru utilizarea fișierului robots.txt

Cel mai simplu fișier robots.txt utilizează două reguli.

Aceste două linii sunt considerate o singură intrare în acest fișier. Puteți include cât mai multe intrări, fiecare dintre care poate conține mai multe rânduri Disallow și User-agent.

User-agent: Googlebot
Disallow: / katalog2 /

În acest exemplu, URL-ul este interzisă numai pentru Googlebot pe șenile. incluse în / katalog2 /.

Agentii utilizator User-agent și alți roboți

User-agent - este un anumit robot al unui motor de căutare. Web-ul Roboți Baza de date cuprinde mai mulți roboți obișnuiți. Puteți seta o intrare pentru a aplica unui robot specific (prin indicarea numelui) sau puteți specifica faptul că aceasta ar trebui să se aplice tuturor roboților (prin utilizarea unui asterisc). O intrare care se aplică tuturor roboților arată astfel:

Google utilizează mai multe roboți diferiți (user-agent). Robotul este utilizat pentru a căuta pe Internet, numit Googlebot. alți roboți lor, cum ar fi Googlebot-Mobile și Googlebot-Image. urmați regulile pe care le setați pentru Googlebot. dar pentru ei, puteți specifica reguli individuale.

robot de blocare User-agent

Linia Disallow indică paginile pe care doriți să le blocați. Puteți lista o anumită adresă URL sau un model. Intrarea trebuie să înceapă cu o bară oblică (/).

Pentru a bloca întregul site, utilizați o bară oblică.

Pentru a bloca o pagină, vom afișa pagina.

Pentru a elimina o anumită imagine de la Google Images, adăugați următoarele linii:

User-agent: Googlebot-Image
Disallow: /kartinki/sobaki.jpg

Pentru a elimina toate imaginile de pe site-ul dvs. de la Google Images, adăugați următoarele linii:

User-agent: Googlebot-Image
Disallow: /

Pentru a bloca toate fișierele de un anumit tip (de exemplu, GIF), utilizați următoarele:

User-agent: Googlebot
Disallow: /*.gif$

User-agent: MediaPartners-Google
Permite: /

Amintiți-vă că comenzile sunt sensibile la litere. De exemplu,

Googlebot acceptă depunerea de fișiere Sitemap prin fișierul robots.txt.

potrivire de model

Googlebot (dar nu toate motoarele de căutare) va recunoaște unele de potrivire de model.

Pentru a indica o secvență de caractere, utilizați un asterisc (*). De exemplu, pentru a bloca accesul la toate subdirectoarele care încep cu privat. se adaugă următoarele linii:

User-agent: Googlebot
Disallow: / lichnoe * /

User-agent: Googlebot
Disallow: /*.xls$

Disallow: / *? - Blocheaza accesul la toate URL-ul cu un semn de întrebare (de exemplu, orice adresă URL care începe cu numele domeniului dvs., urmat de un șir de caractere, urmat de un semn de întrebare este găsit);
Permite :? / * $ - permite accesul la toate URL-ul, care se încheie cu un semn de întrebare (care este, la toate URL-ul, care începe cu numele domeniului dvs., urmat de un șir de caractere care se termină la, după care nu există alte caractere.).

Sfaturi practice de la GOOGLE

Utilizați metode fiabile pentru a restricționa accesul la informații confidențiale. Nu vă bazați pe robots.txt la blocarea informațiilor confidențiale sau sensibile. În primul rând, motoarele de căutare pot pune în continuare un link către blocat fără a specifica un titlu sau fragmente paginii, dacă undeva în rețeaua are legături cu materialul (de exemplu, Referrer). În al doilea rând, motoarele de căutare personalizate sau motoare de căutare care nu acceptă standardele de acces pentru roboți pot ignora instrucțiunile din robots.txt.

pentru a permite indexarea paginilor de căutare, și altele asemenea;
utilizatorii nu le place o căutare de pagini muta la alta cu puține informații utile;
pentru a permite indexarea paginilor generate de un server proxy.

Inscrie-te pentru newsletter-ul nostru si vei fi mereu la curent cu ceea ce se întâmplă.

Este ușor, comod și gratuit!