{"id":13090,"date":"2009-11-09T14:18:08","date_gmt":"2009-11-09T12:18:08","guid":{"rendered":"http:\/\/www.ojobuscador.com\/?p=13090"},"modified":"2009-11-09T14:18:08","modified_gmt":"2009-11-09T12:18:08","slug":"robots-txt-codificacion-e-idiomas","status":"publish","type":"post","link":"https:\/\/www.ojo.es\/ojobuscador\/robots-txt-codificacion-e-idiomas\/","title":{"rendered":"robots.txt: codificaci\u00f3n e idiomas"},"content":{"rendered":"<p>Interesante art\u00edculo sobre la <a href=\"https:\/\/blogs.bing.com\/webmaster\/2009\/11\/05\/robots-speaking-many-languages\">codificaci\u00f3n y uso del fichero<\/a> robots.txt, sobretodo ahora que se est\u00e1 preparando el lanzamiento de muchos IDN en dominios internacionales.<\/p>\n<p><strong>Codificaci\u00f3n del robots.txt (codificaci\u00f3n del fichero)<\/strong><\/p>\n<p>En la actualidad el fichero robots.txt da soporte a las siguientes codificaciones:<\/p>\n<ul>\n<li>ANSI (Windows-1252)<\/li>\n<li>Unicode<\/li>\n<li>UTF-8<\/li>\n<\/ul>\n<p><strong>Codificaci\u00f3n del robots.txt (codificaci\u00f3n del contenido)<\/strong><\/p>\n<p>En la actualidad el fichero robots.txt da soporte a las siguientes codificaciones:<\/p>\n<ul>\n<li>ANSI (Windows-1252): 8 bits<\/li>\n<li>ASCII: 7 bits<\/li>\n<li>ISO-8859-1: 8 bits<\/li>\n<li>UTF-8: 8 bits<\/li>\n<\/ul>\n<p>Teniendo en cuenta esto y que la especificaci\u00f3n de Internet dice que las direcciones URL han de estar en US-ASCII, tenemos un problema con elementos latinos como la <strong>\u00f1<\/strong> o <strong>\u00c3\u00a7<\/strong> que se salen de la especificaci\u00f3n, y ya no hablemos de los no-latinos, como <strong>\u00cf\u20ac<\/strong> o <strong>\u00d1\u008f<\/strong>.<\/p>\n<p><strong>\u00c2\u00bfQu\u00e9 hacer en estos casos?<\/strong><\/p>\n<p>Si tu direcci\u00f3n URL dispone de alguno de estos caracteres que se salen de los 128 del US-ASCII, no se pueden utilizar directamente, sino que hay que pasarse a la \u00ab<a href=\"https:\/\/en.wikipedia.org\/wiki\/Percent-encoding\">Codificaci\u00f3n Porcentual<\/a>\u00ab. Este sistema  convierte cada uno de los caracteres en un hexadecimal, de forma que el crecimiento es mayor.<\/p>\n<p>De esta forma, tendr\u00edamos que:<\/p>\n<p><code>http:\/\/www.domain.com\/\u00d0\u00bf\u00d0\u00b0\u00d0\u00bf\u00d0\u00ba\u00d0\u00b0\/<\/code><\/p>\n<p>deber\u00eda usar un robots.txt con el siguiente texto:<\/p>\n<p><code>Disallow: \/%D0%BF%D0%B0%D0%BF%D0%BA%D0%B0\/<\/code><\/p>\n<p>y <strong>no<\/strong> el siguiente<\/p>\n<p><code>Disallow: \/\u00d0\u00bf\u00d0\u00b0\u00d0\u00bf\u00d0\u00ba\u00d0\u00b0\/<\/code><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Interesante art\u00edculo sobre la codificaci\u00f3n y uso del fichero robots.txt, sobretodo ahora que se est\u00e1 preparando el lanzamiento de muchos IDN en dominios internacionales. Codificaci\u00f3n del robots.txt (codificaci\u00f3n del fichero) En la actualidad el fichero robots.txt da soporte a las siguientes codificaciones: ANSI (Windows-1252) Unicode UTF-8 Codificaci\u00f3n del robots.txt (codificaci\u00f3n del contenido) En la actualidad &#8230; <a title=\"robots.txt: codificaci\u00f3n e idiomas\" class=\"read-more\" href=\"https:\/\/www.ojo.es\/ojobuscador\/robots-txt-codificacion-e-idiomas\/\" aria-label=\"Leer m\u00e1s sobre robots.txt: codificaci\u00f3n e idiomas\">Leer m\u00e1s<\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-13090","post","type-post","status-publish","format-standard","hentry","category-noticias"],"_links":{"self":[{"href":"https:\/\/www.ojo.es\/ojobuscador\/wp-json\/wp\/v2\/posts\/13090","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.ojo.es\/ojobuscador\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.ojo.es\/ojobuscador\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.ojo.es\/ojobuscador\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.ojo.es\/ojobuscador\/wp-json\/wp\/v2\/comments?post=13090"}],"version-history":[{"count":0,"href":"https:\/\/www.ojo.es\/ojobuscador\/wp-json\/wp\/v2\/posts\/13090\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.ojo.es\/ojobuscador\/wp-json\/wp\/v2\/media?parent=13090"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.ojo.es\/ojobuscador\/wp-json\/wp\/v2\/categories?post=13090"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.ojo.es\/ojobuscador\/wp-json\/wp\/v2\/tags?post=13090"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}