使用jQuery和YQL，以Ajax方式加载外部内容

来源：未知责任编辑：智问网络发表时间:2013-11-08 08:47　点击:次

ASP PHP JSP JavaScript 网页设计 DIVCSS Ajax技术 HTML5

我们来看看怎样使用jQuery，以Ajax方式加载外部（其他域上）的内容。这里的所有代码都可以从GitHub下载，也可以在这个演示页面中获取，因而不用复制粘贴了。
OK，Ajax通过jQuery是很容易做到的，大多数解决方案就几行代码：
$(document).ready(function(){ $('.ajaxtrigger').click(function(){$('#target').load('ajaxcontent.html'); }); });
查看这个简单但有点粗陋的Ajax演示就可以看到结果。
这会将所有带ajaxtrigger类的元素转换成触发器来加载ajaxcontent.html，并在ID为target的元素中显示其内容。
这样不好，因为多数时候这意味着人们将使用<a href="#">click me</a>这种空链接，但这不是我们现在要讨论的问题。我在撰写一篇更长的文章，其中会提到增强Ajax可用性和可访问性的所有技巧。
要使其能够重用可以像下面这样：
$(document).ready(function(){ $('.ajaxtrigger').click(function(){$('#target').load($(this).attr('href')); return false; }); });
这样，你可以使用<a href="ajaxcontent.html" class="ajaxtrigger">load some content</a>来加载内容，而所有JavaScript代码都可以重用。
查看这个可重用Ajax演示就能看到结果。
我要解决的问题发生在点击演示页面中的第二个链接时：加载外部内容失败，因为Ajax不允许跨域加载内容。这意味着，<a href="http://icant.co.uk/" class="ajaxtrigger">see my portfolio</a>加载Ajax内容将失败，而且没有提示。尽管你无数遍地点击这个链接，但是什么都不会发生。避免出现这种情况的一个方法，是简单地让浏览器加载该文档，但前提是用户真的想加载外部链接。
查看这个允许加载外部链接的演示就能看到结果。
$(document).ready(function(){ $('.ajaxtrigger').click(function(){ var url =$(this).attr('href'); if(url.match('^http')){ return true; } else {$('#target').load(url); return false; } }); });
使用PHP代理
如果浏览Web，你会发现大多数的解决方案是PHP（或其他语言）代理脚本。比如，下面是使用cURL的proxy.php代理脚本：
<?php $url = $_GET['url']; $ch = curl_init(); curl_setopt($ch, CURLOPT_URL,$url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); $output = curl_exec($ch);curl_close($ch); echo $content; ?>
然后可以稍作修改使用这个脚本（使用代理）：
$(document).ready(function(){ $('.ajaxtrigger').click(function(){ var url =$(this).attr('href'); if(url.match('^http')){ url = 'proxy.php?url=' + url; }$('#target').load(url); return false; }); });
用这样的代理脚本依旧是个很蠢的办法，因为不进行过滤，人们就可以使用这个脚本来加载你服务器上的任何文档，并将其内容显示在自己的页面中（用firebug来重命名链接，就能看到你服务器上的任何内容），他们可以使用它将邮件群发脚本插入文档，或者简单地使用它来重定向到任何其他Web资源，并且让你的服务器看上去就是发送请求的那个服务器。垃圾邮件制造者就有了施展才华的地方了。
使用白名单和过滤代理
因而，要想使用代理，就得确保有被认可的URI的白名单。此外，除了另一个HTML文档的主体，其他的都除去比较好。另一个好办法是过滤脚本。这会避免显示错误和执行你本不想在网站上执行的脚本。
就像下面这样：
<?php $url = $_GET['url']; $allowedurls = array( 'http://developer.yahoo.com','http://icant.co.uk' ); if(in_array($url,$allowedurls)){ $ch = curl_init();curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);$output = curl_exec($ch); curl_close($ch); $content = preg_replace('/.*<body[^>]*>/msi','',$output); $content =preg_replace('/</body>.*/msi','',$content); $content =preg_replace('/<?/body[^>]*>/msi','',$content); $content =preg_replace('/[r|n]+/msi','',$content); $content = preg_replace('/<--[Ss]*?-->/msi','',$content); $content = preg_replace('/<noscript[^>]*>[Ss]*?</noscript>/msi','',$content); $content = preg_replace('/<script[^>]*>[Ss]*?</script>/msi','',$content); $content =preg_replace('/<script.*/>/msi','',$content); echo $content; } else { echo'Error: URL not allowed to load here.'; } ?>
使用YQL的纯JavaScript解决方案
但是，如果没有权利访问服务器，或者你只想使用JavaScript，怎么办？不用担心，这是可以做到的。借助YQL可以加载任何HTML文档，并以JSON格式返回。jQuery具有加载JSON的好接口，因此与YQL一起使用就可以达到我们的目的。
从YQL获取HTML很容易，使用下面语句即可：
select * from html where url="http://icant.co.uk"
YQL还可以完成下面一些事：
• 加载并清理HTML文档
• 使用HTML Tidy运行HTML文档来删除不好的标记
• 缓存HTML
• 只返回HTML的主体内容，因而除内联样式外不需处理其他样式
数据输出格式可以是XML或JSON。如果为JSON定义了回调参数，就表明要使用JSON-P，所有HTML都会保存在一个JavaScript对象中——这不适合重组。
foo({ "query":{ <a href=""1" title="">count</a>", <a href=""2010-01-10T07:51:43Z" title="">created</a>", <a href=""en-US" title="">lang</a>", <a href=""2010-01-10T07:51:43Z" title="">updated</a>", <a href=""http://query.yahoo[...whatever...]k%22" title="">uri</a>", "results":{"body":{ "div":{ <a href=""doc2" title="">id</a>", <a href="[{"id":"hd" title="">div</a>", <a href=""icant.co.uk" title="">h1</a> - everything Christian Heilmann" }, {<a href=""bd" title="">id</a>", "div":[ {<a href="[{"h2":"About" title="">div</a> this and me","[... and so on...] }}}}}}}});
当定义了带XML输出的回调时，会得到将HTML数据作为数组中字符串的函数调用，简单多了：
foo({ "query":{ <a href=""1" title="">count</a>", <a href=""2010-01-10T07:47:40Z" title="">created</a>", <a href=""en-US" title="">lang</a>", <a href=""2010-01-10T07:47:40Z" title="">updated</a>", <a href=""http://query.y[...who" title="">uri</a> cares...]%22"}, "results":[ "<body>n <div id="doc2">n <div id="hd">n <h1>icant.co.uk - everything Christian Heilmann</h1>n ... and so on ..." ] });
使用jQuery的getJSON()方法，访问YQL端点，这很容易实现：
$.getJSON("http://query.yahooapis.com/v1/public/yql?"+"q=select%20*%20from%20html%20where%20url%3D%22"+ encodeURIComponent(url)+"%22&format=xml'&callback=?", function(data){ if(data.results[0]){ var data =filterData(data.results[0]); container.html(data); } else { var errormsg ='<p>Error: could not load the page.</p>'; container.html(errormsg); } } );
组合在一起可以得到使用jQuery和YQL的跨域Ajax解决方案：
$(document).ready(function(){ var container = $('#target');$('.ajaxtrigger').click(function(){ doAjax($(this).attr('href')); return false;}); function doAjax(url){ // 如果它是个外部URI if(url.match('^http')){ // 调用YQL$.getJSON("http://query.yahooapis.com/v1/public/yql?"+"q=select%20*%20from%20html%20where%20url%3D%22"+ encodeURIComponent(url)+"%22&format=xml'&callback=?", // 这个函数得到的数据来自成功的JSON-P调用function(data){ // 如果有数据，过滤它并呈现出来 if(data.results[0]){ var data =filterData(data.results[0]); container.html(data); // 否则提示出错了 } else { varerrormsg = '<p>Error: could not load the page.</p>'; container.html(errormsg); }} ); // 如果它不是外部URI，使用Ajax的load()方法 } else { $('#target').load(url); } }// 过滤掉一些不好的东西 function filterData(data){ data =data.replace(/<?/body[^>]*>/g,''); data = data.replace(/[r|n]+/g,''); data =data.replace(/<--[Ss]*?-->/g,''); data = data.replace(/<noscript[^>]*>[Ss]*?</noscript>/g,''); data = data.replace(/<script[^>]*>[Ss]*?</script>/g,''); data = data.replace(/<script.*/>/,''); return data; } });
当然，这个例子还很粗糙。实际的Ajax解决方案应该考虑超时，以及未找到文档的情况。查看带加载指示器、异常处理和黄褪技术的完整代码以获得灵感。