最后更新时间: 2024年3月25日
上一节我们介绍了如何通过火车头抓取相关长尾关键词的内容,那如何把这些内容集成到我们的网站中呢?这里我们使用自己开发的一套易 CMS 系统 Peace , 其实就是两个 php 文件非常简单,它实现了网站内容展示,类似 wordpress 的 the_content()
函数,还有比如 上一篇,下一篇,相关文章,随机文章等,跟 wordpress 都是一样的。
从上图可以看出,整个网站其实就是一个静态网站,多了两个php 文件,Peace.php 和 love.php , Peace.php 负责解析采集的内容,love.php 负责把采集的内容展示出来,现在我们想让动态抓取的内容嵌入页面后看起来长这个样子,如下图
这里可以看到我们上边是一个留言板,把留言板放到这个位置非常醒目,可以诱导用户留言,然后左边是固定的核心产品页面,用户感兴趣可以直接点击链接过去,留言板下方就是采集内容了。
这里可以看出采集页面后边有上一篇,下一篇链接,可以引导Google爬虫抓取网站链接,左侧是随机文章区域,同样可以加速网站收录,同时也相当于做了网站内链。
为了展示这些内容(上边两张图展示的那样),我们需要做一个 love.html 的静态页面,然后把 love.html 转换为 love.php, 转换后的 love.php 大概如下所示
这样我们的网站框架就搭建好了,主要有Peace.php(负责解析采集内容), love.php(负责展示采集内容), love.php 中包括一个留言板部分(js), 抓取内容展示区域,随机文章列表区域,上一篇下一篇区域等。
像 wordpress把所有请求都交给 index.php 处理一样,Peace 把所有请求都交给 love.php 处理,因此需要做相应的配置才可以工作。
如果网站是部署在 apache 服务器上,对应的 .htaccess 内容如下
RewriteEngine On RewriteCond %{REQUEST_FILENAME} !-f RewriteCond %{REQUEST_FILENAME} !-d RewriteRule . /love.php [L]
如果网站是部署在 nginx 服务器上,对应的虚拟主机配置文件 域名.conf的内容如下,我们使用 lnmp 作为服务器套件
location / { try_files $uri $uri/ /love.php?$args; }
经过以上步骤,我们的采集站框架已经搭建好了,文件结构大概如下所示
然后配合我们使用脚本(火车头)等抓取工具生成的内容,再转换一下我们需要的格式(主要工作是把 love.html 转换为 love.php ,因为每个网站的模板不同)后我们动态抓取的内容就能以正常的页面进行展示了。
需要 Peace 这个 CMS 的可以关注公众号 ⬇️⬇️ 或添加 微信 ⬇️⬇️ 领取。