搜索引擎是个什么东西?搜索引擎工作原理,如何通过搜索引擎学习成长

 2016年2月27日 |  0 条评论 |   554

一、搜索引擎是个什么东西?

搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

这里的用户指的是有信息获取需求的普通用户,其实信息生产提交方(站长等)严格意义来讲也是“用户”,普通用户只需要掌握搜索引擎使用技巧,而站长们更多的是琢磨SEO搜索引擎优化)。这个帖子这双边都会有所涉及。

二、搜索引擎工作原理

搜索引擎工作原理

搜索引擎工作原理

爬行抓取:搜索引擎蜘蛛跟踪链接,抓取页面html代码存入数据库,低权重复制内容过滤;

预处理:文字和相关标签抓取,中文分词,去掉无意义内容提炼页面主要关键词(对于蜘蛛没有意义:如:的、啊、从而等,广告、申明等),去重(同一内容不同网站或同一网站不同网址);倒排索引:关键词到内容,链接投票,文件处理(目前只能根据标签和相关描述文字识别),质量判断:搜索引擎算法;

排名:中文分词(排除无实际意义的词后对搜索词的拆分重组,百度快照可查询分词结果),相关性计算:越常用的词对搜索词的意义贡献越小,词频,关键词位置形式距离(标题、H1、黑体等),链接分析(锚文本、周边文字、原站本身主题),排名过滤调整(百度第11位)。

搜索引擎的工作原理使命就是确保用户发出搜索指令后展现在他们面前的是其所需要的优质内容。

三、目前主流的搜索引擎

目前主流的搜索引擎

目前主流的搜索引擎

搜索引擎简史:1994年Yahoo!诞生,1998年Google诞生,2000年百度诞生,2012年360搜索(好搜)推出。

百度

百度搜索市场份额

百度搜索市场份额

不管是PC端还是移动端百度市场份额都是绝对的国内第一,跟国内目前其他搜索引擎相比,不说矮子里面挑高个的难听话,也不提竞价广告的乱象丛生,但从信息获取效率以及用户体验来比,百度也是当之无愧的。

作为学习工具,百度搜索有这两个地方不错,一是百度网盘,二是百度文库。

搜狗

搜狗搜索

搜狗搜索

搜狗在近年来发展迅速,最具特色的点是可以搜索微信内容和知乎内容。这都仰赖于腾讯的买买买内容战略。

360

360搜索引擎

360搜索引擎

对于360,实话实说,广告不比百度少,搜索结果质量也不敢恭维。来个对比。更多例子各位自行捣鼓。

必须掌握Google!

Google上面才是互联网,其他国内的搜索引擎的触角都受限,只能叫局域网。除了信息全面,用户体验也是谁用谁知道。

四、世界范围内各搜索引擎市场份额

以2015年第三季度为例

谷歌以67.49%的份额雄居第一,Yahoo第二,Bing凭借10.67%占据第三,百度第四,份额8.13%。

这么理解:一般人不知道的,能够提高搜索效率以及精度的一些特殊指令。

普通用户常用的包括:

双引号(搜索:“关键词”)

把搜索词汇放在双引号中,代表完全匹配搜索

把搜索词汇放在双引号中,代表完全匹配搜索

把搜索词汇放在双引号中,代表完全匹配搜索,也就是说搜索出来的结果页面都是保护双引号中所出现的所有词汇,连顺序也是完全匹配的。百度和Google都是支持这个指令的。

使用双引号搜索可以更准确的找到特定关键词,更容易找到自己想要的资源。

减号(搜索:关键词 -不需要的关键词)

减号代表搜索引擎显示不包括减号后面词汇的页面。使用这个指令时减号前面必须是空格,减号后面没有空格,要紧跟着需要排除的词。Google和百度都支持这个指令。

使用减号高级指令可以更加准确的找到需要的文件,尤其是某些词语有多重意义的时候。

星号(搜索:搜索*擎)

星号是常用的通配符,也可以使用在搜索引擎中。百度不支持*号指令。

比如在Google中搜索“ 搜索*擎”,其中*代表任何文字、出现的结果就不仅仅是包含“搜索引擎”的页面了。

inurl:(搜索:inurl:任意字符串)

inurl:指令用于搜索查询词出现在URL中的页面,可以按英文字面意思理解。百度和Google都是支持inurl:指令的。inurl:指令不仅支持英文,还支持中文。

高级搜索指令inurl的语法格式为:inurl:xxx(xxx可以为任意字符串)。此命令是查找url中包含xxx的网页。

如果你是做SEO的,那么inurl:指令对你会很有用,因为你可以快速的找到竞争对手(因为关键词出现在URL中对排名有一定的影响)。

intitle:返回的是页面title中包含关键词的页面

百度和谷歌都支持intitle

百度和谷歌都支持intitle

百度和谷歌都支持intitle。 title是目前页面优化最重要的因素。无论是什么网站,基本都会把关键词放入title中。

详细用法可以看百度经验:http://jingyan.baidu.com/article/3f16e003c21c162591c103a6.html

filetype:搜索特定文件格式的时候使用。

例如:filetype:pdf 视频教程,显示的是包含“视频教程”的所有PDF文件。filetype指令可以用来搜索特定的资源,比如PDF电子书、Word文件等。Google和百度都是支持filetype:指令的。

详细用法可以看百度经验:http://jingyan.baidu.com/article/73c3ce28f23d8de50343d9ac.html

site:这个高级搜索指令用来搜索某个域名下面的所有文件。

比如搜索“site:vprol.com”,出现的就是vprol.com这个域名下面的所有页面,可以说这个高级指令是查询网站收入页面数量最直接的方法。site:指令也可以用于子域名。但site:并不准确,特别是在Google中,出现的收入页面经常有大幅度波动,只能用于参考,但不能完全相信。

之前有人用“site:yun.baidu.com ”资源关键词这个搜网盘里面的资源,现在貌似不大顶用了,等下给出替代方案。

高级搜索指令大全诸位可自行百度,补充一点是,这些指令很多都可以互相搭配使用影响最后的结果。可以有很复杂的组合结果,好消息是有人帮我们封装好做写成了特殊的搜索引擎供我们使用。

二、特殊搜索引擎

这有个知乎特殊搜索引擎汇总贴:https://www.zhihu.com/question/20251786

大而全的东西意味着杂乱,外行很容易陷入选择困难症一脸茫然。我给大家重点勾勒几个点。

先顺逻辑:从学习的角度,我们搜索一个东西最浅显的需求就是了解知道,要想深入消化吸收往往意味着有必要触发资料收集下载这一动作。

嗯,我就是要教大家怎么下载。一般的付费教程以及电子书资源,百度网盘的资源丰富度远远超过你想象,不过百度官方并不提供资源检索功能。借助工具就好了,用网盘搜索引擎即可。

理论上,只要挂在网上,就算是付费的视频,文档也能抠下来。某宝上面固然有售,稍稍懂点搜索引擎的功能其实都能省去不少精力,虽然大伙儿都不差钱,哈哈。

百度文库,豆丁等下载:冰点下载器

百度文库,豆丁等下载:冰点下载器

 

YouTube视频下载

YouTube视频下载

 

国内视频网站内容下载:硕鼠

国内视频网站内容下载:硕鼠

 

虎牙直播,斗鱼直播等在线直播视频下载:屏幕录制软件。。。

视频资源:用各种种子搜索引擎就好了。如:电驴,海盗,死去的btspread,以及不能说的其他站点。等下各位在评论区补充。

浏览国外资讯要会翻墙

浏览国外资讯要会翻墙

 

浏览国外资讯什么的,起码要会翻墙吧,建议用付费的vpn,速度有保障,最重要的是下东西飞快。俺用的一款之前叫greenvpn,现在叫绿豆加速器。红杏已挂。

省略一万种资源获取方式……关于翻墙,微部落之前有大量分享:

翻墙是什么意思?为什么要翻墙?

最快速稳定的手机翻墙方法

google搜索打不开的解决方法,google翻墙方法

用猎豹浏览器翻墙上GOOGLE

分享几个可用的翻墙方法:Google翻墙、Facebook翻墙、Youtube翻墙及Twitter翻墙

如何翻墙看youtube视频?youtube翻墙方法

Windows下的VPN连接设置图文教程

最后放个大招:自行百度吾爱破解,精易论坛,对绝大多数人来讲,那将是另外一片天堂。

各色工具资源站点我收藏夹都躺了几百个,一次抖不完。唠叨一个省事的终极思路——互联网的基础设施是IT们搭建起来的,其中有五颜六色的暗门,摸熟搜索引擎,就是拥有了打开这些暗门的钥匙。

至于暗网什么的高级黑,下次八卦,写写我掌握的一些细节。

三、关键词使用

使用搜索引擎的搜索功能最重要的是知道输入哪个关键词。

搜索引擎就像一个搬运工,你想让他给你搬运啥东西,你起码得知道自己想要什么。例如你想学英语,你可能就会搜怎么学英语,英语培训教程。这种起码的素养,一般人初次接触搜索引擎就具备。这一阶段一般使用的往往是泛关键词。

学习是个循序渐进的过程,意味着你有深入挖掘细分领域的需求。这就引申出另外一个概念叫精准关键词(或长尾关键词),不过多展开,需要强调的是,大家在使用搜索引擎的时候要有意识地去提炼自己的关键词,从不同的维度去获取你想要的信息。

举个粗暴栗子,黄片又叫爱情动作片,此外番号,番号封面,女优这些关键词也指向你想要获取的资源,是不是很有趣。

互联网再繁杂,只要多记对象名词,熟悉事物关键节点,借助搜索引擎就能提纲挈领,手到擒来。到这个当口,才有天下为我所用的掌握感。

四、搭建网站门类的记忆宫殿

浸淫互联网许久,俺在说个有意思的点。导航网站相信大家都很熟悉,像hao123,金山毒霸导航,360导航。

我想给大伙说的是,这些导航网站的布局一般都别有用心(用来做淘宝客导购,软件注册推广,广告等)而且聚合的站点也很平庸,满足普罗大众日常的消遣尚可,但是想让搜索引擎成为你的大学,就远远不够了。

你需要搭建属于自己的“网站导航”,在日常接触到的优秀网站,记得在浏览器点一下收藏,分门别类。经年累月的积累,这将是你电脑上最重要的一笔财富。我换电脑或装系统几乎东西不担心丢失,同步下收藏夹就好了。

分门别类的收藏夹是你搭建脑海记忆宫殿的基础,最终要达到有搜索需求的时,资源获取手到擒来。

至于怎么管理你的收藏夹,适合你自己的姿势才是最好的。

五、网感

见识各色各样的网站样式,在建立起自己的站点记忆宫殿之后,培养自己的网感,懂得各色资源的搭配调取应用。网感是个很大的命题,看似有些务虚,实则用处极大。此处提出这一概念。

 

文章字数统计:4878 | 百度已收录

  |  pc蛋蛋微信群/seo优化, pc蛋蛋微信群/互联应用  


微部落博客编辑整理发布,如有侵犯您的版权,请提供相关版权证明,博主将立即删除。
·博客大全  博客网址之家  博客导航  来路IP首页展示!   ·免费收录  ·免费推广你的博客   114.vprol.com
如果本文对您有用就 打个赏吧微信 OR 支付宝 扫描二维码
pay_weixin     pay_weixin
金额随意,您的支持是我的动力~

草根站长,博客导航,博客大全,博客网站,增加网站流量
回复 取消

欢迎评论发言,灌水及广告评论将被定期删除!