扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
很明显,在传送高质量的检索结果上方面,其发展未能与几年翻倍的摩尔定律齐头并进。事实上,“搜索结果定律”可以根据不断增加的数据大小及其复杂性来反向描述。
2004年5月Nielsen Norman Group发布了其2004 Web可用性调查结果,其中强调了搜索已成为Web应用成功道路上的巨大障碍之一。据调查,访问搜索引擎已成为88%的Web会话中的第一步,同时用户平均在每次会话中会访问3.2个站点(访问搜索引擎除外)。
就搜索成功性而言,所有用户(包括偶尔使用或经验丰富的用户)对搜索结果满意的次数百分比仅为42%。尽管仅对经验丰富的用户来说这一数字可以达到50%,但这仍然意味着失败。
最糟糕的搜索经历常发生在使用企业网站点搜索而不是使用巨型搜索引擎的时候。Jakob Nielsen是搜索可用性方面的专家和Nielsen Norman Group的负责人,他将内部企业网的搜索功能描述为“不值一用”。许多用户甚至竭力避免公司批准开发内部企业网搜索引擎项目,而更倾向于使用Web搜索引擎在防火墙外寻找与其公司相关的信息。
上述问题的部分原因是从本质上看搜索是一种输入输出流。大约有60%的被调查用户仅在搜索开始时键入一个单词,另外的20%用户键入了两个单词。只有1%的被调查用户使用了高级搜索功能,而使用引号或其他查询语法对搜索进一步优化的用户仅有3%。此外,调查还表明搜索结果页面中的第一条链接得到了51%的点击率,第二条获得了16%。从搜索引擎公司的数据库也得出了同样的结果,并由此产生了关于搜索的另一条定律:不要奢望用户使用比搜索引擎所提供基本工具技巧更多的手段来获取信息。
Nielsen建议了一些基本策略来修改用户的查询动作,比如一个简单的可视化搜索框,它有至少27个字母宽以鼓励用户进行多单词查询,并有拼写检查和对查询条目进行手动修改的功能。
“你可以通过提取前1000条搜索条目并判断找到这些单词或短语的重要位置通常应该在哪里,由此对搜索引擎增加主动判断。” Nielsen说到。“同时可以通过检查搜索日志以查看最常用的条目以及哪些词汇被用来搜索这些条目,然后再加入同义词对搜索引擎进行调整。”
此外,Nielsen还提到使用适当的内容元素如页面标题,大字标题和摘要等,会有助于改进搜索结果。从这些步骤中得出了另一条搜索定律:“仅仅依靠自动查询是不会得到令人满意的搜索结果的。”
同时,企业网数据以组织化和非组织化(如电子邮件、Office文档、Web页面、音频文件等)的形式同时存在,同时这些数据还处于单独的状态,并未为被检索作好准备。另一条搜索定律由此产生:你不能在你不了解的东西中寻找你想要的。
在Nielson Norman Group的研究结果及通过调查获得的关于使用模式的信息下,搜索引擎不得不采取措施使自己变得更为聪明,同时能更准确全面的为大多数用户带来令人满意的搜索结果。绝大部分人不会让自己费劲的面对高级搜索技巧以克服现有搜索的局限性。至少,大部分公司需要检查其搜索机制,增加对原始数据分类的投入,并采用一个有专门团队维护和升级的专业搜索引擎。
如Autonomy、FAST、Google、Northern Light、Verity和Vivisimo等公司提供了采用各种技术手段的企业搜索引擎。Google有自己的“PageRank”及文本匹配技术。Autonomy则使用如概念匹配(concept matching)技术、贝叶斯判决规则推断技术等。
专门的搜索引擎关注于特定领域,如针对工程技术信息的GlobalSpec,它与一般的强力搜索引擎相比能够提供更好的结果。又如IBM目前正在研究的WebFountain,它运行着成千个程序以不断检索信息并对内容归类,同时采用自然语言分析以提供前后文参考。WebFountain被设计用于高度复杂的查询,比如追踪分析一个公司或产品的知名度。
然而还是不要指望最近在搜索引擎领域会有重大突破。Yahoo搜索实验室的首席科学家Gary Flake说:“今天的搜索引擎如同音乐发展史上当年的8轨录音带一样。”至少对现在来说,这产生了概括搜索结果的最终定律——冒昧的引用莎士比亚的台词:“终日苦苦追寻,而一旦拥有,却发现追寻中的付出超出了所获得的价值”。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者