打印

[交流讨论] 大型专业独立搜索引擎-优课搜索,及网络蜘蛛软件寻求风险投资

大型专业独立搜索引擎-优课搜索,及网络蜘蛛软件寻求风险投资

    互联网已经迈入一个新的阶段,搜索引擎的作用大家有目共睹,搜索引擎已经进入一个细分市场的时代,更专业化的搜索引擎带给大家的查找信息快捷方便,我的优课教育搜索引擎正是基于这种理念而开发,集合了几家所长,参照“淘宝网,携程旅游网,百度,google,”等经营模式,独创了一种符合中国人习惯的浏览方式。

    本搜索引擎,植根于自己独立研发的“双子星网络蜘蛛程序软件”,拥有完全的自主知识产权,这是很多搜索网站不具备的,这为本搜索引擎更好的结合实际运用,逐步完善其功能,打下良好的基础。因为本人资金有限。只完成了前期框架结构方面的工作,软件已经开发完毕,在各大型软件下载网站提供共享试用,后期工作需要增加服务器,带宽,及其它一系列辅助硬件,另外还需要市场推广方面的大力支持。寻求合作伙伴或风险投资家,前期约需要资金200万左右,主要用于”产品后续升级,硬件升级,市场推广“。


联系电话:0791-6380268  熊先生qq26231197
www.youk.com.cn

目前基于未来下一代互联网的理念,需要开发出更人性化,更智能化的搜索引擎,支撑这一目标实现的,就是更加智能化的网络蜘蛛软件.为最终实现人机交流而努力。目前我们已经在做这方面的尝试性工作,我们将为实现赋予这“小小的网络爬虫”与“生命”,做出大量的工作。你愿意和我们一起完成这革命性的事业吗?那么请联系我们:0791--6380268,2866766
网络蜘蛛在搜索引擎中占有重要位置,对搜索引擎的查全、查准都有影响,决定了搜索引擎数据容量的大小,而且网络蜘蛛的好坏直接影响搜索结果页中的死链接(即链接所指向的网页已经不存在)的个数。目前如何发现更多的网页、如何正确提取网页内容、如果下载动态网页、如何提供抓取速度、如何识别网站内内容相同的网页等都是网络蜘蛛需要进一步改进的问题。


附双子星通用网络蜘蛛试用版1.0正式发布

软件名称:双子星通用网络蜘蛛试用限速版
软件版本:v1.0
见议分类:国产软件-> 网络工具-> 搜索引擎

联系email:xqh769@sohu.com
软件网站::http://www.youk.com.cn
下载地址:http://www.youk.com.cn/spider/setup.exe
软件容量:5780kb
软件语言:国产软件 / 简体中文
授权形式:共享软件
应用平台:win98/nt/2000/xp
界面预览:http://www.youk.com.cn/topinfo/viewnews.asp?viewid=82
软件作者:优课网双子星软件工作室

软件介绍:
双子星通用网络蜘蛛是一款适用于中小型企业和网站的通用网页抓取软件。其主要功能是通过从指定网址开始寻找相关网页链接,下载转换相关文件并保存至microsoft sql server数据库中,以便用户查询修改以及过滤出有用信息。本软件现支持http及ftp下载协议,proxy5代理协议,下载文件尺寸限制,关键词过滤,捕获类型过滤等功能。

  系统需求:
  cpu:intel pentium  iii 800+
内存:256m推荐512m内存以上
磁盘空间:基本软件安装至少需要15m自由磁盘空间,同时应有足够空间容纳临时下载文件以及数据库存储空间,而这些磁盘空间视下载文件的多少和大小所需空间可变直至无穷大(提示:建议定期使用数据查询中数据库优化功能,同时单个下载文件不能超过2g)。
  操作系统:microsoft windows nt内核操作系统,建议使用windows 2000 server,windows xp,windows 2003 server
  软件需求:microsoft sql server 2000+数据库系统,建议使用microsoft sql server 2000+企业版

  本试用版只为您测试本软件使用而免费发布,因此对软件功能进行了限制,例如只能使用单线程捕获数据,不支持关键字过滤等某些功能的使用,不支持某些重定向网页以及网页转文本,标题判定等功能弱化,捕获速度也较慢。如果您希望获得本软件的正式版本,请发送邮件与我们联系以便订购本软件的正式版。

  非常感谢您试用本软件,希望能够为您提供所需的服务。同时,因制作水平有限且开发时间仓促,难免有各类程序漏洞和不足。希望您能够提供宝贵的意见和建议。



网址: http://www.youk.com.cn
联系邮件: xqh769@163.com
联系电话: 0791-6380268,2866766 qq26231197
联系人: 熊先生

TOP

搜索模式酝酿变革

    随着web2.0元素在互联网中的推广和普及,专业的blog搜索、bbs搜索、rss搜索、黄页搜索、搜人引擎、求职搜索、旅游资讯搜索、比较购物搜索等等,各种web 2.0名头下的专业领域垂直搜索开始遍地开花。虽然目前垂直搜索与综合搜索相比,在技术及用户数量上都不具备优势,但随着web 2.0的发展,垂直搜索的发展潜力巨大。

    赛迪顾问分析师谭斌认为,在垂直搜索影响下,各大综合搜索引擎也加入了互动性因素,百度知道、新浪爱问都为其所在企业网聚了不少人气,搜索巨头google推出了gmail、论坛、talk、本地搜索、学术搜索、桌面搜索等一系列吸引用户的工具,在扩大用户量的基础上利用众多工具的合力留住用户。随着业务的不断细分,综合的搜索引擎将越来越趋向于更加互动的新型门户,搜索引擎门户化将是未来综合搜索引擎发展的大势所趋。



----------------------------
功能强大的教育搜索引擎,http://www.youk.com.cn及前瞻性的网络蜘蛛软件

            

TOP

搜索引擎商机无限

    业务的不断细分也带来了更多的投资热点,不断出现的搜索功能和推陈出新的盈利模式使搜索引擎蕴藏了无限的商机。随着用户信息需求个性化程度加深,垂直搜索的应用将越来越广泛;本地搜索则因为具有与生俱来的盈利模式而终将成为未来搜索引擎主攻的焦点;随着电子商务的不断普及,搜索引擎与电子商务结合的产物——电子商务搜索将成为搜索引擎极具潜力的投资方向。

    谭斌预测,随着搜索引擎技术的不断发展以及整个产业的不断成熟,未来几年,商业模式创新将同技术一样成为主导搜索引擎市场格局的重要因素,因此厂商在加强技术研发的同时,绝不能放弃对应用和商业模式创新的探索。

    易观国际预测,未来3年内搜索引擎行业将在垂直搜索和移动搜索领域出现新的商业机会,以百度、google为首的综合搜索门户市场份额将会逐渐降低,专业搜索和移动搜索将赶超门户搜索。(记者 吴辰光)



----------------------------
功能强大的教育搜索引擎,http://www.youk.com.cn及前瞻性的网络蜘蛛软件

            

TOP

名词解释

    垂直搜索:它是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索……几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。



----------------------------
功能强大的教育搜索引擎,http://www.youk.com.cn及前瞻性的网络蜘蛛软件

            

TOP

互联网搜索巨人google公司22日预测,未来的google将知道用户要找什么样的信息,懂得用户要问的问题,并立即给出用户想要的答案。这听起来有些天方夜谭,但google公司说,也许在几年内google的人工智能版将成为现实。

    据《卫报》报道,22日晚,在英国伦敦举行的一个会议上,google公司的首席执行官埃里克·施密特和创始人之一拉里·佩奇向人们展示了google公司正在研发的一个最具雄心的项目——人工智能。

    佩奇说:“最终的搜索引擎将懂得所有事情,它了解你要问的任何问题,并立即给出你想得到的正确答案。你能问它,‘我想问佩奇什么问题呢?’它会立即告诉你。”佩奇表示,具备人工智能的搜索引擎也许在几年内就会出现


----------------------------
功能强大的教育搜索引擎,http://www.youk.com.cn及前瞻性的网络蜘蛛软件

            

TOP

搜索引擎一直专注于提升用户的体验度,其用户体验度则反映在三个方面:准、全、快。用专业术语讲是:查准率、查全率和搜索速度(即搜索耗时)。其中最易达到的是搜索速度,因为对于搜索耗时在1秒以下的系统来说,访问者很难辨别其快慢了,更何况还有网络速度的影响。因此,对搜索引擎的评价就集中在了前两者:准、全。中文搜索引擎的“准”,需要保证搜索的前几十条结果都和搜索词十分相关,这需由“分词技术”和“排序技术”来决定(参考作者相关文章[1][2]);中文搜索引擎的“全”则需保证不遗漏某些重要的结果,而且能找到最新的网页,这需要搜索引擎有一个强大的网页收集器,一般称为“网络蜘蛛”,也有叫“网页机器人”。


    研究搜索引擎技术的文章不少,但大部分讨论的是如何评价网页的重要性,对于网络蜘蛛研究的文章不多。网络蜘蛛技术并不是一项十分高深的技术,但要做一个强大的网络蜘蛛,却非易事。在目前磁盘容量已经不是瓶颈的时候,搜索引擎一直在扩大自己的网页数量。最大的搜索引擎google(http://www.google.com)从2002年的10亿网页增加到现在近40亿网页;最近雅虎搜索引擎(http://search.yahoo.com/)号称收录了45亿个网页;国内的中文搜索引擎百度(http://www.baidu.com)的中文页面从两年前的七千万页增加到了现在的两亿多。据估计,整个互联网的网页数达到100多亿,而且每年还在快速增长。因此一个优秀的搜索引擎,需要不断的优化网络蜘蛛的算法,提升其性能。


    或许有些人有疑问,为何搜索引擎需要用网络蜘蛛抓取网站所有的网页,为什么不在搜索者输入关键词后只把那些需要的结果抓取过来?这实际上是效率问题,搜索引擎不可能在搜索时实时去检查每个网页,而是需要把网页先抓取下来,按照关键词建立好索引,每次搜索的结果都会直接从搜索引擎建立好索引的数据库中查找,然后把结果返回给访问者

----------------------------
功能强大的教育搜索引擎,http://www.youk.com.cn及前瞻性的网络蜘蛛软件

            

TOP

网络蜘蛛基本原理


    网络蜘蛛即web spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。


    对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的链接中找到;另一个原因是存储技术和处理技术的问题,如果按照每个页面的平均大小为20k计算(包含图片),100亿网页的容量是100×2000g字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20k计算,需要340台机器不停的下载一年时间,才能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。


    在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(如下图所示)。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。


----------------------------
功能强大的教育搜索引擎,http://www.youk.com.cn及前瞻性的网络蜘蛛软件

            

TOP

http://news.e800.com.cn/articles/images/old/10847637283751560941261360672293.jpg


----------------------------
功能强大的教育搜索引擎,http://www.youk.com.cn及前瞻性的网络蜘蛛软件

            

TOP

你虽然说了很多,但都是技术常识!我更关心的是:

1,你所谓的“自主知识产权搜索技术”解决的技术问题是多少人们在搜索体验中所需要与关注的?

2,为什么这个“技术难题”(姑且称你的成果)不是百度做而是你来做?

3,你能假设或形象的举例说下什么样的人们能成为你的初期典型客户吗?



----------------------------
云起处拈花、无声处观音
http://www.360s.cn
            

TOP

回复一下8楼,
   1.我现在重点是突出我的搜索引擎技术属于专业细分化的市场,这是首要的生存法则。可以以专业,快捷,安全,高效来吸引专业用户。(比如:教育,医药行业,电子,机械等等)在实现搜索内容的同时,也可以实现其它附加功能如:采集客户信息,企业资料等。利用这些资料,可以作为电邮广告,短信广告,电话销售等推广应用。还可以实现跨语言区域共享。

   2.百度不是不做我这个技术工作,而是因为船大难调头,我避开百度的竞价排名优势,另辟蹊径,主攻搜索引擎更专业化,人性化的功能强化。就好比是“紫光拼音”一样,网络蜘蛛也会对用户的搜索习惯产生记忆,更有利于快捷方便的实现信息采集功能,而且我的信息采集方式,不局限于几大门户搜索引擎,而是利用完全独立的网络蜘蛛软件来实现用户个性化的服务。

   3.我初期的典型用户,就以我的优课网为例,用户群包括在校老师和学生,各相关学校的门户网站,与学生有关的产品网站。根据不同的网站类型,我们建议客户按照软件使用说明自己定制符合自己风格的搜索引擎模式。
     
我还要再次说那三个词:“专业,快捷,安全

----------------------------
功能强大的教育搜索引擎,http://www.youk.com.cn及前瞻性的网络蜘蛛软件

            

TOP

我并不害怕把自己的想法公开,因为我的这些设想,都必须建立在一套功能强大完善的网络蜘蛛软件上,所以被同行模仿的机会并不会在短期内实现,因为我开发这套软件就足足花了半年的时间,夜以继日。才算初显轮廓,还有很多方面有待完善。具体计划,这就要与投行面对面沟通时才能透露,因为我已经说得够多了。

----------------------------
功能强大的教育搜索引擎,http://www.youk.com.cn及前瞻性的网络蜘蛛软件

            

TOP

我想进一步了解一下,贵网站如何定位与众不同的特色,这个网络蜘蛛软件是作为一种盈利模式来推广,还是一种附属设施,对你敢于创新的精神表示钦佩,但请你心里也要做好打持久战的准备,毕竟新东西出来,要让大家觉得使用方便,安全,快捷,还需要不断的改进,请把你的详细计划书发到我的电子信箱里:hs-sy@tom.com

            

TOP

用户不需要你的技术资料,需要你的查询结果。你的网站什么都查不到,你就是在这说三天三夜,你的技术如何好、定位如何好,有什么用呢~~~~

            

TOP

   感谢13楼的朋友指出我网站的不足,在这里我想解释一下,我的创意事如何转换的。
   今年3月份开始搞这个优课搜索的时候,定位是做一个与“淘宝网”有点类似的网站,搜索功能也只是实现站内搜索,数据库靠人工输入,资料来源局限与本地区,是用于本地教育机构与本地学生群体的一个互动交流平台。
后来我和我的伙伴-袁工程师,觉得仅以地方特色难以吸引大家的目光,必须要站在全局的高度来做事情,不然我的这个搜索网站的功能就与本地的门户网站重合了,这也是资源的一种浪费。
   经过一番市场考察,我们从新找准市场定位,决定做一个专业垂直搜索引擎,以自己的技术力量结合市场,开发一套与本网站配套的网络蜘蛛软件,当然这个网络蜘蛛软件就不仅仅是用在我的网站上,它的用途会很广泛,将来大家一定可以看到。
   因为这段时间我们一直在做各项软硬件的准备,结果只是搭建起了一个“优课搜索”的简单框架,里面的数据库没有填充,造成朋友搜索不到详细信息,在这里表示道歉,我并不是有意这么做的,实在是因为我们团队人手少,资金也少,在前期准备中,也花了自己仅存的一些积蓄,目前在电信局的主机房有自己独立的服务器,因为现在还没全面开拓市场,暂时还能应付一段时间,等到后面流量一旦爆炸式增长,设备有将要更新换代,技术团队也要补充人员,还要组建营销团队,售后服务,法务版权,市场开发等等诸多部门。这一切一切仅凭我们几个人的力量很难实现,这也是我为什么需要请天使投资和风险投资伸出援手的主要原因。

    我们看好这个分类搜索,也一定会朝这个既定目标一直坚定的走下去,目前只能说,万丈高楼,我们只挖了一个地基,拥有自主知识产权的网络蜘蛛程序软件,我们还将不断的完善它,赋予它更多更方便快捷的功能。
    我做优课搜索,我不仅仅是把它当成是一个教育搜索引擎来做,我的最终目标是要把优课网站打造成中国人的教育网上社区,当然这还有很长的路走,有了大家的关心爱护,我相信我们一定能一路走好!再次感谢关心和支持我们的朋友,谢谢!


----------------------------
功能强大的教育搜索引擎,http://www.youk.com.cn及前瞻性的网络蜘蛛软件

            

TOP

我觉得技术方面难度不小,以你们的小米加步枪,能行吗?
这方面有强大的正规军 ,把今天胡总书记倡导的“长征精神”送给你。
祝你好运!

            

TOP

返回顶部
AYBlue

Processed in 0.066830 second(s), 6 queries.

当前时区 GMT+8, 现在时间是 2009-1-9 18:27 京ICP备06054220号

清除 Cookies - 联系我们 - 163K.com - Archiver - WAP