rise前些天发了个dvbbs 5.5 的验证码过来讨论,

这些验证码有一个比较有特点的地方是进行了字符腐蚀,这样让一些字符上的线条和杂线有点难以区分,字符分割可能带来一定的干扰

步骤如下:
1、利用HSL中的亮度值进行阀值分割
2、去除杂线
3、分割字符
4、学习

作者: 4111y80y
目录: 验证码识别 at 8月 29th, 2008. No Comments.

微格式(Microformats)是注入到Web页面中的小段信息,通过语意相关让信息块内容人机可读。微格式的采用可以帮助机器搜集、理解和处理Web页面所包含的内容。

在Web页面上,允许的微格式数据包括事件、人物、地点等各种信息。这些微格式内容可被其他应用检测到,并提取其中相应信息,进而对信息进行索引、搜索或把信息以其他形式重用或组合。

从技术上看,微格式表示的数据是一些语义标记,用标准的(X)HTML的形式表示。微格式尝试将常用元素的语义进行标准化,随之衍生了一系列新的表示方式,比如针对事件描述的hCalendar (源自于iCalendar 格式),针对个人和商务信息的hCard (源自于vcard 格式),以及针对新闻的存储格式hAtom (源自于atom 联合格式)等等。

微格式对于搜索引擎SEO 有着很高的价值,容易使站点对外暴露的数据轻松的纳入到搜索引擎的索引中,便于站点提供的信息在互联网上传播。

了解更多请浏览:
http://microformats.org/
http://microformats.org/get-started/

作者: 4111y80y
目录: 见闻 at 8月 28th, 2008. No Comments.

现在网络资源泛滥很是普遍,你辛辛苦苦写的文章让别人两秒种就可以给弄走,到头来还可能被搜索引擎认为你的是抄袭,这种事情是不新现的,因为搜索引擎判定资料是不是原创有很多因素,仔细分析了一下,大致总结了有以下几个因素:

1,页面的PR值:两个网页都存在同一篇文章,搜索引擎一般会认为PR值高的那个页面为原创

2,是否被第一次收录:如果你的文章发表后,被另一个网站转了去,搜索引擎没有先来爬你的页面,而是先爬行了那个网站的页面,那么很不幸,你很有可能会被认为抄袭的

3,网站的权威性:比如一篇关于“人体综合测试仪”的很经典的技术文章,虽然你千辛万苦找了很多资料才写出来,如果在短时间内被一个行业网站或产品官方网站给引用了,搜索引擎很有可能把原文出处判定为比较有权威的网站,你会出局

4,域名注册时间和建站时间:注明注册时间和建站时越早,被认为是原文出处的可能性也就越大

但是目前来说,这些因素还是不能足够的让搜索引擎完全正确的判定出谁是原创,因为这些因素也不是绝对的搜索引擎都遵循。

在这方面google做的比较好一些,因为它的参考因素要复杂的多,爬行也比较及时;而百度就比较差一些,建站时间似乎是百度比较看重的因素。

有时候抄袭的内容页面PR值比原创内容的页面PR值还要高,这个现象解释起来就更复杂了

页面资料是否原创,不是某个网站管理员说了算,要看搜索引擎具体的算法,每个搜索引擎都有不同的评判标准,只有等搜索引擎算法越来越完善,这种争议才会慢慢减少。

作者: passionkun
目录: 未分类 at 8月 26th, 2008. No Comments.

众所周知,对于SEO来说HTML标准是不容忽视的,让HTML语义化,让搜索引擎爬虫更好的理解内容,是今后SEO研究的一个方向。昨晚一口气读完了《 Web标准实战》,就第一部分《重新审视HTML》写了篇小总结。

  1.  h1的合理使用,<h1>到<h6>表示标题的6个级别-重要性从高到低,如果在设计网页过程中,你觉得他的默认外观不好看,可以通过css轻松设置你想要的样式。依照W3C的规定,标题跳级不是好的做法,因为h1-h6就像是一个大纲,要保持各个级别的连贯顺序。
  2. <table>里面不常用的一些标签:<caption>表格的标题,<table summary=”摘要”>表格摘要,<th>表头,<td headers=”">表头与数据的关系,<th abbr=”">改变语音合成器读出的内容,<thead>表头,<tfoot>表脚,<tbody>表体。
  3. 表格并非结构,在某些用途上是不可替代的,所以请不要绞尽脑汁用div代替table。
  4. <blockquote>表示引用文本,当引用外界文字时,尽量用该标记
  5. <lable>标签标记,用来标注表单控件
  6. <dl><dt>来定义列表,在构建提交表单时,可以用该语法来代替<p>或者<table>等
  7. <input tabindex=1>让用户使用键盘来移动表单控件的当前焦点
  8. <lable for=”name” accesskey=”9″>Name:</lable><input type=”text” id=”name” name=”name”>,用户可以用Ctrl或者Alt键加上我们在代码中设置的9键,来切换焦点到这个输入框内。
  9. 在<form>中用<fieldset>将表单内容分组,当加上描述符<legent>之后,大多数浏览器上,都会在所分组的控件外围显示一条边框。
  10. <strong>和<em>比<b>和<i>要好,因为前两者是表达意义,而后两者是表达外观。em表示强调,strong表示更加强调。
  11. W3C在Html4.01规范中还定义了下列短语元素:<cite>包含引用信息或者对其他来源的参考说明;<dfn>表示所包含的是术语的定义。<code>指名一段计算机程序代码。<samp>指明一段程序或者脚本等的输出。<kdb>表示由用户输入的文本。<var>表示一个变量或者程序参数的实例。<abbr>表示一种简写形式,例如WWW。<acronym>表示只取首字母的缩写形式,例如WAC。
  12. 更好的锚点方法
    <p><a href=”#oranges”>关于桔子</a></p>
    … 文字 …
    <a id=”oranges” name=”oranges”>桔子很可口</a>
    … 更多的文字 …
  13. 给锚点加上title属性可以为这个链接所指向的目标提供丰富和明确的描述信息。
  14. 更多的列表,无序的列表使用<ul><li>,有序的列表使用<ol><li>,定义列表使用<dl><dt>(词条)<dd>(解释),你可以通过css中的list-style-type来改变它们的样式,甚至做到自定义,decimal数字型,upper-alpha大写字母型,lower-alpha小写字母型,upper-roman大写罗马数字,lower-roman小写罗马数字,none不显示。
  15. 精简HTML:使用class来定义样式;使用css的#来定义样式;去掉必要的<div>;
作者: 4111y80y
目录: 网站优化 at 8月 18th, 2008. No Comments.

经常和SEO打交道的人一定知道网站内容的重要性。

不过有很多人都存在一个的疑问是,网站内容并不是那么容易就写得出来的。例如:有的企业的核心产品只有一个,产品本身也不是太有趣,那么能写些什么内容来丰富网站呢?

其实大部分行业都有很多话题来写,就算是很冷门,外行人感觉不知所云的产品,也可以发展出很多内容。

我们随机找一个很冷门的词:射流曝气机。google共有十几万的收录,应该够冷门了吧,但开动脑筋的话,还是可以写出很多相关内容。

比如

从产品历史和沿革出发

这个机器是怎么发明的?从简陋到复杂有什么沿革过程?发明人和改进者都是谁?有些什么具体贡献?在国际和国内都是怎样延续到今天的?怎样引进国内的或怎样介绍到国外的?得过什么奖?如果碰巧这个机器就是你们公司发明的,那就有更多可写的了。

从制造机器的人出发

研发团队都是由哪些人组成的?这些工程师的背景,经历,发表过什么论文?有什么学术成就?有没有从大学什么的请顾问?直接生产的工人需要掌握哪些技术?生产过程怎么组织的?

从原材料出发

机器的生产都需要什么材料?是哪种钢还是哪种铁?还是其他什么金属?这些材料哪儿生产的最好?为什么?用什么零配件?上游供货商情况?为什么选这些供货商?

从客户出发

都有哪些客户使用你的机器?你的机器给他们带来了什么样的好处?使他们的盈利增长了多少?客户们都是怎样夸奖你们或批评你们的?这些客户所在的行业也可以简单介绍一下。

从本行业出发

行业新闻,竞争对手动向,有没有什么调查机构对你的行业做过评比调查等。把你的产品和竞争对手的产品做一个比较,当然不能失去客观。你的产品比竞争对手的好在哪里?国际动态,展销会,研讨会内容记录…

从产品用途出发

产品使用情况介绍,使用窍门,应用领域,可以帮客户做些什么?怎样维护保养?怎样排除故障?有什么替代产品?

从产品技术出发

机器的工作原理介绍,性能指标,统计,包含了哪些创新科技?用到什么实验设备?检测设备?生产工序是怎样的?有什么国际标准?行业标准?使用安全事项?怎么防假冒伪劣产品?

等等等等。
只要开阔思路,任何产品都可以写出很多相关内容。像”射流曝气机”这类很冷门的产品,都可以至少写出几十篇文章。那么你在你的竞争对手当中,就已经占据了很大优势。

对其他的人们更熟悉、竞争也更多的行业和产品,就能写出更多的内容了。

作者: passionkun
目录: 网站优化 at 8月 17th, 2008. 1 Comment.