2010年1月29日道吉日五四陈科学院新版上线了!

值昨天半夜此道吉日,科学院新版悄然上线。

更方便的阅读,更科学的分类,更重点的推荐,科学院人民从此站起来了。。。还在feed里溺水的看官们,出来瞅一瞅。。。

五四陈科学院新版logo

人人网海量存储系统Nuclear介绍

经过这几个月大家共同的努力,Nuclear终于来到新的阶段。

人人网 Nuclear

山寨版本的Logo

Nuclear存储系统:高性能、高可靠、可扩展的海量数据存储

请移步人人网UGC团队博客:http://ugc.renren.com/2010/01/21/ugc-nuclear-guide-use/

人人网UGC团队博客正式在科学院亮像,欢迎网友订阅,专注UGC社区大负载研究与应用!

http://ugc.renren.com

http://ugc.fm

下面是一些补习班知识:

TC

Tokyo Cabinet 是一个DBM的实现。这里的数据库由一系列key-value对的记录构成。key和value都可以是任意长度的字节序列,既可以是二进制也可以是字符串。这里没有数据类型和数据表的概念。当做为Hash表数据库使用时,每个key必须是不同的,因此无法存储两个key相同的值。提供了以下访问方法:提供key,value参数来存储,按 key删除记录,按key来读取记录,另外,遍历key也被支持,虽然顺序是任意的不能被保证。这些方法跟Unix标准的DBM,例如GDBM,NDBM 等等是相同的,但是比它们的性能要好得多,因此可以替代它们。

Dynamo

Dynamo 的可扩展性和可用性采用的都比较成熟的技术,数据分区并用改进的一致性哈希(consistent hashing)方式进行复制,利用数据对象的版本化实现一致性。复制时因为更新产生的一致性问题的维护采取类似 quorum 的机制以及去中心化的复制同步协议。 Dynamo 是完全去中心化的系统,人工管理工作很小。

Linkedln   Linked是一个“高效”、“安全”并且“有商务价值”的“白领SNS提供商”:LinkedIn足够高效,而且没有什么打扰用户的信息。即便是广告的投放,LinkedIn也处理的十分艺术:有侧边栏下方几乎不会分散我的注意力; LinkedIn上没有太多会打扰到你的人。而且,用户与用户之间的关系严密地保护起来。这和其他SNS拿着用户资料去做SEO实在是天壤之别; LinkedIn专注于商务功能,并且提供付费服务。这极大地体现了它的确具备提供高质量商务社交服务的能力 LinkedIn是非常适合白领使用的一款SNS工具,尤其是有国际业务的企业员工或者职业者。不过,Linked不太适合学生使用。因为Linked很注重工作经验和教育背景,如果你现在还在还没毕业,除非你有相当丰富的社会实践经验,否则完全可以忽视这个玩意,因为它现在还无法为你创造价值。他有一个相似的系统叫伏地魔,之前科学院里的文章曾经提起过,起驾观看

PHP上传文件类型彻底判断方案及PHP+nginx上传大小彻底控制方案

上回科学院发过一篇讲述上传判断的文章,位置是

PHP JAVA C上传文件如何准确判断文件类型-mime知识普及

本文目的在于,进一步更正前文所述的mime判断方式,以及增加一个nginx环境里的文件上传大小所影响的代码。

上传类型控制:

在我(54chen)工作中发现,其实修改文件的后缀,浏览器就会很傻瓜地传送错误的mime类型,所以前文的判断是一个半错误的方法(除了C代码是正确的)。

网上流传一段PHP读取文件头判断文件类型的方法,有一些bug,经我(54chen)修改实测,应该是这个样子:

/**
* 读取文件前几个字节 判断文件类型
* * @return String
*/
function checkTitle($filename) {
$file     = fopen($filename, "rb");
$bin      = fread($file, 2); //只读2字节
fclose($file);
$strInfo  = @unpack("c2chars", $bin);
$typeCode = intval($strInfo['chars1'].$strInfo['chars2']);
$fileType = '';
switch ($typeCode)
case 7790:
$fileType = 'exe';
break;
case 7784:
$fileType = 'midi';
break;
case 8297:
$fileType = 'rar';
break;
case 255216:
$fileType = 'jpg';
break;
case 7173:
$fileType = 'gif';
break;
case 6677:
$fileType = 'bmp';
break;
case 13780:
$fileType = 'png';
break;
default:
$fileType = 'unknown'.$typeCode;
//Fix
if ($strInfo['chars1']=='-1' && $strInfo['chars2']=='-40' ) {
return 'jpg';
if ($strInfo['chars1']=='-119' && $strInfo['chars2']=='80' ) {
return 'png';
} return $fileType;
}
这代码可以非常正确地分出修改后的文件,从而达到阻止修改后缀名上传的情况。

上传大小控制:

在PHP代码中直接读取$_FILE的size,而如果是特别大的文件,又使用了PHP+nginx的话,很有可能,超过2M的文件直接就被nginx就抛出来413错误了。

解决的办法:

修改/etc/nginx/nginx.conf

找到对应域名的server段:修改client_max_body_size的值,默认是2M。

这样子还不够,如果不修改php.ini里的值,你会发现上传的文件用上面的代码判断类型的时候会出问题。

修改/etc/php.ini

找到upload_max_filesize,修改这个值,默认是2M。

一番折腾,类型和大小的控制基本上就完善了。

重要PS

对于上传文件类型的判断,一直没有太好的办法,即使使用上面的代码,也有办法构造假的图片的(如何构造不再传播),有人使用getimagesize来判断,不失为一种好办法:

if(in_array($attach['ext'], array('jpg', 'jpeg', 'gif', 'png', 'swf', 'bmp')) && function_exists('getimagesize') && !@getimagesize($target)) {
    @unlink($target);
    upload_error('post_attachment_ext_notallowed', $attacharray);
   }

摘自dz代码。

函数参考 http://cn2.php.net/getimagesize

Jdbc socketRead0 Locked 记一个Mysql的不明bug

在开发人人网海量存储系统Nuclear的过程中,使用到mysql引擎,用了spring+dbcp+jdbc,在压力测试的过程中出现了问题。

在追踪java stack的过程中发现如下的问题:

java.lang.Thread.State: RUNNABLE
at java.net.SocketInputStream.socketRead0(Native Method)
at java.net.SocketInputStream.read(SocketInputStream.java:129)
at com.mysql.jdbc.util.ReadAheadInputStream.fill(ReadAheadInputStream.java:113)
at com.mysql.jdbc.util.ReadAheadInputStream.readFromUnderlyingStreamIfNecessary(ReadAheadInputStream.java:160)
at com.mysql.jdbc.util.ReadAheadInputStream.read(ReadAheadInputStream.java:188)
- locked <0x00002aaab9b2b0d8> (a com.mysql.jdbc.util.ReadAheadInputStream)
at com.mysql.jdbc.MysqlIO.readFully(MysqlIO.java:2494)
at com.mysql.jdbc.MysqlIO.reuseAndReadPacket(MysqlIO.java:3005)
at com.mysql.jdbc.MysqlIO.reuseAndReadPacket(MysqlIO.java:2938)
at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:3481)
at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:919)
at com.mysql.jdbc.MysqlIO.nextRow(MysqlIO.java:1416)
at com.mysql.jdbc.MysqlIO.readSingleRowSet(MysqlIO.java:2883)
at com.mysql.jdbc.MysqlIO.getResultSet(MysqlIO.java:476)
at com.mysql.jdbc.MysqlIO.readResultsForQueryOrUpdate(MysqlIO.java:2576)
at com.mysql.jdbc.MysqlIO.readAllResults(MysqlIO.java:1757)
at com.mysql.jdbc.MysqlIO.sqlQueryDirect(MysqlIO.java:2167)
at com.mysql.jdbc.ConnectionImpl.execSQL(ConnectionImpl.java:2648)
- locked <0x00002aaab9d98790> (a java.lang.Object)
at com.mysql.jdbc.PreparedStatement.executeInternal(PreparedStatement.java:2077)
at com.mysql.jdbc.PreparedStatement.executeQuery(PreparedStatement.java:2228)
- locked <0x00002aaab9d98790> (a java.lang.Object)
at org.apache.commons.dbcp.DelegatingPreparedStatement.executeQuery(DelegatingPreparedStatement.java:93)
at org.apache.commons.dbcp.DelegatingPreparedStatement.executeQuery(DelegatingPreparedStatement.java:93)
at org.springframework.jdbc.core.JdbcTemplate$1.doInPreparedStatement(JdbcTemplate.java:648)
at org.springframework.jdbc.core.JdbcTemplate.execute(JdbcTemplate.java:591)
at org.springframework.jdbc.core.JdbcTemplate.query(JdbcTemplate.java:641)
at org.springframework.jdbc.core.JdbcTemplate.query(JdbcTemplate.java:670)
at org.springframework.jdbc.core.JdbcTemplate.query(JdbcTemplate.java:702)
at com.renren.nuclear.storage.MySqlDumpEngine.getListByLeftRight(MySqlDumpEngine.java:198)
其中锁住了tcp的socket,在研究无果的情况下,试着搜了一下,发现已经有人在mysql bugs里提到:

http://bugs.mysql.com/bug.php?id=9515

分析产生bug的原因:

mysql建表的时候使用innoDB,表中有过千万的数据,每次取过多的数据,就会重现。

可能的原因:jdbc在做网络层的时候tcp的buffer不够所致io锁。

最简单的解决办法:

把原来的limit 1000改小,变成了limit 100。

[零九零献]献出服务器批量作shell脚本

现在是时间零九年最后一天的下午五点

值此年末岁初的佳节时期

54chen祝订阅没订阅科学院日志的朋友们 元旦快乐!

特地送出shell脚本一个,适合用于经常性的和十台以上服务器打交道的同志们,解放双手。看码:

第一个文件 run.sh 功能 总控 运行的文件 是作时的入口

#!/bin/sh
SERVER_FILE=server

SERVER_LIST="`cat ${SERVER_FILE}|grep -v "#"`"

for SERVER in `echo "${SERVER_LIST}"`
do
echo ${SERVER}
sh runOne.sh ${SERVER};
done;

第二个文件 runOne.sh 功能 自定义每个服务器要进行的作的步骤

#!/bin/sh
host=$1
ssh root@$host "yum -y install mysql-server" #上传
scp my.cnf root@$host:/etc/my.cnf #作

第三个文件 server 功能 记录有哪些服务器要作 #号可以注释不想作的机器

#10.22.206.21
10.22.206.22
10.22.206.23
10.22.206.24
10.22.206.25

使用的时候,先设置server文件,直接./run.sh 就开始执行,灵活鸡动,方便快捷。