dongming 的个人资料Welcome to dongming's sp...日志列表留言簿 工具 帮助

日志


8月15日

快乐女生

快乐女生
刘惜君
SB.太他妈恶心了
6月26日

Michael Jackson died, I am so depressed

早上在飞鱼秀上听到Michael Jackson去世的消息。
震惊,沮丧,失落。
我不是Michael Jackson的粉丝,但是仍难摆脱他的离去带来的伤感。
虽然带着种种的负面新闻,但对大多数70后和80后来说,他仍然是那个时代的标志。
伴随着自己的成长,儿时的巨星开始离去!!!
 
愿安息。。。
11月20日

又是一年开题时

转眼间已经是两年的光阴,研究生的开题同时已经在眼前了。
时间这东西还真是快,特别是在你回头看过去的时候,就愈发显得快了。
前不久和blrc的朋友们小聚,一起开心的日子似乎就在眼前,其实已经一年有余了。好在大家一切都好。还是有些想老马老张的。恩
前几天波说要回北京工作,心里很是高兴,可是由于种种原因未能实现,伤感之余只能遥祝老友快乐平安。
家里的小丫头保了研,去公司实习了,据说表现还不错,恩,应该不错了,她很聪明。
小铭还在为工作辛苦奔波,哥们,别紧张,你是小铭,没问题的。
小四的房子着实不错,我喜欢。过几天我还得找你辅导一下ubuntu(再此一并感谢shuai的免费刻盘服务).
似乎自从脸上长了小包,好久没有喝酒了,周末大博生日+党硕庸晓聚会,喝了不少,也算过过瘾。
后来总结,洋酒始终不及中国酒好,无论味道,感觉,还有价格。
回主题,开题喽,不是很忙,但是在努力的让自己忙起来。
那句话怎么说来着?厚积勃发!哈哈!
9月11日

也来考个G

据说哥哥后天要考G了。

你还别笑,哥哥就真就考G了。

等成绩出来了你也别笑,哥哥还就真就考这么多了。

哇哈哈。

 

工作的工作,结婚的结婚,买房的买房,玩车的玩车。

 

咱最近落后了点!!!

恩,接下来得一年会更落后!!! 

5月27日

baidu star

今天土了一把,参加了一次百度之星程序设计大赛,希望鄙视百度的同志们不要鄙视我^_^
比赛指定用C 或者 C++ 编写程序。由于对C++不是很熟。所以选择了那久违的C.突然间让我找回了大二时C语言上机考试的感觉。不过百度出的题远远不及我们晏海华老师出的题有难度,算法部分其实很容易,大部分时间都花费在了IO上面(不要笑话我,同志们,我估计现在没有几个人能记住怎么写一个简单的输入输出了。哈哈哈)
嘿嘿,具体我的成绩怎么样呢,说了也不怕丢人,只要以后的老板不看到这篇blog就好,比我当年本科上机考试还差——那个时候是60分,这次在打个折。打几折就不要说了。
朋友说有几家大牛公司要的人都是算法牛的(不要误解,不是说百度),看来要学习喽。
 
 
试题如下,一共四题,这里是后三个,有兴趣的写着玩玩吧,估计让晏海华作能够得满分:
 
你尝试过在百度上使用site inurl语法查询吗? 如果还没有的话可以试一下:)
如输入 site:www.baidu.com inurl:news
则会搜出所有在www.baidu.com站点上的包含"news"子串的url。
现在我们有一个inurl查询列表和一个url列表,你能找出所有至少被查询过一次的url吗?

输入格式
输入第一行是一个整数n,表示一共有n个查询。以下n行每行一个查询。查询的site部分和inurl部分中间恰好用一个空格分割,且每行不包含其他空格。下一行是一个整数m,表示url列表中一共有m个url。以下m行每行一个url。
输出格式
每个url输出一行。如果至少符合一条查询,输出1,否则输出0。

输出样例 例
1
1
0
0
0
0
1

评分规则

程序将运行在一台Linux机器上(内存使用不作严格限制),在每一测试用例上运行不能超过2秒,否则该用例不得分;
要求程序能按照输入样例的格式读取标准输入数据,按照输出样例的格式将运行结果输出到标准输出上。如果不能正确读入数据和输出数据,该题将不得分;
该题共有6个测试数据集,数据1,2,3,4,5,6的大小分别约为4K, 750K, 1.5M, 6.5M, 12M, 18M。所有查询和url均合法,url均以http://开头。url和查询中可能包含中文。输入文件的每行不超过256个字节;
该题目30分。
 
百度网页采集器(Baiduspider)每天从互联网收录数亿网页,互联网的网页质量参差不齐。百度的工程师们每天都在改进方法来判断一个网页质量的好坏,使质量差的网页出现在检索结果中较后的位置。现在实习生小胖想到一个很简单的方法来判断一个网页内容的好坏,方法如下:
1. 利用数据挖掘技术在互联网语料库中挖掘出一批有特点的词汇,分为好词和坏词两种,好词标上正的权重,坏词标上负的权重;
2. 通过好词和坏词词典对每个网页计算网页总权重:从第一个字开始匹配,找到一个好词则加上相应的权重,找到一个坏词则减去相应的权重,下一次匹配将从找到的词末尾的下一个位置开始。
3. 坏词采用正向最短匹配:从当前匹配位置开始的若干连续汉字,如果形成多个坏词,则只计算最短的那个坏词的权重,下一次匹配将从这个最短坏词末尾的下一个位置开始。
4. 好词采取正向最长匹配:从当前匹配位置开始的若干连续汉字,如果形成多个“有效”好词,则只计算最长“有效”好词的权重,下一次匹配从这个最长“有效”好词末尾的下一个位置开始。
5. “无效”好词的定义:好词的一部分本身是一个坏词;或者好词的一部分与后续相邻的若干字组成一个坏词。

现在小胖已经做好了第1步的工作,有一个好词和坏词的列表(词典),但是由于没有对中文文本处理的程序经验,他想请未来的百度之星们帮他完成这个程序。

输入格式
输入第一行为一个字符串(网页正文)。从第二行开始为词典,格式为“词 空格 词的权重”。权重为一个带符号32位整数。如果权重为正,则为好词,反之则为坏词;不存在重复的词,不存在权重为0的词。
作为“网页”的字符串中同时包含中文和ASCII字符,每个汉字占2个字节。并非“网页”中的所有字都在词典中。

输出格式
输出仅一行,为网页总权重(答案保证不超过带符号32位整数的范围)。
样例输入 例
小胖之喷火龙骑士!!
小胖 6
喷火 -1
喷火龙 -1
火龙 -1
龙 4
龙骑 3
龙骑士 2
骑士 -2
士 3

样例输出 例
7
样例解释
从“网页”中找到的好词为“小胖”和“龙”,坏词为“喷火”和“骑士”。特别要说明一下“龙”被识别为好词的原因——“喷火”和“喷火龙”均为坏词,按正向最短匹配得到“喷火”,接着往下匹配到好词“龙”、“龙骑”和“龙骑士”,但是由于“骑士”是坏词,所以“龙骑”、“龙骑士”无效而“龙”是最长的有效好词。注意题目描述中的匹配规则,好词的“有效”和“无效”只考虑该好词的一部分与后续字是否能够组成坏词,而不考虑和前面的字是否能够组成坏词——样例中的“龙”虽然可以与前面的字组成坏词“喷火龙”和“火龙”,但由于这两个词都是未能匹配成功的坏词,因此对好词“龙”的词性没有影响,可以累积“龙”的权重。
注意事项
输入数据的中文采用GBK编码。
GBK:是又一个汉字编码标准,全称《汉字内码扩展规范》。采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,排除xx7F。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。

评分规则

程序将运行在一台Linux机器上(内存使用不作严格限制),在每一测试用例上运行不能超过1秒,否则该用例不得分;
要求程序能按照输入样例的格式读取标准输入数据,按照输出样例的格式将运行结果输出到标准输出上。如果不能正确读入数据和输出数据,该题将不得分;
该题共有10个测试数据集,前7组数据的大小不超过1K字节,数据8和数据9不超过600K字节,数据10的网页正文不超过1M字节。所有数据的词典不超过50,000项,且词典中的词保证由1到5个汉字组成。词典不包含重复的单词;
该题目20分。
 
为了在紧张的上班时间让员工们轻松些,百度休息室里放置着按摩椅、CD、高尔夫套装和Wii游戏机等休闲用品。其中最受欢迎的当然是游戏机。
Wii游戏机有两个手柄,每个手柄使用两节电池(这两个电池可以是不同的品牌),其中至少一块电池没电时该手柄没电。
工程师们在玩游戏时,总是用最简单的方式更换电池:有手柄没电时把所有没电的电池拿走,一一换上新电池即可(有电的电池总是继续使用)。当有手柄没电且没有新电池可用时才停止玩Wii。
告诉你每个品牌电池的使用时间以及该品牌电池的个数,请计算工程师们玩游戏时间的最小值和最大值。

输入格式
输入第一行为一个正整数n,表示电池的种数。接下来n行,每行两个整数L和F,表示使用时间为L的电池有F个(电池不必成对出现,即F可以是奇数)。
输出格式
输出仅一行,包含两个整数,分别表示工程师们的最短游戏时间和最长游戏时间(短的时间在前)。两个整数之间以空格隔开。
输入样例 例
3
3 2
5 2
8 2

输出样例 例
5 8

样例解释
有三对电池,使用时间分别为3小时、5小时和8小时。
方案1:一开始给手柄1使用一对3小时的电池,给手柄2使用一对5小时的电池,则3小时后手柄1没电,换上一对8小时的。再过2小时后,手柄2没电。此时已经没有电池可用了。总时间为5小时。
方案2:一开始给手柄1使用一对8小时的电池,给手柄2使用一对5小时的电池,则5小时后手柄2没电,换上一对3小时的。再过3小时后,手柄1和手柄2同时没电。此时已经没有电池可用了。总时间为8小时。

评分规则

程序将运行在一台Linux机器上(内存使用不作严格限制),在每一测试用例上运行不能超过2秒,否则该用例不得分;
要求程序能按照输入样例的格式读取标准输入数据,按照输出样例的格式将运行结果输出到标准输出上。如果不能正确读入数据和输出数据,该题将不得分;
该题共有15个测试数据集,均满足n<=10, L<=200, F的总和不超过30;
该题目30分。
 
5月20日

再致双脚

继上次踢球扭脚以后,双脚持续不断受伤三次,以致现在穿着拖鞋过日子。可怜至极
中午和yue开玩笑,哪里受的罪哪里就要受到惩罚,脚下踏的的船多了,受了点惩罚。
话当然是玩笑话,不过最近脚伤多得我自己都吃惊。
慢慢养吧——要多积德,少受伤。哈哈哈
5月18日

赛门铁克

2007年5月17日,赛门铁克又挂了一次,很多同事升级了今天的最新的病毒库,然后——大面积中毒(Backdoor.Haxdoor),一直对诺顿就没有好感,这次升级的病毒库中居然出现病毒,更让人觉得可笑!还好这个病毒比较容易对付,IT部门很快的就给出了解决方案,不过赛门铁克颜面扫地喽。
5月16日

《明明》

周末看了周迅和吴彦祖演的《明明》,那个令人抓狂的结局至今还在脑子里挥散不去。
同志们,有兴趣的看一看吧。挑战一下自己的想像力。
或许这是一种新的电影模式,整个电影因为周迅的美丽而增色不上,给人一种观赏过程中的享受,最后一个爆炸式的结局,给人一个难以磨灭的印象,恩,难以磨灭,就是这个词,一点都不过分。
 
5月15日

英文名字

这年头鬼子的语言越来越火了。鬼子的公司也越来越多了。中国人也都有了鬼子的名字。
偶也实在不忍心让他们那蹩嘴的发音糟蹋我的中国名字,所以翻了翻网上的名字列表,挑了一个,Tony,凑合用吧。
2月5日

地震

好久没有更新Space。不是我懒惰。而是由于实验室登陆不上space。一直以为是地震的原因,但是发现msn上好友前面都加了小太阳。原来是实验室网络的问题,又土了。马上就回家拉。高兴中^_^
11月27日

人都疯了

今天英语课,老师提议做游戏,规则如下:
所有人都在一艘即将沉没的船上,现在有一艘限载5人的救生艇。大家给自己选择一个身份(职业),然后说出自己应该活下去的理由,大家投票选择是否将此人throw out。最后只留下5人。
出于偷巧的心理,我选择了做一个little baby,心想出于仁道来讲,没有人会把一个可怜的孩子扔下船的。
游戏的前半阶段如我所料,大家都没有对我这小朋友下手,可是在最后关键时刻——还有两分钟沉船,必须在剩下的10人中杀死5人,这群丧心病狂的家伙居然把我杀了。留下了几个比较有用的如医生,求救专家等等之类。
太难以想象了,虚伪的人们,平时表现的很仁慈很有爱心,危急时刻,居然对孩子下手,疯了。。。。。。。。。。
或许只是个游戏的原因吧(但愿真实的情况不会是这样,我这安慰自己)
11月10日

通知

女士们、先生们、同志们、朋友们:
     我手机丢了,呜呜呜呜。
     你们的号码都不见了,大家再给我发一份吧。短信发给我。我还要原来那个号。
     嘿嘿。
10月27日

思想的声音

昨天和哥们去十三玩,感觉天堂还是够NB。午夜步行回家。微凉。
躺在床上突觉两耳轻鸣,原以为是噪音,没想到赌上双耳,声音愈烈。
于是自己定性为——我听到了自己思想的声音。
妈的,我肯定疯了。
继续睡觉。

9月12日

等待开学

北航依然保持着以往的沉着.几乎成为全北京市开学最晚的学校(或者说,总是慢上半拍)
实验室的jh姐姐已经先我开学,离开了blrc.昨天我们小组的四个人和大叔及鹏同学一起合影留念,突然意识到我也将离开这里,开始一段新的生活,似乎自己还没有做好准备.
人的一生有很多个阶段.我应该是在那个最幸福最轻松的的阶段吧.不远处的压力已经早早的在那里等候,但我不想往前走,我不怕压力,也不怕困难,但是我想多享受一下这份轻松.
人们都说我们这一代人成熟的晚,确实是.很大程度上是因为我们不愿意成熟,或者没有勇气去挑起那份责任.但是该来的总要来,还是要积极的接受,I am a man^_^
8月3日

项目进展

这个星期项目进展相当缓慢,估计这周可以完成上周的工作内容。
如果大叔回来,请做好心理准备,不要受惊。哇哈哈哈哈。
 
7月29日

7月小结

由于懒惰,space上已经落满了灰尘了,今天来清洁更新一下。
已经毕业快一个月了,时间过得真快,似乎毕业还是昨天的事的。用w同学的话就是时间就像那飞禽走兽。
公司的老师们出去"team building"了,学校的同学们也纷纷回家休假了。实验室只有零零落落的几个人,突然也有点想家了。
这几天来了好多高中的同学来北京工作,大家在一起聚了聚,都还是老样子,以后玩的人多了,会热闹点了。
这个月的工作进展很慢,想想一是因为自己状态不太好,似乎有些昏昏沉沉。二是这个项目着实有些气人,每一步都有很多麻烦的东西。急的嘴起了泡,现在想通了,慢慢来吧。
看了一本玄异小说,文笔不错,情节也不错,就是名字龌龊了点,听起来像是色情小说,不便明说了,如果有人有兴趣当面问我——注意,是灵异小说,不是色情小说。
《疯狂的石头》最近相当火,其中的许多“名言”在实验室的同学们广为流传。据分析有超过《大化西游》的趋势。
由于误会,被汪汪同学训斥并埋汰了一顿,下次见面收拾她,如果汪汪本人看到,请坐好准备^_^。
还有最近和健哥住在一起,努力考研中,加油。
7月6日

伤离别

一直认为自己是一个比较坚强的人,但是越来越发现自己的感情很脆弱。
毕业了,这四年走的太快了,当年入学的场景还历历在目。昨天走出寝室的时候,有的不仅仅是留恋,里面记载着我四年的生活。
散伙饭上,我们一起回忆四年共同的经历,每一件都那么让人难忘。舍不得离开这群兄弟,我们抱头痛哭,其实我很少会流泪,但这次实在无法也不愿抑制自己的感情。
昨天一起去火车站送了阿波,他就要去上海工作了,班上唯一一个离开北京的兄弟,老八在被子上写了“兄弟,走好”,高高的挂在我们的宿舍楼上,送给阿波,也送给所有要离开的朋友。
离别是痛苦的,等待离别则更加痛苦。我们在站台上,默默等待火车的开动,大家都不开口说话,怕彼此过于伤心。阿波与我们逐个相拥告别,我们最后还是没能控制住自己的情绪,泪如雨下。火车开动的那一瞬间,我向车上的阿波竖起了大拇指,表达我对他的感情,也传达对他的祝福。
别了阿波,别了534,别了320607,别了我的兄弟们。
6月11日

世界杯

期待已久的世界杯开始了
记得上次世界杯时刚好高考,只看了几场
这次可以看个够了
为了助兴还去买了体彩
已经连续看了两天
过去的五场比赛中我的体彩只猜中了三场
哈哈,这就是世界杯的魅力,永远充满着悬念,你不知道谁会是最后的强者。
5月21日

北航丑闻

esun告诉我北航今天上了头条。
因为军协的一群同学去定向穿越,在山上留下了一堆垃圾,破坏环境,丢了北航的人。
我五一原计划参加军协的定向穿越,选择的线路就是被曝光的这一条,后来临时有事没有参加。
呵呵,或许我去了,北航能少一条丑闻(顺便夸了自己*.*)。

终于赢球了

 前一段时间大班的篮球告别赛,我们班以0:8的骄人战绩,连负八场向全系同学进行了告别.
最近大班足球赛,原以为可以夺回一些面子,结果第一场下来,居然踢出了篮球赛的比分,溃败.
昨天终于以小比分取得了一场期待已久的胜利,算是给大学生涯也画上了一个句号吧....