关于nlp:当代中国最贵的汉字是什么

47次阅读

共计 1604 个字符,预计需要花费 5 分钟才能阅读完成。

最贵的汉字

“你说,当代中国最贵的汉字是什么?”,有一天共事突然问我。

“【诺】,因为空头支票”,我脱口而出。

“不对。”

“【字】,一字千金?”

共事点头。

“爱?”

“这个是无价的,不算。”

“人才。不是说 21 世纪最贵的是人才吗?”

“一个字,你这不算。你咋不说家书抵万金呢?”

“算了,不猜了。”,我脑海里为数不多的几个字转了一圈,没有一个合乎的。

我有些纳闷地看着他,示意放弃。

“答案是拆。”

“拆?”

“对。拆,拆迁的拆。”

说完,共事笑了笑。笑中带着三分世俗,六分狡黠,还有一分苍凉。

“ 拆,财。一拆,财就有了。”

不过,我却糊涂起来,“那么这个拆,是和你有关系呢?还是和我有关系呢?”

“都有关系”,共事顿了顿,“也都没有。”

“和我俩有啥关系,咱们把房东的房子拆了周游世界?”

“No,咱们明天来拆点别的。不拆房子。”

“不拆房子,那拆什么?”

“拆字。”

“字?”

“对。字,汉字的字。”

拆字

“汉字,晓得吧?”,共事持续说着。

“废话。小学生都晓得的问题。”

“汉字的三要素晓得吗?”

“音形义。”

“你晓得如何用程序实现两个形近字的判断吗?”

“你是没关注老马吧,他前两天刚写了一篇 NLP 形近字的实现算法。”

“那篇算法我看了,一般般吧。有些场景不适应。”

“比方?”

“比方【明】与【冐】,构造不同,偏旁不同。然而他俩像不像?”

实在文化限度了我的想象力,在震惊了 0.9 秒之后,我立即反驳。

“说的笨重,说的你能解决这个问题一样?”

共事笑了笑,“难也不难。这就波及到明天的配角,拆字。”

“哦。愿闻其详。”

“咱们能够把汉字拆开最根本的组成部分,比方【明】能够拆成【日】【月】,【冐】也是相似的。而后去比拟每一个局部是否雷同,用来计算类似度。”

“这倒是挺不错”,我不禁拍板称誉,“那么问题来了,这种拆字程序要多久能力实现呢?”

共事笑了笑,“在下不才,这两天上班期间写好了一个拆字程序。”

“秀啊,你给拆一个秦时明月汉时关我瞅瞅。”

共事小手一敲,后果输入 手乀禾日寸日月冂一一水又日寸丷天

“能够能够。除了 NLP 形近字,你这程序还有啥用?”

“用途挺多的,不过最次要的是帅。比方这张我用拆字联合云图主动生成的图片。”

技术总会过期,然而帅,却是一辈子的事件。

“你晓得这个图,是由哪一句话拆分失去的吗?给你个提醒,出自一首词。”

合字

想到共事给出的难题,最近日夜难寐,到底要怎么解呢?

正所谓,天下大势,合久必分,分久必合。

既然汉字能拆分,那么,能不能合并呢?

于是花了两天工夫,写了一个汉字的合并程序。

能够把 手乀禾日寸日月冂一一水又日寸丷天 合并为 秦时明月汉时关

共事看了后,感觉挺乏味。

“你这个怎么实现的,有点意思。”

“不难,和汉字的拆分逻辑反过来就行。”

“比方日月合并的时候,你如何判断是明还是冐呢?”

“我做了一个字频统计,单个汉字字频高的优先。当然有时候这并不适合,最好还是联合 n-gram 的形式,进步上下文正确率。”

“不错。匹配算法呢?”

“FAST-Forward 算法,和以前开源的敏感词相似。”

“能够能够。那么,我一开始给你的谜面你解开了吗?”

不拆不合

“运气好,解开了。”

“怎么做到的?”

“我在早晨找到了全宋词,不过想到你出的题目必定是罕用的诗词,所以第一步放大了范畴。”

“而后呢?”

“我把你图片里的部首合并,汉字穷举。而后做检索。找到之后,把内容正向拆分比照,运气不错找到了。”

“思路不错。是不是发现拆分用来做验证码也挺不错的。”

“是的,比起传统验证码会被机器学习的危险,这个辨认的老本绝对较高。”

“字拆分用来融入到解密游戏也不错,相似《文字游戏》之类的,招你做技术研发也不亏。”

共事笑了笑,叹气道:“我最近在想,有时候不是什么事件都要有用吧。技术总会过期,文化却源远流长。拆也好,财也好,有了诚然好,没有也不妨。”

我一时不晓得说什么,看着昨晚程序解开的谜底,那里有一行字。

勃然大怒,凭栏处、潇潇雨歇。抬望眼,仰天长啸,壮怀激烈。三十功名尘与土,八千里路云和月。

正文完
 0