重学C语言
学习C语言、数据结构和算法
多年以后,面对考试题,我会想起开始学习谭浩强《C语言编程》的那个下午。
—-《百年C语言》
没想到将近十年没写C语言,最近又拾起来重学了。
自从产品部门(嵌入式)转到系统工程和工具部门后,我基本没再碰过C语言。主要的变成语言转向了 C# 和 Ruby, 偶尔也有 Python. 特别是 Ruby, 从接触学习后的那刻起,我便喜欢上了这个语言。Ruby 的表现力实在是太强了,可以尽情发挥,是我接触过的语言中最接近自然语言表现方式的。特别是在 Ruby on Rails 框架中,加持后的 Rails DSL 写起来效率非常高,往往短短百来行便可以实现一个完整特性的代码。举个例子,要将一个字符串按照;
分割成字符串数组,对每个子串转换成全大写,最后将数组去重。这个需求, Ruby 实现起来是什么样子的:
str.split(‘;’).map { |s| s.upcase }.uniq
后来在很多语言都增加了闭包特性拥有类似写法时, Ruby 2.0又更近了一步,将上面的语句简化成:
str.split(‘;’).map(&:upcase).uniq
C语言如果想要实现上述功能的话…还是先想想怎么实现一个动态扩容的 char string 吧…像 Ruby 里面的 1.week.ago 2.days.later 这种表现不但能极大的提高编码的生产率,也让写代码变得轻松而快乐。
是的,松本行弘说,他要创造的是让程序员快乐的语言。因此,作为一个从C编程语言转过来的程序员,这种对比太鲜明了,也因此对C语言形成了偏见。毕竟,写C太麻烦了。
但这次是全公司开始搞可信变革,软件工程师需要考试认证,特别是大领导钦点让我们带头体验下考试。没办法,只能扛。考试语言有三种可选:C、C++和 Java, Java 基本没写过,首先排除。C 和 C++ 我偏向于 C++. (我的编程思维倾向于面向对象,面对编程问题我一般首先想到的是如何建模。)但 C++ 也是好久没碰了,加之 C++ 的概念太多,权衡下来决定舍弃,用一两周时间赶紧补补C.
首先要学习C的语言基本知识,除了指针、数组等基本的语法还记得外,很多都忘了。什么字节序、栈、程序段、格式化输出等都重新学起,甚至连 malloc 的写法都不会了。然后是各种数据结构、算法,从链表到队列,从树到图,从 qsort 到 Dijkstra, 逐个补齐。在接下来是编程练习,对程序编译、运行 debug, 这才算拾回了C。
然后我就想,这里面除了C的语法,其他大部分是与C关系不太大的数据结构和算法,以及内存管理等操作系统方面的知识。这十年编程怎么连这些东西都忘了呢。除了业务上对于数据结构和算法并没有太多要求外,还有很大一部分原因是像 Ruby 这种高级语言屏蔽了很多底层的东西,让程序员只需要关系业务抽象即可。Ruby 中 Array 和 Hash 可以覆盖99%场景中的数据结构使用,至于算法也基本都在 API 中提供了,没有的也可以通过 RubyGem 在线 install 下来。至于内存管理等,更是不用操心的事。唯一的不足就是,性能……咳咳。
抛弃C后,我是在面向对象的道路上越走越远。凡事都想着抽象、建模,以至于有些场景会被设计得过于复杂。在刚接触设计模式的那段时间,更是对抽象入魔,无论有没有变化的场景,都要抽象出工厂类来创建对象。真是应了那句老话:手里拿着锤子,看什么都是钉子。
再回头来看C,方觉得C语言简单到质朴,顿时有亲切了许多。与Ruby的简单不同,Ruby 是让人编码时感到简单,用诗句形容即是“楚腰纤细掌中轻”,可以灵活把控。而C给人的感觉是“清水出芙蓉,天然去雕饰。”要真正的理解C,才能用好C,“不可亵玩”,否则将自己给带到坑里了。C就是简单的面向过程的编程语言,用C就是想要扣性能,掌控程序和系统,当然需要很小心的使用。之前有种叫“Modular C”的模块化C编程方法火了一阵,后面貌似较少听说。这种模块封装的思想固然是好的,但有些模式套在C上显得极为复杂;特别是有些实践通过 Struct 中的函数指针来现实C的抽象,把好端端的C语言搞成了四不像。写C就简单的去写,脑子里映射的是系统的实现,而不要过分的强调业务抽象。
因此,这次我在重学C后,开始用C实现一些经典的数据结构和算法。这些代码又让我感受到了C语言的美,虽然这些代码如果用Ruby来实现可能要少一半甚至更多,但无论如何是达不到C语言的极致性能体验的,更重要的是,用C来写程序的过程,就是理解系统的过程。
回到刚才提到的那个问题,如果用C来实现的话,优先考虑的不是像Ruby那样追求代码的极简,而是会追求性能的极简。当然不是说C不关注代码的优雅,对于C而言,算法逻辑是第一位的,所以在循环中总是写++i而不是i++(某些赋值或比较场景除外)1。因此,对于这个问题,C的处理方式可能是先对字符串阶段,利用’;’替换成’\0’的方式截断;转换大小写时对小字母值 - 20(ASCII编码情况下);首尾去空格采用指针偏移的方式;最后去重再用其他数据结构或算法。当然,可能还有其他更好的解法。难怪对C情有独钟的Linus说:“差的程序员关注代码,好的程序员会关注数据结构和它们的关系。”(”Bad programmers worry about the code. Good programmers worry about data structures and their relationships.”)
当然C语言还是有不少缺陷存在,如果不谈面向对象,要说C需要增加或调整哪些特性的话,我觉得最重要的是如下几项:
1、命名空间 命名空间实现起来不难,但我不明白为什么C99乃至C11新标准没有加上。这个特性可以说是影响大型项目的很重要因素,因为没有命名空间,所有的函数名称都是平行的,命名冲突很常见。为了避免这种冲突,只能编程时人为加上很长也很难看的前缀。
2、私有封装 C语言没有 Private 关键字,Struct 所有的成员都是公开的,无法保护内部的数据。而想要实现封装,只能靠声明和实现分离(.h和.c文件)的方式,但这又会来带理解的复杂度。
3、包管理 C++ 也缺少这个功能。虽然Conan等第三方工具提供了 C/C++ 的包管理支持,但到现在为止,仍没有官方或事实标准的包管理。这导致 C/C++ 的组件复用很难做,这也是影响生态的重要因素之一。(JavaScript 这么流行,npm 包管理起了很重要的促进作用。)当然,C/C++编译成二进制码的方式导致了它们使用组件复用也很难,但如果有支持源码复用的统一标准包管理,那么相信C/C++还会增强它们的生命力。而C由于缺乏抽象,可能源码复用也要相对困难些。
我在写一个C的开源库,包含了一些基本的数据结构和算法。这是重新学习的过程,努力向”Good Programmer”前行吧。虽然Ruby等高级语言也可以写算法,但用 Ruby 和用C在思考方式上除了上述不同外,用C更能去理解计算机运行的原理。比如同样是写快速排序,Ruby、Python 等语言就是用几个数组或 list 来存储,不会像C那样用指针偏移的方式来做,用C写快排空间复杂度可达S(1),不需要分配其他内存;而 Ruby 和 Python 才不会管这些呢。
开源C代码库的地址在: https://github.com/hutusi/rethink-c ,Re-Think C, Re-Learn C. 欢迎有兴趣的童鞋一起学习,提 issue 或 PR.
-
这里描述不太确切,我是根据《Effective C++》中引述的,但根据StackOverflow上一位网友的描述,并不存在 ++i 性能优于 i++ 的说法。 ↩