案例研究

老数据的第二次生命

论文发表四年后,把六年前的 TiZrNi 工作录入实验记录本

Oleksiy Penkov · 浙江大学终身教授· 2026年5月8日

退火 Ti41Zr39Ni20 涂层的横截面 TEM,可见柱状显微组织

一个 Word 文档,里面藏着一个关键数字

我办公室硬盘里有一个文件,叫 Specimens_List_4_(26-28).docx。三页长,主要内容是某个学生 2021 年从实验记录本里复制出来的一张表。表里有一列记录了三块样品下面那层钨底层的厚度。我把整个项目文件夹翻了两遍,几乎可以确定,全世界只有那一份文档里写下了这三个数字。

那三块样品是两篇论文之间的桥梁。其中一篇 2022 年发在 Thin Solid Films 上,报道了退火后的 Ti₄₁Zr₃₉Ni₂₀ 涂层有 25 GPa 的硬度——是四年准晶薄膜工作的标志性结果。另一篇是一年后发在 Energy Engineering 上的,测量同一组分在非晶态下的热导率。样品 #26、#27、#28 在两篇论文里都出现过。直到 2026 年 3 月——项目结束四年之后——所有硬盘上的文件都没有把它们关联起来。这种关联只活在三个学生的脑子里和一份 Word 文档里,而且每一年都更难找回。

3 月,我把整个档案灌进了实验记录本。第 15 号项目,「TiNiZr」。两周的晚上时间,86 个 Item,300 个文件,53 个测量值。论文已经发表。工作已经结束。不会再有新样品。这个系列的上一篇讲的是从一开始就把基础打好——一边做样品一边录入。这一篇讲的是反过来的情况:一个永远不会再发论文的项目,事后再做这件事,到底值不值。

我觉得值。

硬盘里到底有什么

项目从 2019 年跑到 2022 年,三个学生在四个时区——哈尔科夫、首尔、新加坡、杭州——轮流接手。等项目收尾的时候,文件夹结构已经长成了一个有机体,三套不同的命名约定一层层叠在上面。三批样品分别做在两种衬底上:不锈钢和蓝宝石。一共 28 块样品,手工编号 #1 到 #28。大约 300 个文件。

仪器输出是常见的那一套。压痕用 UNHT-3 纳米压痕仪给出的 .mit 文件。磨损研究用 NST-2 往复摩擦试验机和 DaVinci 1000 微摩擦计的摩擦曲线。Origin 工程文件,名字像 ALL_COF.opjH&WR_vs_Temp.opj 这样。Sigma 300 SEM 和 JEOL 3000 TEM 的显微照片。Filmetrics 的三维轮廓数据。TSF 论文用了 200 到 850 °C 全退火范围的压痕和显微数据;Energy Engineering 那篇加上了非晶态薄膜的频域热反射测量,再用维德曼-弗兰兹分析得出电子贡献了大约 80% 的热导率。两个研究的交集是 Ong Weeliat 在双层样品上做的压痕工作。它给两篇论文都提供了数据——而两边的文件夹里都没有任何标记表明这一点。

数据本身没问题。所有东西都在某个地方归档过。问题是「某个地方」取决于当时是谁在做哪一批样品,而索引活在三个学生的脑子里。还有那份 Word 文档里。

把它灌进记录本

不那么光鲜的那一段。

三个文件夹对应三批样品。28 块样品作为 Item 录入,每块在描述字段里用普通文字写下退火状态、衬底、钨底层厚度。后面可以搜索,但不强行回填进原始记录本里没有的结构化字段。每一项测量挂在样品下面的 Action 上,设备名字写清楚:UNHT-3 用于压痕,NST-2 和 DaVinci 1000 用于摩擦磨损,Sigma 300 和 JEOL 3000 用于显微,Filmetrics 3D 用于三维轮廓。

第 15 号项目树状视图:三个批次文件夹,28 块样品,每一项测量都挂在产生它的样品下面

第 15 号项目。三批样品,28 块,每一项测量都挂在产生它的样品下面。

53 个硬度和折合模量值从 .mit 文件里提取出来,进入结构化的数值系统。每一个都在描述里带着原始文件名和压痕次数:「From weeliat N26.mit (20 indents, STD 3.85)」。文件名不漂亮。这正是关键。五年以后,把一个数字和「谁在什么时候测的」连起来的,就只剩这个文件名了。标准差和均值一起录入——一块测量噪声大的样品在页面上自己会显出来,而不会被洗成一行干净好看的数据。

摩擦实验条件——0.98 N 法向载荷、1000 个循环、2 mm 行程、4 mm/s——以结构化的值挂在每一次摩擦测试 Action 上。整个系列条件相同,但每一次都记录一遍。重点是要能查询,而不是靠记。

每篇论文大约十小时,差不多就这样。

录入之后得到了什么

我没预料到的是,一旦样品都活在一个地方,跨论文 的脉络会自然浮出来。

样品 #26 到 #28——带钨底层的三块双层样品——现在挂在第 23 号文件夹下,描述里明确写着它们出现在哪两篇论文里。Analysis 板块下的一篇 wiki 页面把两个 DOI 和具体产生那些数字的样品绑在一起。一年之后有人读 Energy Engineering 那篇热导率论文,可以直接落在样品 #27 上,看到那篇论文里没收录的结构表征——衍射、压痕、显微照片,都挂在同一个 Item 下面。

体系的相态阶梯——460 °C 以下是非晶,460 °C / 19 h 是单相准晶,到 600 °C 出现层状相,770 °C / 14 h 以上是 2/1 近似相 + Laves 相 + Zr-Ti——现在写在 wiki 页面里,不再散落在两篇论文的方法部分和三个学生的 OneNote 里。这些信息没有一项是新的。它们只是从前没有任何一份文档把它们写到一起。

Analysis 板块下的项目 wiki 总结:相态阶梯、两个 DOI、产生数字的样品链接

那一页 wiki。相态阶梯、两个 DOI、每个数字背后的样品——从前没有任何一份文档写过这些,现在有了。

那是一开始没想到的回报。不是某个结果,也不是可以发表的发现。只是:一个我以为自己已经熟悉的项目,到了 2026 年 3 月,反而比 2022 年我每天都在做它的时候更可读。

档案现在能回答的问题

实验记录本通过一个 MCP 服务器对外提供查询。所以,过去你会丢给一个高年级学生的问题,现在可以丢给连接到数据库的 LLM。最近几周里真实发生过的三个例子。

「画出钢衬底系列的硬度对退火温度的关系。」 它取出相关样品,从结构化字段里读出 H 值,返回的就是 TSF 论文图 3 背后的那张表。不是重新生成的图——是底层的数字,每一个都能追到产生它的那份 .mit 文件。

「我们任何一个项目里,有哪些样品是 Ong Weeliat 测的?」 在数值描述里 grep 一下,找到七条以 weeliat 开头的压痕数据。两分钟。2022 年,这是要去 Slack 群里翻聊天记录的活儿。

「我们实验室发表过的 TiZrNi 最大硬度是多少?」 25 GPa。带 DOI。

那篇 wiki 总结本身也是 3 月一次 LLM 会话写出来的,从项目的结构化内容——list_items(project_id=15) 加上 Zotero 中的论文集合——再通过一次 wiki_create_page 调用把页面发上去。这是这个故事里离 AI 最近的一段。模型并没有从原始文件里抽出结构。它读到的是我们花两周时间塞进去的结构。

几处取舍

标准差也带上,哪怕大得难看。 录入的时候很容易只记均值,悄悄把分布扔掉。别这么做。一个带着噪声的值告诉你哪些样品可信、哪些值得复测、哪些条件已经超出了仪器的可靠分辨范围。一张把噪声藏起来、看起来很整齐的表,比原始文件更糟糕。原始文件至少知道自己是原始的。

不要硬造回填字段。 原始记录本里没有「衬底」这个结构化字段。学生当时怎么写就是怎么写。我们录入 ELN3 的时候保持了这种状态:衬底是写在样品描述里的文字,不是结构化的键。给原始工作里没有的结构硬填一套字段,等于在六年后做你没资格做的判断。搜索可以找到文字。搜索救不了一个错误的结构化值。

值的描述里保留原始文件名。 学生离开、源文件迁移到别的硬盘之后,能活下来的就只剩它了。weeliat N26.mit 不漂亮。weeliat N26.mit (20 indents, STD 3.85) 在 2031 年仍然能读懂。

录入的时候立刻把样品和 DOI 绑起来。 「这块样品的数字在哪篇论文里」——这种关联现在还在你脑子里。五年后不会还在。每篇论文写一段 wiki,十分钟。未来的你会用上。

项目在 3 月 23 日开放只读权限,五位合作者一键加入。他们大多数从来没有亲手碰过这些样品。我没想到的是他们多快就开始翻这个项目——以及翻的是什么。不是已经发表的结果。是那些 没有进入论文 的样品。

在你自己的实验室试试看

如果你有一个已经结束的项目躺在某块硬盘上、发过一两篇论文,你可以照着 TiZrNi 这次大致的预算把它录入一遍。每篇论文十小时。两周左右的晚上时间。

最值得做的,是那些样品被多个东西共享的项目——多篇论文之间、多个学生之间、多台仪器之间。任何一个样品的某次测量出现在两个语境里、而这种关联此刻只活在某个人的脑子里——这种地方回报最大。如果项目就一篇论文、一个学生、一台仪器,理由就弱一些。

不需要把所有东西都录入。花在 已经发表过 的样品身上的一小时,比花在没人引用过的草稿数据上的一小时值钱得多。也包括那些差点进了某张图的样品——后来的查询会反复回到这些样品上。

要做的话,时机是现在。再过两年,其中一个学生会换工作,一块硬盘会坏掉,那三块双层样品下面的钨底层厚度就只活在某个人的记忆里了。它现在还在一个叫 Specimens_List_4_(26-28).docx 的 Word 文档里。这不是一个稳定的状态。记录本才是。

← 返回案例列表