一、引言
当前,重庆地区的文物修复工作面临着诸多挑战。由于考古出土的器物具有偶然性和不完整性等特点,待修复的器物常常存在器体残损、图样碎片化等问题。人工智能技术的迅猛发展为解决这些问题提供了新的可能性,并且进一步深化了考古研究。例如,PyPotteryLens框架和卷积神经网络(CNN)等技术在考古领域的应用探索,不仅提高了考古数据分析的效率和精度,还提升了修复工作的效率和可靠性,使得基于大数据的量化分析和模式识别研究成为现实。接下来的两个应用案例将展示人工智能技术如何通过收集和研究,将以往大量且难以进行大数据归纳的信息,高效而精确的分析处理,为古代社会结构、生产模式及文化交流研究提供新的视角。下面就对《PyPotteryLens:一个用于考古陶器文献自动数字化的开源深度学习框架》与《基于绘画风格的陶工识别:使用卷积神经网络技术》两篇外文文献做深入的解读。
二、PyPotteryLens框架:文献和报告中陶器线图提取、对比的自动化解决方案
在《PyPotteryLens:一个用于考古陶器文献自动数字化的开源深度学习框架》中提出:在传统考古学领域,陶器研究和修复是非常重要的研究方向之一。除了直接对陶器进行现场观察外,仔细比较不同考古和博物馆机构发布的报告或文献中的陶器线图也极为关键。然而,考古文献和报告数量庞大,仅凭人力和记忆进行检索,难以实现全面的查询和对比。此外,一些旧文献和报告中的图像质量不佳,导致识别准确率受限。基于这些情况,罗马大学的Lorenzo Cardarelli教授提出了一个创新方案——基于深度学习的考古陶器文档自动化数字化软件PyPotteryLens。
文章中提到,PyPotteryLens本质上是一个开源的深度学习框架,深度学习特指基于深层神经网络模型和方法的机器学习。其最核心的技术优势在于能够自动提取特征,这些提取出的特征被称为深度特征。与传统人工设计的特征相比,深度特征具有更强的表达能力和更高的稳定性。在陶器研究领域,类型学主要依据陶器的整体形态、口沿、肩部、底部等部位的形状与特征,以及纹饰等装饰性特征进行分类。这些信息在陶器的线图中得到了详尽地展现。深度学习的自动特征提取能力恰好适用于此类特征的提取。通过在软件上对已有的陶器线图进行提取和训练(即输入已知的陶器线图及其相关信息,并进行人工检查和验证),软件随后能够对新输入的线图进行分类(即输入新的、待研究的陶器线图),利用深度学习技术找到与已训练数据中最相似的陶器线图,或者对线图进行分组。
|
图1 实例分割技术逻辑展示 |
为了完成这一过程,首先需要能够被精确地识别并提取陶器的线图。正如研究者们在报告中常见的那样,线图通常为了节省空间而密集排列,一个图像中可能包含多个彼此接近且不独立于某个小区域的陶器线图。通过YOLO架构可以解决这一问题。YOLO(You Only Look Once)是一种先进的深度学习目标检测算法,主要用于目标检测领域(机器视觉的一个子领域),通过单次查看即可完成对图像中物体的识别和定位。此外,它还实现了“实例分割”(见图 1),实例分割结合了语义分割(Semantic Segmentation)和目标检测(Object Detection)的特点,既可以在像素层面上进行分类,也可以定位出不同实例,即使它们属于同一类别。
实例分割方法确保了对陶器线图的识别和提取的精确性。文章作者Lorenzo Cardarelli教授通过展示韦奥(法尔内塞岛)Località“Quattro”Villanovan墓地出土的陶器案例(图 2),阐释了该方法的优势:它能够移除目标区域中除检测对象外的所有器物元素,并精准地识别出器物线图本身。此外,这一过程也允许人工进行修改或补充。
|
图2 陶器线图实例切割效果 |
在完成前述工作之后,该技术的研究者进入了图像提取深度学习的实施阶段。在文章中,研究者Lorenzo Cardarelli教授采用了YOLO.v8和YOLO.v11两个模型进行分析,选取了13本不同的出版物,研究时间跨度为公元前2000年至1000年。研究对象包括意大利多个遗址和墓葬出土的文物,共有4097个线图经过人工注释,以对考古陶器实例进行微调,使其适用于深度学习模型。其中,80%的线图被用作训练集,剩余的20%作为验证集。此外,还有一个分类模型致力于标准化陶器线图的展示和解读。该模型有两个主要目标:首先,确定线图描绘的是完整器物还是残片;其次,对线图进行标准化处理,确保口部朝上,截面图为左侧一半。该模型共训练了4563个线图,同样地,80%作为训练集,20%作为验证集。另外,该技术的研究者还设计了一个自注释模块,旨在通过新数据促进模型的持续改进。用户可以进行手动调整,但这一过程需要相当专业的代码操作(图 3)。
图3 自注释模块创建新的训练数据 |
在完成提取和训练的步骤之后,进入了应用阶段。PyPotteryLens的软件界面经过简化和直观化处理,使得用户能够轻松手动控制覆盖区域。同时,《PyPotteryLens:一个用于考古陶器文献自动数字化的开源深度学习框架》这篇文章中也提供了环境、软件、模型的开源信息以及完整的使用流程。(https://github.com/lrncrd/PyPottery/tree/PyPotteryLens)。
图4 软件界面 |
在最终的验证表现中,YOLO.v8和YOLO.v11两个模型几乎在全部参数上都达到了96%以上,v8的性能略高于v11(≈10%),在使用希腊罗马时期和厄瓜多尔前哥伦布时期的图片上也表现出相似的结果,甚至性能全部在98%以上,而一般超过50%就被认为是非常好的性能,这一结果同时也反映出该技术非常适合陶器线图的研究工作。
图5 输入样品与筛选的最相似样品示例 |
综上所述,《PyPotteryLens:一个用于考古陶器文献自动数字化的开源深度学习框架》这篇文章展现了:PyPotteryLens在考古陶器文档和记录自动化方面的能力相当准确,在多个时期和地点的分析中始终保持高性能指标,在几乎所有情况下,准确率和召回率都超过95%。实际应用的高准确性甚至超出了训练数据集,正如成功应用于不同的考古背景所证明的那样,即使在不同的陶器文化风格或者不同文献材料的出版格式上,该框架也具有强大的识别和分析能力。
三、卷积神经网络CNN在陶工彩陶彩绘风格量化分析中的探索
在《基于绘画风格的陶工识别:使用卷积神经网络技术》这篇文献中提出,过去对彩陶的研究往往集中在纹饰类型和颜料种类上,而对彩绘“风格”的探讨相对较少。彩绘风格可以视为陶工的“指纹信息”,它与陶工本人或其所属群体紧密相关。具体而言,具有三个特征:首先,这种风格应当具有可识别性;其次,能够揭示陶工的背景信息,包括其独特的技能或习惯,从而反映陶工群体的独特性;第三,应当具有可区分性,即与其他陶工群体的“风格”有明显差异。获取和分析这些信息有助于探讨不同考古学文化中陶工人数、陶器生产组织以及与社会复杂化的关系等问题。基于此,金秀妍博士和李新伟教授尝试运用卷积神经网络技术,根据绘画风格来识别考古遗址中不同陶工或陶工群体。
文章中提到,卷积神经网络(Convolutional Neural Networks, CNN)是一种强大的深度学习模型,通常用于分析视觉数据。与传统方法不同,CNN能够自动从原始图像中检测和提取复杂的特征,包括笔触、颜色模式和组成元素。这些特征通过多层次的细化,使网络能够学习并区分独特的艺术风格。通过分析这些特征,CNN已经能够做到根据风格、艺术家或历史时期对图像进行分类,使其成为艺术鉴定和风格分析等任务的宝贵工具。近年来,利用CNN技术进行考古图像识别的研究逐渐增多,这包括使用CNN来分类和识别考古人工制品(例如陶器、壁画、雕塑等)的风格,以区分不同文化、不同时期或不同制造者的特征。
《基于绘画风格的陶工识别:使用卷积神经网络技术》这篇文章的研究以Efficient Net B3作为骨干网络,采用Python 3.9和PyTorch 2.4.1以及Conda 24.11.1作为主要计算环境,构建了一个专门针对陶器点状图案的识别系统。首先,选取了现代彩陶作坊中三位陶工绘制的点状装饰作为研究对象。使用Hikvision MVL-LBT-1048-118M58远心镜头相机对每位陶工绘制的点图案进行了详细测量和拍照,并进行了色调、分辨率和边缘清晰度的调整(见图 6)。通过这些处理,利用CNN技术将这些生产背景未知的点状装饰进行准确地风格差异划分,从而将其归类于相应的陶工。点的特征标准包括三个:1.圆点接近圆的程度;2.圆点的形状;3.点结构的变化程度。
图6 圆点照片的处理过程 |
YJL(此及以下均为姓名代称)绘制的点图案最接近完美圆形,形状较为平衡,结构稳定;YFL绘制的点图案最不规则,结构变化最大;YZQ的点图案则介于两者之间。每人数据约350张,被用作CNN模型的训练集和测试集,以训练模型识别不同制陶者的绘画风格。通过50个训练周期迭代优化,在第45次训练中验证性能达到最优,将三位陶工的绘制的各两件陶器上的图案进行分析,正确识别标准的点图案数量均达到或超过了总数的一半,可以将陶器与陶工正确匹配。(见图7)
图7 三位陶工绘制的典型点形式a:YJL,b:YFL,c:YZQ |
随后,金秀妍博士和李新伟教授的研究团队将训练好的CNN模型应用于庙底沟遗址出土的陶器分析。庙底沟遗址是中国新石器时代的重要遗址,出土了大量具有绘画装饰的陶器。研究团队选取了遗址二期出土的34件陶器作为分析对象,通过拍照和预处理得到图案的图像数据。然后,使用训练好的CNN模型对这些图像数据进行分类,在多次迭代之后,成功地将陶器分为至少三个组别,每组都表现出独特的绘画风格。这些组别分别被推测为可能由不同的制陶者或制陶者群体绘制。通过进一步的定量分析和装饰组合比较,研究验证了CNN模型的识别结果。例如,A组陶器的点图案最接近完美圆形,显示出较高的技术水平;B组陶器的点图案最不规则,结构变化最大;C组陶器的点图案则介于两者之间,图案较为稳定。(见图8)
图8 由A、B和C三组绘制的点的不圆度的箱形散点图 |
此外,金秀妍博士和李新伟教授还在研究中加入了鸟、花、眼睛、半圆、弧边三角形等纹饰进行整体绘画风格分析,庙底沟彩陶的ABC三组又出现了更多的特征(图 9):A的纹饰种类相对较少,B的绘画风格表现出相当大的结构变化,反映了一种更随机的方法,采用了各种各样的装饰元素,包括复杂的圆形钩图案和圆点与弧线相结合的图案以及三角形鸟元素,C的圆点风格与A的有些相似,但其纹饰种类在A与B之间,纹饰重叠较少。
|
图9 A、B、C三组彩绘风格展示 |
综上所述,《基于绘画风格的陶工识别:使用卷积神经网络技术》这篇文章展现了CNN技术在识别陶器绘画风格方面展现了显著的优势。通过对现代陶器作坊和古代遗址出土陶器的深入分析,研究成功地鉴别出具有不同绘画风格的陶器,并推测出可能存在不同的陶工或制陶者群体。这一方法不仅为考古学研究引入了新的技术手段,而且为理解古代陶器生产的社会组织模式提供了有力的证据支持。
四、技术融合与考古研究、器物修复新视角
通过研读《PyPotteryLens:一个用于考古陶器文献自动数字化的开源深度学习框架》和《基于绘画风格的陶工识别:使用卷积神经网络技术》这两篇文章,我们对PyPotteryLens和CNN模型的创新应用有了更加深入的了解。
PyPotteryLens的成功应用标志着考古数字化正从“工具辅助”阶段迈向“智能驱动”的新时代。其核心技术优势体现在精准度和可扩展性上,检测模型的高精度已经达到了学术应用的要求。借助这一自动化的软件,可以对现有的陶器研究进行统计分析。例如:归纳不同遗址中属于同一考古学文化的陶器,研究它们之间的相似程度;或是分析同一遗址中不同风格或本地仿外地的陶器,明确它们之间的差异程度;又或者在遗址中发现不属于本文化的陶器时,利用已训练的周边文化陶器数据进行搜索,以更高效的方式确定陶器的来源。重庆地区拥有丰富的考古学文化,并与周边省份有着密切的交流,在陶器修复过程中,可以针对残片使用这种方法,从而筛选出最匹配的修复补配形状。此外,该框架生成的标准化数据适用于机器学习,基于此数据还可以进行纹饰分析、产地溯源等更为复杂的考古研究任务。
图10 关口一号墓彩绘漆木器、巫山大溪彩绘陶器、西汉彩绘陶器 |
CNN模型需要通过不断迭代优化模型参数,使其能够适应和处理不同文化遗址中陶工的制作风格,对彩绘风格的分组应用,在重庆地区瓷器、彩绘陶器、彩绘漆木器、壁画、瓷器的修复和分析中均可以通过这一方法进行训练并分组,能够辅助修复工作补全缺失部分彩绘和图样。另外此类器物一般由专业技术人员稳定生产,如果可以分类出不同风格,就可以对生产者数量或者生产组织状况进行讨论,也可以结合当时历史状况和政治影响区域进行分析。
五、技术应用的挑战与展望
展望未来,对PyPotteryLens进行三方面的改进将有助于进一步提升其学术影响力:首先,引入视觉Transformer和风格迁移技术,以适应不同出版文献的绘图风格差异;其次,整合自然语言处理模型,自动提取文献中的地层学信息与年代描述,构建全结构化数据库;最后,拓展多模态学习,将陶器图像、原料种类数据与化学成分分析等信息相结合,推动考古解释从经验推断向数据验证演进。
目前,CNN分析主要集中在点图案这一特定方面,忽略了其他装饰风格和元素的分析,同时也容易受到人为选择纹饰的影响。未来的研究可以进一步扩展分析范围,包括线条、色彩、构图等多个方面,全面获取陶器表面装饰信息,从而更全面地揭示陶器绘画风格的多样性。同时,未来的研究还可以将CNN技术应用于陶器生产的整个链条中,包括成型、烧制等阶段的分析,以更深入地理解古代陶器生产的工艺和技术。这不仅能够加深我们对特定考古和文化背景下陶器生产活动的微观理解,也为探索陶器生产的组织模式、技能传承和文化交流提供了新的视角和方法论。
参考文献:
[1]《PyPotteryLens: AN OPEN-SOURCE DEEP LEARNING FRAMEWORK FOR AUTOMATED DIGITISATION OF ARCHAEOLOGICAL POTTERY DOCUMENTATION》
[2]《Painting style‑based recognition of potters: using convolutional neural network techniques》
文稿:宫鑫