1. 压缩技术

    • 图像压缩:了解 JPEG 和 JPEG2000 等标准的工作原理,包括它们如何通过离散余弦变换(DCT)和量化等技术减少图像文件的大小。
    • 跨模态压缩:理解什么是跨模态(从一种数据形式转变为另一种数据形式),例如将视觉数据转换为文本或图形的过程。
  2. 深度学习与神经网络

    • 深度神经网络(DNNs):基础知识,了解其结构、工作原理以及在数据处理中的应用,特别是在图像生成和语义理解方面。
    • 生成对抗网络(GANs):了解 GANs 的基本原理,以及它们如何用于从文本生成图像。
  3. 语义理解

    • 语义保真度:理解在压缩过程中保持数据语义信息的重要性,以及如何评估语义保真度。
  4. 技术术语

    • 离散余弦变换(DCT):要了解 DCT 的数学原理及其在图像压缩中的作用。
    • 量化与霍夫曼编码:了解这些技术如何帮助进一步减少数据量。
  5. 图像生成

    • 从文本生成图像:理解这种技术的应用及其挑战。

是的,你没看错,我是一天开两个坑的勤奋作者(希望有全勤)(如果你关注了我的时间了的话,囧)

现在开始看论文,立字为记(论文 新东西 看起来很有挑战性)

本文提出了跨模态压缩(CMC)——一种用于视觉数据的语义压缩框架,用于将高冗余的视觉数据(如图像、视频等)转化为一个紧凑的、人类可理解的领域(如文本、草图、语义图、归属等),同时保留语义。

比广泛使用的JPEG基线具有更好的压缩性能。

深度神经网络

语义保真度

JPEG 和 JPEG2000 是通用的图像压缩标准,包括可变分辨率、各种色彩空间和不同的传输带宽,同时兼顾软件和硬件的效率。它由众所周知的技术组成,包括 8 × 8 离散余弦变换 (DCT) [1]、量化和霍夫曼编码。

DNNs

从文本生成图像

Reed等[30]证明了通过生成对抗网络(GANs)[14]从文本一致性合成具有语义一致性的图像是可行的,