文章18
标签6
分类2

【热点评论】语言的标签化与语言改造

灵感来源

偶然翻阅知乎上的这个回答,恰逢最近在「二刷」《1984》一书。

看到作者举的这些例子,觉得很有趣,果然灵感来源于生活(逼乎)

现在讨论文艺作品是不是很喜欢谈三观。《霍乱时期的爱情》主角是渣男,滥交;《水浒传》是一批没文化的流氓;《雷雨》是狗血故事,多角恋;《洛丽塔》恋童癖,恶心极了;《三个火枪手》讲婚外情;《了不起的盖茨比》主角更是彻头彻尾的渣女……这些文学有什么好看的?还有各种影视剧,有多少良心剧,因为塑造反派的角色过于鲜明,或者一些角色过于现实,被指责“三观不正”。(拿最近来说,余欢水里的妻子角色,因“女拳”问题上了热搜。)

日常生活或者在网络上讨论问题,是不是也很容易以,“女拳”,“杠精”,“小粉红”,“键政”等等给人贴标签?例,“你是杠精,我不和你吵”。然后讨论问题张口闭口,“资本主义”,“理想主义”,“内卷竞争”,“时代红利”……

日常生活,社会评价一个人的行为,家长老师常用的词汇,是不是都是“努力”,“奋斗”,“大城市”,“优秀,“未来会好的”,“xx年纪必须做xx”,“年轻就是奋斗”,“成功”……

作者:苏氨酸·季铵碱
链接:https://www.zhihu.com/question/402959121/answer/1297896811


个人看法

“历史旋转门”
如今的互联网舆论,有很多语言(词汇)的高度标签化,类似于 改革开放之前,中国电影中高度脸谱化的人物形象。这两者的共同点就是过度简化。所谓脸谱化,举个例子——好人就是纯粹的好人,坏人就是纯粹的坏人。
而互联网语境中的标签化,效果也类似。在评价“政治流派”的时候,很多人只知道用“左”和“右”。这就有一个很尴尬的问题——某个人因为某条言论就被“开除左藉”,然后又被扣上“形左实右”的帽子。到底“形左”是指哪些,“实右”又是什么,“说不清”。
为什么说不清呢,因为“左/右”只能表达一个维度的两端,而不同的政治流派,会牵涉到多种维度

成因
思维有两个维度——习惯 & 能力。
有些人有能力,无习惯;
有些人有习惯,无能力;
当然,大部分人两者皆无。
“语言标签化”作为一种“过度简化”的表达形态,也就非常迎合(适合)那些两者皆无的人。
而这类人的比例很大,又反过来助长了“语言标签化”的现象——不了解某种标签的人就无法参与讨论,促使更多人习惯于标签化语言。

区别
上述所讨论的“语言标签化”,同于《1984》中所说的“语言改造”。
两者有某些共同点——两者都倾向于削弱沟通双方的思考。
但“语言改造”对思维的削弱会更彻底。


延伸阅读

一元化归因(fallacy of the single cause)

2020.7.11周论文精选与精读

No 1. *《Debiased Contrastive Learning》

技术背景:

Motivation & Framework

很多研究者认为,深度学习的本质就是做两件事情:Representation Learning(表示学习)和 Inductive Bias Learning(归纳偏好学习)。目前的一个趋势就是,学好了样本的表示,在一些不涉及逻辑、推理等的问题上,例如判断句子的情感极性、识别图像中有哪些东西,AI 系统都可以完成非常不错;而涉及到更高层的语义、组合逻辑,则需要设计一些过程来辅助 AI 系统去分解复杂的任务,ICLR 19 的一篇 oral 就是做的类似的事情。因为归纳偏好的设计更多的是 任务相关的,复杂的过程需要非常精心的设计,所以很多工作都开始关注到表示学习上,NLP 最近大火的预训练模型,例如 BERT,就是利用大规模的语料预训练得到文本的好的表示。那么,CV 领域的 BERT 是什么呢?答案已经呼之欲出,就是对比学习。

Illustrative Example
Compare dollar
当你被要求画一张美元,左边是没有钞票在你面前,右边是面前摆着一张钞票画出来的结果

上面这个例子来自于 Contrastive Self-supervised Learning 这篇 Blog,表达的一个核心思想就是:尽管我们已经见过很多次钞票长什么样子,但我们很少能一模一样的画出钞票;虽然我们画不出栩栩如生的钞票,但我们依旧可以轻易地辨别出钞票。基于此,也就意味着表示学习算法并不一定要关注到样本的每一个细节,只要学到的特征能够使其和其他样本区别开来就行,这就是对比学习和对抗生成网络(GAN)的一个主要不同所在。

Contrastive Learning Framework

既然是表示学习,那么我们的核心就是要学习一个映射函数 $f$ ,把样本 $x$ 编码成其表示 $f(x)$ ,对比学习的核心就是使得这个 $f$ 满足下面这个式子:

$$s ( f(x), f(x^+)) >> s ( f(x), f(x^-))$$

这里的 $x^+$ 就是和$x$类似的样本, $x^-$ 就是和$x$不相似的样本, $s(\cdot,\cdot)$ 这是一个度量样本之间相似程度的函数,一个比较典型的 score 函数就是就是向量内积,即优化下面这一期望:

$$\underset{x, x^{+}, x^{-}}{\mathbb{E}}\left[-\log \left(\frac{e^{f(x)^{T} f\left(x^{+}\right)}}{e^{f(x)^{T} f\left(x^{+}\right)}+e^{f(x)^{T} f\left(x^{-}\right)}}\right)\right]$$

如果对于一个 $x$ ,我们有 $1$ 个正例和 $N-1$ 个负例,那么这个 loss 就可以看做是一个 N 分类问题,实际上就是一个交叉熵,而这个函数在对比学习的文章中被称之为 InfoNCE。事实上,最小化这一 loss 能够最大化 $f(x)$ 和 $f(x^+)$ 互信息的下界,让二者的表示更为接近。理解了这个式子其实就理解了整个对比学习的框架,后续研究的核心往往就聚焦于这个式子的两个方面:

如何定义目标函数?最简单的一种就是上面提到的内积函数,另外一中 triplet 的形式就是 $l = max(0, η + s (x, x^+) - s (x, x^-))$ ,直观上理解,就是希望正例 pair 和负例 pair 隔开至少 $η$ 的距离,这一函数同样可以写成另外一种形式,让正例 pair 和负例 pair 采用不同的 $s$ 函数,例如, $s(x, x^+) = \| \max (0, f(x)-f(x^+)\|$ , $s(x, x^+) = \| \max (\eta, f(x)-f(x^-)\|$ 。如何构建正例和负例?针对不同类型数据,例如图像、文本和音频,如何合理的定义哪些样本应该被视作是 $x^+$,哪些该被视作是 $x^-$,;如何增加负例样本的数量,也就是上面式子里的 $N$ ?这个问题是目前很多 paper 关注的一个方向,因为虽然自监督的数据有很多,但是设计出合理的正例和负例 pair,并且尽可能提升 pair 能够 cover 的 semantic relation,才能让得到的表示在 downstream task 表现的更好。

来源:https://zhuanlan.zhihu.com/p/141141365


No 2. 《The Eyes Have It: An Integrated Eye and Face Model for Photorealistic Facial Animation》
这篇文章已发表于ACM Transactions on Graphics:https://doi.org/10.1145/3386569.3392493
眼球模型的实时单独渲染和与表情的组合似乎是它的优势


No 3. 《Deep Learning-based Computational Pathology Predicts Origins for Cancers of Unknown Primary》
No 4. *《The Art of Natural Language Processing: Classical, Modern and Contemporary Approaches to Text Document Classification :: SSRN》
No 5. *《NVAE: A Deep Hierarchical Variational Autoencoder》
No 6. 《A Survey on Recent Progress in the Theory of Evolutionary Algorithms for Discrete Optimization》
No 7. 《ReXNet: Diminishing Representational Bottleneck on Convolutional Neural Network》
No 8. 《Knowledge Distillation Beyond Model Compression》
No 9. 《LSTM and GPT-2 Synthetic Speech Transfer Learning for Speaker Recognition to Overcome Data Scarcity》
No 10. 《Learning Search Space Partition for Black-box Optimization using Monte Carlo Tree Search》
No 11. 《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention》
No 12. 具有周期激活函数的隐式神经网络表示
No 13. 《3D Topology Transformation with Generative Adversarial Networks》
No 14. 《Big Self-Supervised Models are Strong Semi-Supervised Learners》
No 15. 《Early-Learning Regularization Prevents Memorization of Noisy Labels》
No 16. 《How benign is benign overfitting?》
No 17. 《The Global Landscape of Neural Networks: An Overview》
No 18. 《Language-agnostic BERT Sentence Embedding》
No 19. *《SurVAE Flows: Surjections to Bridge the Gap between VAEs and Flows》
No 20. *《The Measure of Intelligence》
No 21. 《Validation and generalization of pixel-wise relevance in convolutional neural networks trained for face classification》
No 22. 《The Go Transformer: Natural Language Modeling for Game Play》
No 23. 《Graph Neural Network Based Coarse-Grained Mapping Prediction》
No 24. 《Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval》
No 25. 《Wiki-CS: A Wikipedia-Based Benchmark for Graph Neural Networks》
No 26. 《DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference》
No 27. 《Collaborative Learning for Faster StyleGAN Embedding》
No 28. *《In Search of Lost Domain Generalization》
No 29. 《DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference》
No 30. 《Federated Learning with Compression: Unified Analysis and Sharp Guarantees》

来源:爱可可老师 https://www.yuque.com/fly51fly/gvl1ma/esp4c7

介绍OneIndexR——低成本全球CSDS服务

CSDS: Cloud Storage Distribute Service

鸣谢原作者

二次开发并使用的背景API,作者:小歪
二次开发并使用的nexmoes模板,作者:dl233,遵循Apache 2.0 License;
二次开发并使用的OneIndex Bottle Edition,作者:SomeBottle
二次开发并使用的OneIndex,作者:Donwa(现已删库);
使用wangziyingwenAutoApiS项目进行续期;
使用字节跳动西瓜播放器
使用Mozillapdf.js

二次开发和使用均已直接或间接获得授权。


最初想法

由于PanDownload事件,找一个安全且容量大的网盘似乎成了每个人的刚需,恰好想起来自己封存已久的Microsoft A1套餐——But I want more.
在万能的搜索引擎上得知Microsoft E5套餐的开发者版本,遂申请。(截止2022年2月已延期成功6次)

最初,列目录软件我使用了OneList(也是个不错的项目,基于Java),发现下载速度并不尽人意,二次开发也没有头绪,于是目光转向了OneIndex这个老牌的项目。

在国内高速访问,CDN 是必需的功能。事实上此功能的修改在onedrive.php内可以通过一句话实现。


应用场景

  1. 冷储存(储存稳定,容量大,上传下载速度也可以接受)
  2. 文件同步(2020年初Onedrive实现了差异同步,经vc加密的磁盘文件也可以快速同步)
  3. 图床(事实上,本站早期的图床就使用了OneIndexR)
  4. 文件分享和在线播放
  5. 仓鼠症的治疗方案

……


使用技巧

Onedrive客户端同步任意目录(或文件)——
原理:MKLINK创建目录(或文件)符号链接

CMD语法:MKLINK [[/D] | [/H] | [/J]] Link Target
说明:
/D 创建目录符号链接而不是文件符号链接(默认为文件符号链接)
/H 创建硬链接而不是符号链接
/J 创建目录连接点
Link 指定新的符号链接名称
Target 指定新链接引用的路径(绝对路径或者相对路径均可)

RaiDrive挂载Onedrive——
原理:通过Microsoft Graph API进行文件上下传操作
官网:https://www.raidrive.com/download


发展方向

优化缓存机制√、优化在线播放√、实现CDN加速上传、加快图床速度×、实现用量分析×、实现多用户盘×烂尾……