只有戴冠英的世界

心情随笔

12.2听音乐会

互联网精神

一些简历上有用的东西（私密版）

天津美食回忆录

管理员手册

事上练：我的退租维权实践

【情绪解毒】负面情绪如何变害为宝

漳州美食记录

从24岁开始想养老

五味令人口爽

四月是你的谎言

以撒为什么好玩？

量化

如何用Python绘制美观的k线图

机器学习

2023年数学建模D题思路

阻滞增长模型

狄克斯特拉算法的Python实现

模型评估与选择

普通线性回归、岭回归与Lasso回归

数据包络分析DEA

爬虫

爬虫实战|天天基金网

如何判断页面中是否有图片？

随机请求头

破解微博的since_id

爬虫 | （3）selenium的应用

爬虫 | （2）requests的应用

开发

怎么上传浏览器插件？

flask - Python后端开发（未完待续）

如何在上线的网站里添加广告——以Goodle Adsense为例

如何把本地项目推送到github

怎么将网站添加到百度搜索引擎

网站上线后如何统计访问量

如何上线一个网站

Python

Python作业学生易错点整理

数据预处理概述

如何把dataframe每行最大值高亮

df.resample——如何把日度数据转化为周度数据

如何自动写周报 —— 表格篇

Python实现断点回归

为什么不要使用read_excel('path.csv',sheet_name = 0)?

pandas如何把索引变成列

pip的升级方法

Python课程作业答案

python多进程

nan和None怎么处理

如何将dataframe的某一列移动到第一列的位置

pandas函数：rolling的使用

拆解文件夹中的所有Excel并整合

Python识别邮政编码对应的省市

Javascript

一些javascript练习题

undefined == false?

社会常识

绑定无感知MAC，自动连接校园网（NK篇）

五险一金|公积金

五险一金|医保篇

如何养活小孩——牙齿篇

3.14选调生，公务员全面解读

反式脂肪酸

课程笔记

中级计量经济学

国际经济学

中级微观经济学(base on 尼克尔森）

跨国公司与国际投资

数理经济学

应用计量经济学

新八股小道

玩巫师三学English~（二）

玩巫师三学English~

开放宏观经济学

Stata

stata模糊匹配

Stata新手教程

科研笔记

The Effect of Driving Restrictions on Air Quality in Mexico City

stata模糊匹配

一、需求背景

虚假的需求背景：两组数据，数据中有一些不同，那要怎么样才能把这两组数据匹配在一起呢？举个例子，A数据里面的公司名是“傲娇猪猪公司”，B数据里面的公司名是“傲娇猪猪责任有限公司”，那么这两组数据使用merge的话就无法匹配到一起，因此我们需要使用reclink。

真实的需求背景：客户花钱找我做。

二、数据集的构造

我们就使用最常见的auto.dta吧。构造两个数据集。

正常的数据集：

那么，数据集长下面这样：

notion image

魔改的数据集

我们改掉前15个数据，保留价格，结果如下：

notion image

三、模糊匹配

结果如下：

notion image

可以发现前15个虽然不一样，但基本上都匹配上了。

这里注意：

make是两个数据表需要匹配的键。如果有很多键，举个例子，省份、城市、乡镇，那么都放上去就好啦。

using "bbb.dta"，这里是指需要匹配的另一个数据集。

idmaster(id1) idusing(id2)，这两个分别是现在这个数据集的唯一标识符和需要匹配的数据集的唯一标识符，用_n生成即可。

gen(matchscore)表示生成匹配得分。

四、对relink的进一步探讨

暂无实例，参考这个。

stata: merge 合并; reclink字符串的模糊合并; joinby 命令多对多匹配 - celine227 - 博客园 (cnblogs.com)

reclink 命令还允许对匹配变量设定不同权重。比如，在的例子中，我们认为 city 是最重要的，则仅需增加 vmatch() 选项设定权重。具体示例如下

reclink name city using file2.dta, idmaster(id1) idusing(id2) gen(matchscore) wmatch(1 15)

五、参考资料

stata: merge 合并; reclink字符串的模糊合并; joinby 命令多对多匹配 - celine227 - 博客园 (cnblogs.com)

天作之合——reclink (sohu.com)

Stata：模糊匹配-matchit-reclink| 连享会主页 (lianxh.cn)

应用计量经济学事上练：我的退租维权实践

Twikoo
Utterance

Last update:

你好呀，欢迎浏览我的网站~

心情随笔

12.2听音乐会

互联网精神

一些简历上有用的东西（私密版）

天津美食回忆录

管理员手册

事上练：我的退租维权实践

【情绪解毒】负面情绪如何变害为宝

漳州美食记录

从24岁开始想养老

五味令人口爽

四月是你的谎言

以撒为什么好玩？

量化

如何用Python绘制美观的k线图

机器学习

2023年数学建模D题思路

阻滞增长模型

狄克斯特拉算法的Python实现

模型评估与选择

普通线性回归、岭回归与Lasso回归

数据包络分析DEA

爬虫

爬虫实战|天天基金网

如何判断页面中是否有图片？

随机请求头

破解微博的since_id

爬虫 | （3）selenium的应用

爬虫 | （2）requests的应用

开发

怎么上传浏览器插件？

flask - Python后端开发（未完待续）

如何在上线的网站里添加广告——以Goodle Adsense为例

如何把本地项目推送到github

怎么将网站添加到百度搜索引擎

网站上线后如何统计访问量

如何上线一个网站

Python

Python作业学生易错点整理

数据预处理概述

如何把dataframe每行最大值高亮

df.resample——如何把日度数据转化为周度数据

如何自动写周报 —— 表格篇

Python实现断点回归

为什么不要使用read_excel('path.csv',sheet_name = 0)?

pandas如何把索引变成列

pip的升级方法

Python课程作业答案

python多进程

nan和None怎么处理

如何将dataframe的某一列移动到第一列的位置

pandas函数：rolling的使用

拆解文件夹中的所有Excel并整合

Python识别邮政编码对应的省市

Javascript

一些javascript练习题

undefined == false?

社会常识

绑定无感知MAC，自动连接校园网（NK篇）

五险一金|公积金

五险一金|医保篇

如何养活小孩——牙齿篇

3.14选调生，公务员全面解读

反式脂肪酸

课程笔记

中级计量经济学

国际经济学

中级微观经济学(base on 尼克尔森）

跨国公司与国际投资

数理经济学

应用计量经济学

新八股小道

玩巫师三学English~（二）

玩巫师三学English~

开放宏观经济学

Stata

stata模糊匹配

Stata新手教程

科研笔记

The Effect of Driving Restrictions on Air Quality in Mexico City