CRM和數據平台電子商務和零售

地址標準化 101:好處、方法和提示

您最後一次發現列表中的所有地址都遵循相同的格式並且沒有錯誤是什麼時候? 從來沒有,對吧? 儘管您的公司可能會採取所有措施來最大程度地減少數據錯誤,但解決數據質量問題(例如由於手動數據輸入而導致的拼寫錯誤、字段缺失或前導空格)是不可避免的。

電子表格數據錯誤尤其是小型數據集的錯誤率在 18% 到 40% 之間。  

Raymond R. Panko 教授

為了解決這個問題,地址 標準化 可以是一個很好的解決方案。 不過,值得首先探討一些關於地址的定義:

  • 地址自動完成: 地址自動完成是一種用戶界面功能,可通過在用戶鍵入時建議可能的匹配項來幫助用戶更快、更準確地輸入地址。 這可以減少出錯的可能性,並確保輸入的地址數據準確完整。
  • 地址清理: 地址清理是更正、更新和刪除地址數據中的錯誤的過程。 這可能包括修正拼寫錯誤、刪除重複的條目、填寫缺失的信息以及更新過時的地址。 目標是確保地址準確且最新,以用於郵寄、地理編碼和客戶數據管理等目的。
  • 地址去重: 重複資料刪除是指識別和刪除資料集中重複記錄(可能包括重複地址)的過程。 這有助於保持數據品質並減少不一致。 它要求對資料進行歸一化或標準化,以提高重複資料刪除率。
  • 地址匹配: 地址匹配是比較和識別不同數據集或系統中的等效地址的過程。 這對於重複數據刪除、數據集成和數據驗證等任務很有用。 它要求每個來源都經過規範化或標準化,以獲得更高的匹配率。
  • 地址規範化: 地址規範化是指將地址轉換為一致格式的過程。 這可能涉及將縮寫轉換為完整形式、將大小寫更改為標準樣式以及根據指定格式對地址組件重新排序。 規範化有助於確保地址在不同的系統和數據集中以一致的方式表示。
  • 地址解析: 地址解析是將地址分解成各個組成部分的過程,例如街道號碼、街道名稱、城市、州和郵政編碼。 解析可能是清理、規範化、標準化和驗證過程中必不可少的步驟。
  • 地址標準化: 地址標準化是使地址符合一組既定規則或特定尋址系統(例如美國郵政服務 (USPS) 準則)的過程。 這可能涉及修改地址組件以滿足標準、添加缺失數據或更正無效信息。 標準化地址更易於比較、排序和分析。
  • 地址驗證: 地址驗證是確認地址有效且可交付的過程。 這通常涉及根據權威來源(例如郵政服務數據庫)檢查地址。 驗證有助於降低無法投遞郵件或包裹的可能性,提高地理編碼的準確性,並保持客戶數據的質量。

這篇文章強調了公司​​如何從中受益 標準化 數據,以及他們應該考慮哪些方法和技巧來實現預期的結果。

郵政編碼的歷史

郵政編碼於 1932 年 1939 月在烏克蘭蘇維埃社會主義共和國首次引入,但在 1941 年被放棄。下一個引入郵政編碼的國家是 1950 年的德國,隨後是 1958 年的新加坡,1963 年的阿根廷,1964 年的美國和瑞士XNUMX 年。

在 1960 年代之前,郵件是根據收件人所在的城市和州進行投遞的,再加上一個表示廣闊區域的兩位數郵政編碼。 1962 年,美國郵政局將該系統擴展到我們所知的現代 郵遞區號的居民 協助郵件分揀,讓越來越多的郵件更輕鬆、更快捷地送到需要去的地方。 事實上,分區改進計劃(ZIP) 被特別選擇來表明信件和包裹到達更快——如果你願意的話——zippier——當使用郵政編碼時。

郵政編碼不僅僅用於劃分郵件。 地址末尾的這五位數字是位置數據中信息量最大的部分。 這些數字表示與每個地址相關的國家區域、次區域、郵局和派送站。

因為它們已被接受為標準,郵政編碼可用於快速識別其他有用的數據。 人口普查記錄和人口統計地圖與郵政編碼相關聯。 很容易看出所有這些數據如何用於發現消費者行為模式並幫助企業做出更好的決策。

當然,美國自 1962 年以來增長了很多,最終,即使是五位數的郵政編碼也不足以滿足需求。 所謂的加四代碼是在 1983 年添加的。最後四個數字增加了地址的精度,通常可以識別幾個街區內的位置。 不幸的是,普通消費者在處理一封郵件或在收集表格上輸入他們的家庭地址時不會添加此代碼,因為加四代碼提供了額外的信息並有助於標準化數據。

美國有 40,000 多個郵政編碼(不包括加四數字),因此研究和解釋的可能性幾乎是無窮無盡的。 但是,數據以某種方式混淆或損壞的可能性也很高,因為一個數字會完全改變數字的含義。 這就是為什麼企業必須驗證他們的郵政編碼數據並確保他們花費大量精力收集的信息實際上以他們認為的方式提供幫助。

美國郵政服務提供免費的地址驗證系統,但與大多數免費的東西一樣,它並非沒有限制。 該系統的客戶支持非常有限,並不總是正常工作,並且一次只能處理一個地址。 幸運的是,有許多第三方軟件解決方案可以為 USPS 驗證系統提供有用的替代方案。 當您將業務的未來建立在您擁有的地址數據上時,值得投入資源以確保數據的清潔和可靠。

什麼是地址標準化?

地址標準化是根據權威數據庫(例如 美國郵政服務 (USPS)。

大多數地址不遵循 USPS 標準,該標準將標準化地址定義為完全拼寫、使用 Postal Service 標準縮寫的縮寫,或者如當前 Postal Service ZIP+4 文件中所示。

郵政地址標準

由於缺少地址詳細信息(例如 ZIP+4 和 ZIP+6 代碼)或標點符號、大小寫、間距和拼寫錯誤,地址條目的格式不一致或不同的公司迫切需要標準化地址。 下面給出了一個例子:

標準化郵寄地址

從表中可以看出,所有地址詳細信息都有一個或多個錯誤,並且沒有一個符合 USPS 要求。

地址標準化 不應與地址匹配和地址驗證混淆。 雖然有類似的情況,但地址驗證是關於驗證地址記錄是否符合 USPS 數據庫中的現有地址記錄。 另一方面,地址匹配是關於匹配兩個相似的地址數據以確定它是否引用相同的實體。

什麼是 USPS 標準化地址?

USPS 推薦的標準美國地址格式通常包括以下部分:

  1. 收件人行:
    • 此行包含收件人的姓名或企業/組織的名稱。 確保正確交付至關重要。
  2. 送貨地址行:
    • 街道號碼: 分配給街道沿線建築物或財產的數字標識符。
    • 預定向(可選): 街道名稱前的方向縮寫(例如,N、S、E、W、NE、NW、SE、SW)。
    • 街道名稱: 街道或道路的名稱。
    • 街道後綴: 街道或道路的類型(例如,St、Ave、Rd、Blvd)。
    • 定向後(可選): 街道名稱後的方向縮寫(例如,N、S、E、W、NE、NW、SE、SW)。
    • 輔助地址單元(可選): 用於指定較大建築物或綜合體中的位置的附加信息(例如,Apt、Unit、Ste、Fl)。
    • 二級單位編號(可選): 與次要地址單元關聯的編號或標識符。
  3. 城市、州和郵政編碼行:
    • 市: 城市或城鎮的名稱。
    • 州: 州或領地的兩個字母縮寫。
    • 郵政編碼: 5 位 ZIP(區域改進計劃)代碼,後跟一個連字符和 4 位擴展名,稱為 ZIP+4 代碼。

格式化標準美國地址時,請務必遵循 USPS 的縮寫、大寫和標點符號指南。 以下是格式正確的地址示例:

John Doe 
1234 N Main St Apt 56 
Springfield, IL 62704

請記住,格式可能會因具體地址而略有不同,但總體結構和組件將保持一致。

標準化地址的好處

除了清理數據異常的明顯原因外,標準化地址還可以為公司帶來一系列好處。 這些包括:

  • 節省驗證地址的時間: 沒有標準化的地址,除非郵件被退回或沒有得到回复,否則無法懷疑用於直郵活動的地址列表是否準確。 通過標準化不同的地址,員工可以通過篩選數百個郵寄地址以確保准確性,從而節省大量工時。
  • 降低郵寄成本: 直郵活動可能會導致錯誤或不正確的地址,從而在直郵活動中產生計費和運輸問題。 標準化地址以提高數據一致性可以減少退回或未送達的郵件,從而提高直郵回复率。
  • 消除重複地址: 不同的格式和錯誤的地址可能會導致向聯繫人發送兩倍的電子郵件,從而降低客戶滿意度和品牌形象。 清理您的地址列表可以幫助您的公司節省浪費的交付成本。

如何標準化地址?

任何地址規範化活動都應符合 USPS 指南,才值得。 使用表 1 中突出顯示的數據,這是地址數據在標準化後的顯示方式。

地址標準化前後

標準化地址涉及 4 個步驟。 這包括:

  1. 進口地址: 將來自多個數據源(例如 Excel 電子表格、SQL 數據庫等)的所有地址收集到一張表中。
  2. 分析數據以檢查錯誤: 執行數據分析,以了解地址列表中存在的錯誤的範圍和類型。 這樣做可以讓您大致了解在執行任何標準化之前需要修復的潛在問題區域。  
  3. 清除錯誤以符合 USPS 指南: 一旦檢測到所有錯誤,您就可以根據 USPS 指南清理地址並對其進行標準化。
  4. 識別並刪除重複地址: 要識別任何重複的地址,您可以在電子表格或數據庫中搜索重複計數或使用精確或 模糊匹配 對條目進行重複數據刪除。

標準化地址的方法

標準化列表中的地址有兩種不同的方法。 這些包括:

手動腳本和工具

用戶可以通過各種手動查找運行腳本和加載項來規範化庫中的地址

  1. 編程語言: Python、JavaScript 或 R 可以讓您運行模糊地址匹配以識別不精確的地址匹配並應用自定義標準化規則以適合您自己的地址數據。
  2. 編碼存儲庫: GitHub 提供代碼模板和 USPS API 可用於驗證和規範化地址的集成。  
  3. 應用程序編程接口: 可以通過以下方式集成的第三方服務 用於解析、標準化和驗證郵寄地址的 API.
  4. 基於 Excel 的工具: YAddress、AddressDoctor Excel Plugin 或 excel VBA Master 等插件和解決方案可以幫助您解析和標準化數據集中的地址。

沿著這條路線走的一些好處是它價格便宜,並且可以快速標準化小型數據集的數據。 但是,使用此類腳本可能會超出幾千條記錄,因此不適合非常大的數據集或分佈在不同來源的數據集。

地址驗證軟件

現成的地址驗證和規範化軟件也可用於規範化數據。 通常,此類工具帶有特定的地址驗證組件 - 例如集成的 USPS 數據庫 - 並具有開箱即用的數據分析和清理組件以及模糊匹配算法,以大規模標準化地址。

軟件也很重要 CASS 證明 來自 USPS 並在以下方面滿足所需的準確度閾值:

  • 5位編碼 – 應用丟失或不正確的 5 位郵政編碼。
  • ZIP+4 編碼 – 應用丟失或不正確的 4 位代碼。
  • 住宅交付指標 (每日攝入量) – 確定地址是住宅地址還是商業地址。
  • 交貨點驗證 (DPV) – 確定地址是否可交付到套房或公寓號碼。
  • 增強的旅行路線 (電子樂透) – 一個序列號,表示在承運人路線內向附加範圍交付的第一次出現,升序/降序代碼表示序列號內的大致交付順序。 
  • 可定位地址轉換系統鏈接 (LACS 鏈接) – 一種為已實施 911 緊急系統的地方市政當局獲取新地址的自動化方法。
  • 套房鏈接® 使客戶能夠提供 改進的業務尋址信息 通過將已知的輔助(套件)信息添加到業務地址,這將允許 USPS 交付排序,否則這是不可能的。
  • 還有更多...

主要優點是它可以輕鬆驗證和標準化存儲在不同系統中的地址數據,包括 有證標準物質, 關係型數據庫 基於 Hadoop 的存儲庫和地理編碼數據以生成經度和緯度值。

至於限制,此類工具的成本可能遠高於手動地址規範化方法。

哪種方法更好?

選擇正確的方法來增強您的地址列表完全取決於您的地址記錄量、技術堆棧和項目時間表。

如果您的地址列表少於 XNUMX 條記錄,那麼通過 Python 或 JavaScript 對其進行標準化可能是更好的選擇。 但是,如果迫切需要使用在多個源中傳播的數據及時實現地址的單一真實來源,那麼 CASS- 認證地址標準化軟件可能是更好的選擇。

地址標準化服務

網上有多種地址標準化平台,可幫助您根據特定規則和標準(例如 USPS 或其他郵政當局製定的規則和標準)清理、規範化、標準化和驗證地址。 其中一些平台包括:

  1. Smarty的 – 為美國和國際地址提供地址驗證、標準化、地理編碼和自動完成服務。
  2. 梅利莎 – 提供多種數據質量工具,包括全球地址的地址驗證、標準化和地理編碼服務。
  3. 洛卡特 – 為全球地址提供地址驗證、地理編碼和地址自動完成服務。
  4. EasyPost – 提供地址驗證和標準化服務,主要關注美國和國際地址的運輸和物流。
  5. 益百利數據質量 – 作為更廣泛的數據質量工具套件的一部分,為全球地址提供地址驗證、標準化和豐富服務。
  6. 信息 – 作為 Informatica 數據質量工具套件的一部分,為全球地址提供地址驗證、標準化和地理編碼服務。

這些平台可能提供 APIs、Web 界面或批處理工具,以幫助您標準化和驗證應用程序或數據集中的地址。 請務必查看每個平台的功能、定價和覆蓋範圍,以確定滿足您特定需求的最佳解決方案。

注意:本文已更新,其中包含來自團隊的郵政編碼歷史信息,網址為 Smarty的.

法赫德·法瑞德

Fahad Fareed 是產品營銷經理 數據階梯 – 領先的實體解析和數據質量軟件公司。 憑藉在 ETL 和數據質量行業的工作經驗,Fahad 為開發人員和最高層管理人員撰寫了最新的見解和技巧,以幫助他們在處理數據管理計劃時做出更好的決策。

相關文章

返回頂部按鈕
關閉

檢測到Adblock

Martech Zone 我們能夠免費為您提供這些內容,因為我們通過廣告收入、聯屬鏈接和讚助從我們的網站中獲利。 如果您在瀏覽我們的網站時刪除廣告攔截器,我們將不勝感激。