大數據(big data,mega data)或稱(chēng)巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長(cháng)率和多樣化的信息資產(chǎn)。 在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫(xiě)的《大數據時(shí)代》中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據進(jìn)行分析處理。大數據的5V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值密度)、Veracity(真實(shí)性)。隨著(zhù)人工智能的大量應用,大數據翻譯也應用廣泛起來(lái),下來(lái)海歷陽(yáng)光翻譯公司簡(jiǎn)單總結一些大數據的常用詞匯。
??一、大數據
??英文:big data,mega data
??大數據,或稱(chēng)巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力的海量、高增長(cháng)率和多樣化的信息資產(chǎn)。
??二、大數據的4V:
??Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)
??三、當前用于分析大數據的工具主要有開(kāi)源與商用兩個(gè)生態(tài)圈
??開(kāi)源大數據生態(tài)圈:
??1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 漸次誕生,早期Hadoop生態(tài)圈逐步形成。
??2、. Hypertable是另類(lèi)。它存在于Hadoop生態(tài)圈之外,但也曾經(jīng)有一些用戶(hù)。
??3、NoSQL,membase、MongoDb
??商用大數據生態(tài)圈:
??1、一體機數據庫/數據倉庫:IBM PureData(Netezza), OracleExadata, SAP Hana等等。
??2、數據倉庫:TeradataAsterData, EMC GreenPlum, HPVertica 等等。
??3、數據集市:QlikView、 Tableau 、 以及國內的Yonghong Data Mart 。
??四、Hadoop
??Hadoop是一個(gè)由Apache基金會(huì )所開(kāi)發(fā)的分布式系統基礎架構。
??用戶(hù)可以在不了解分布式底層細節的情況下,開(kāi)發(fā)分布式程序。充分利用集群的威力進(jìn)行高速運算和存儲。
??Hadoop實(shí)現了一個(gè)分布式文件系統(Hadoop Distributed File System),簡(jiǎn)稱(chēng)HDFS。HDFS有高容錯性的特點(diǎn),并且設計用來(lái)部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來(lái)訪(fǎng)問(wèn)應用程序的數據,適合那些有著(zhù)超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪(fǎng)問(wèn)(streaming access)文件系統中的數據。
??Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,則MapReduce為海量的數據提供了計算。
??五、Apache基金會(huì )
??Apache軟件基金會(huì )(也就是Apache Software Foundation,簡(jiǎn)稱(chēng)為ASF),是專(zhuān)門(mén)為支持開(kāi)源軟件項目而辦的一個(gè)非盈利性組織。在它所支持的Apache項目與子項目中,所發(fā)行的軟件產(chǎn)品都遵循Apache許可證(Apache License)。
??六、MapReduce
??MapReduce是一種編程模型,用于大規模數據集(大于1TB)的并行運算。概念”Map(映射)”和”Reduce(歸約)”,和它們的主要思想,都是從函數式編程語(yǔ)言里借來(lái)的,還有從矢量編程語(yǔ)言里借來(lái)的特性。它極大地方便了編程人員在不會(huì )分布式并行編程的情況下,將自己的程序運行在分布式系統上。 當前的軟件實(shí)現是指定一個(gè)Map(映射)函數,用來(lái)把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce(歸約)函數,用來(lái)保證所有映射的鍵值對中的每一個(gè)共享相同的鍵組。
??七、BI
??商業(yè)智能(BI,Business Intelligence)。
??BI(Business Intelligence)即商務(wù)智能,它是一套完整的解決方案,用來(lái)將企業(yè)中現有的數據進(jìn)行有效的整合,快速準確的提供報表并提出決策依據,幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營(yíng)決策。
??八、CRM
??CRM即客戶(hù)關(guān)系管理,是指企業(yè)用CRM技術(shù)來(lái)管理與客戶(hù)之間的關(guān)系。在不同場(chǎng)合下,CRM可能是一個(gè)管理學(xué)術(shù)語(yǔ),可能是一個(gè)軟件系統。通常所指的CRM,指用計算機自動(dòng)化分析銷(xiāo)售、市場(chǎng)營(yíng)銷(xiāo)、客戶(hù)服務(wù)以及應用等流程的軟件系統。它的目標是通過(guò)提高客戶(hù)的價(jià)值、滿(mǎn)意度、贏(yíng)利性和忠實(shí)度來(lái)縮減銷(xiāo)售周期和銷(xiāo)售成本、增加收入、尋找擴展業(yè)務(wù)所需的新的市場(chǎng)和渠道。CRM是選擇和管理有價(jià)值客戶(hù)及其關(guān)系的一種商業(yè)策略,CRM要求以客戶(hù)為中心的企業(yè)文化來(lái)支持有效的市場(chǎng)營(yíng)銷(xiāo)、銷(xiāo)售與服務(wù)流程。
??九、云計算
??云計算(cloud computing)是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過(guò)互聯(lián)網(wǎng)來(lái)提供動(dòng)態(tài)易擴展且經(jīng)常是虛擬化的資源。云是網(wǎng)絡(luò )、互聯(lián)網(wǎng)的一種比喻說(shuō)法。過(guò)去在圖中往往用云來(lái)表示電信網(wǎng),后來(lái)也用來(lái)表示互聯(lián)網(wǎng)和底層基礎設施的抽象。因此,云計算甚至可以讓你體驗每秒10萬(wàn)億次的運算能力,擁有這么強大的計算能力可以模擬核爆炸、預測氣候變化和市場(chǎng)發(fā)展趨勢。用戶(hù)通過(guò)電腦、筆記本、手機等方式接入數據中心,按自己的需求進(jìn)行運算。
??十、云計算相關(guān)
??分布式計算(Distributed Computing)
??并行計算(Parallel Computing)
??效用計算(Utility Computing)
??網(wǎng)絡(luò )存儲(Network Storage Technologies)
??虛擬化(Virtualization)
??負載均衡(Load Balance)
??熱備份冗余(High Available)
??十一:數據倉庫
??數據倉庫,英文名稱(chēng)為Data Warehouse,可簡(jiǎn)寫(xiě)為DW或DWH。數據倉庫是為企業(yè)所有級別的決策制定過(guò)程提供支持的所有類(lèi)型數據的戰略集合。它是單個(gè)數據存儲,出于分析性報告和決策支持的目的而創(chuàng )建。 為企業(yè)提供需要業(yè)務(wù)智能來(lái)指導業(yè)務(wù)流程改進(jìn)和監視時(shí)間、成本、質(zhì)量和控制。
??十二:非關(guān)系型數據庫
??NoSQL,泛指非關(guān)系型的數據庫。隨著(zhù)互聯(lián)網(wǎng)web2.0網(wǎng)站的興起,傳統的關(guān)系數據庫在應付web2.0網(wǎng)站,特別是超大規模和高并發(fā)的SNS類(lèi)型的web2.0純動(dòng)態(tài)網(wǎng)站已經(jīng)顯得力不從心,暴露了很多難以克服的問(wèn)題,而非關(guān)系型的數據庫則由于其本身的特點(diǎn)得到了非常迅速的發(fā)展。NoSQL數據庫的產(chǎn)生就是為了解決大規模數據集合多重數據種類(lèi)帶來(lái)的挑戰,尤其是大數據應用難題。
??十三:結構化數據
??結構化數據(即行數據,存儲在數據庫里,可以用二維表結構來(lái)邏輯表達實(shí)現的數據)而言,不方便用數據庫二維邏輯表來(lái)表現的數據即稱(chēng)為非結構化數據,包括所有格式的辦公文檔、文本、圖片、標準通用標記語(yǔ)言下的子集XML、HTML、各類(lèi)報表、圖像和音頻/視頻信息等等。
??十四:結構化分析方法
??結構化分析方法(Structured Method,結構化方法)是強調開(kāi)發(fā)方法的結構合理性以及所開(kāi)發(fā)軟件的結構合理性的軟件開(kāi)發(fā)方法。結構是指系統內各個(gè)組成要素之間的相互聯(lián)系、相互作用的框架。結構化開(kāi)發(fā)方法提出了一組提高軟件結構合理性的準則,如分解與抽象、模塊獨立性、信息隱蔽等。針對軟件生存周期各個(gè)不同的階段,它有結構化分析(SA)和結構化程序設計(SP)等方法。
??十五:半結構化數據
??和普通純文本相比,半結構化數據具有一定的結構性,但和具有嚴格理論模型的關(guān)系數據庫的數據相比。OEM(Object exchange Model)是一種典型的半結構化數據模型。
??半結構化數據(semi-structured data)
??在做一個(gè)信息系統設計時(shí)肯定會(huì )涉及到數據的存儲,一般我們都會(huì )將系統信息保存在某個(gè)指定的關(guān)系數據庫中。我們會(huì )將數據按業(yè)務(wù)分類(lèi),并設計相應的表,然后將對應的信息保存到相應的表中。比如我們做一個(gè)業(yè)務(wù)系統,要保存員工基本信息:工號、姓名、性別、出生日期等等;我們就會(huì )建立一個(gè)對應的staff表。
??但不是系統中所有信息都可以這樣簡(jiǎn)單的用一個(gè)表中的字段就能對應的。
??十六:非結構化數據
??非結構化數據庫是指其字段長(cháng)度可變,并且每個(gè)字段的記錄又可以由可重復或不可重復的子字段構成的數據庫,用它不僅可以處理結構化數據(如數字、符號等信息)而且更適合處理非結構化數據(全文文本、圖象、聲音、影視、超媒體等信息)。
??十七:數據庫(Database)
??數據庫是按照數據結構來(lái)組織、存儲和管理數據的倉庫,它產(chǎn)生于距今六十多年前,隨著(zhù)信息技術(shù)和市場(chǎng)的發(fā)展,特別是二十世紀九十年代以后,數據管理不再僅僅是存儲和管理數據,而轉變成用戶(hù)所需要的各種數據管理的方式。數據庫有很多種類(lèi)型,從最簡(jiǎn)單的存儲有各種數據的表格到能夠進(jìn)行海量數據存儲的大型數據庫系統都在各個(gè)方面得到了廣泛的應用。
??十八:數據分析
??英文名:Data Analysis
??數據分析是指用適當的統計分析方法對收集來(lái)的大量數據進(jìn)行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過(guò)程。這一過(guò)程也是質(zhì)量管理體系的支持過(guò)程。在實(shí)用中,數據分析可幫助人們作出判斷,以便采取適當行動(dòng)。
??Excel作為常用的分析工具,可以實(shí)現基本的分析工作,在商業(yè)智能領(lǐng)域Cognos、Style Intelligence、Microstrategy、Brio、BO和Oracle以及國內產(chǎn)品如Yonghong Z-Suite BI套件等。
??十九:數據挖掘
??數據挖掘(英語(yǔ):Data mining),又譯為資料探勘、數據采礦。它是數據庫知識發(fā)現(英語(yǔ):Knowledge-Discovery in Databases,簡(jiǎn)稱(chēng):KDD)中的一個(gè)步驟。數據挖掘一般是指從大量的數據中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數據挖掘通常與計算機科學(xué)有關(guān),并通過(guò)統計、在線(xiàn)分析處理、情報檢索、機器學(xué)習、專(zhuān)家系統(依靠過(guò)去的經(jīng)驗法則)和模式識別等諸多方法來(lái)實(shí)現上述目標。
??二十:數據清洗
??數據清洗從名字上也看的出就是把“臟”的“洗掉”,指發(fā)現并糾正數據文件中可識別的錯誤的最后一道程序,包括檢查數據一致性,處理無(wú)效值和缺失值等。因為數據倉庫中的數據是面向某一主題的數據的集合,這些數據從多個(gè)業(yè)務(wù)系統中抽取而來(lái)而且包含歷史數據,這樣就避免不了有的數據是錯誤數據、有的數據相互之間有沖突,這些錯誤的或有沖突的數據顯然是我們不想要的,稱(chēng)為“臟數據”。我們要按照一定的規則把“臟數據”“洗掉”,這就是數據清洗。而數據清洗的任務(wù)是過(guò)濾那些不符合要求的數據,將過(guò)濾的結果交給業(yè)務(wù)主管部門(mén),確認是否過(guò)濾掉還是由業(yè)務(wù)單位修正之后再進(jìn)行抽取。不符合要求的數據主要是有不完整的數據、錯誤的數據、重復的數據三大類(lèi)。數據清洗是與問(wèn)卷審核不同,錄入后的數據清理一般是由計算機而不是人工完成。
??二十一:可視化
??可視化(Visualization)是利用計算機圖形學(xué)和圖像處理技術(shù),將數據轉換成圖形或圖像在屏幕上顯示出來(lái),并進(jìn)行交互處理的理論、方法和技術(shù)。它涉及到計算機圖形學(xué)、圖像處理、計算機視覺(jué)、計算機輔助設計等多個(gè)領(lǐng)域,成為研究數據表示、數據處理、決策分析等一系列問(wèn)題的綜合技術(shù)。目前正在飛速發(fā)展的虛擬現實(shí)技術(shù)也是以圖形圖像的可視化技術(shù)為依托的。
??二十二:數據可視化
??英文名:Data visualization
??數據可視化技術(shù)的基本思想是將數據庫中每一個(gè)數據項作為單個(gè)圖元元素表示,大量的數據集構成數據圖像,同時(shí)將數據的各個(gè)屬性值以多維數據的形式表示,可以從不同的維度觀(guān)察數據,從而對數據進(jìn)行更深入的觀(guān)察和分析。
??數據可視化主要旨在借助于圖形化手段,清晰有效地傳達與溝通信息。但是,這并不就意味著(zhù),數據可視化就一定因為要實(shí)現其功能用途而令人感到枯燥乏味,或者是為了看上去絢麗多彩而顯得極端復雜。為了有效地傳達思想概念,美學(xué)形式與功能需要齊頭并進(jìn),通過(guò)直觀(guān)地傳達關(guān)鍵的方面與特征,從而實(shí)現對于相當稀疏而又復雜的數據集的深入洞察。然而,設計人員往往并不能很好地把握設計與功能之間的平衡,從而創(chuàng )造出華而不實(shí)的數據可視化形式,無(wú)法達到其主要目的,也就是傳達與溝通信息。
??二十三:產(chǎn)品數據管理
??產(chǎn)品數據管理(Product Data Management)是基于分布式網(wǎng)絡(luò )、主從結構、圖形化用戶(hù)接口和數據庫件管理技術(shù)發(fā)展起來(lái)的一種軟件框架(或數據平臺),PDM對并行工程中的人員工具、設備資源、產(chǎn)品數據以及數據生成過(guò)程進(jìn)行全面管理。
??二十四:DSP(需求方平臺)
??DSP(Demand-Side Platform),就是需求方平臺。這一概念起源于網(wǎng)絡(luò )廣告發(fā)達的歐美,是伴隨著(zhù)互聯(lián)網(wǎng)和廣告業(yè)的飛速發(fā)展新興起的網(wǎng)絡(luò )廣告領(lǐng)域。它與Ad Exchange和RTB一起迅速崛起于美國,已在全球快速發(fā)展,2011年已經(jīng)覆蓋到了歐美、亞太以及澳洲。在世界網(wǎng)絡(luò )展示廣告領(lǐng)域,DSP方興未艾。DSP傳入中國,迅速成為熱潮,成為推動(dòng)中國網(wǎng)絡(luò )展示廣告RTB市場(chǎng)快速發(fā)展的動(dòng)力之一。
??二十五:DMP(數據管理平臺)
??DMP(Data-Management Platform)數據管理平臺,是把分散的第一、第三方數據進(jìn)行整合納入統一的技術(shù)平臺,并對這些數據進(jìn)行標準化和細分,讓用戶(hù)可以把這些細分結果推向現有的互動(dòng)營(yíng)銷(xiāo)環(huán)境里。
??DMP的核心元素包括:
??·數據整合及標準化能力:采用統一化的方式,將各方數據吸納整合。
??·數據細分管理能力:創(chuàng )建出獨一無(wú)二、有意義的客戶(hù)細分,進(jìn)行有效營(yíng)銷(xiāo)活動(dòng)。
??·功能健全的數據標簽:提供數據標簽靈活性,便于營(yíng)銷(xiāo)活動(dòng)的使用。
??·自助式的用戶(hù)界面:基于網(wǎng)頁(yè)web界面或其他集成方案直接獲取數據工具,功能和幾種形式報表和分析。
??·相關(guān)渠道環(huán)境的連接:跟相關(guān)渠道的集成,包含網(wǎng)站端、展示廣告、電子郵件以及搜索和視頻,讓營(yíng)銷(xiāo)者能找到、定位和提供細分群體相關(guān)高度的營(yíng)銷(xiāo)信息。
以上就是海歷陽(yáng)光翻譯公司就大數據翻譯英語(yǔ)常用詞匯總結之一的介紹,如果您有大數據翻譯的需求請聯(lián)系我們,海歷陽(yáng)光翻譯將竭誠為您服務(wù)。