坐享其成!!!想赚就赚!!!想富就富!!!

「数据算法」现状。人工智能时代;数据隐私。还有。算法鉴别。

编者按:這篇文章是专欄作家劉誌剛的貢献。它是在先鋒国家编輯后出版的。

「数据算法」现状。人工智能时代;数据隐私。还有。算法鉴别。

如果说在過去的20年中有任何科技成果可以与上個世纪計算機的發明相媲美,那么這一榮譽一定属于基于深度学習算法的人工智能技術。由于學習算法的诞生,信息时代的海量信息和數據首次能夠完全为人們提供商业化价值,从而開启了人类“人工智能”的時代。

然而,進入人工智能时代的人們在获得許多技術創新的同時,也付出了自己的代价:在這個數据即生产力的時代,我們在數據人工智能(data AI)時代不断“裸奔”,数据人工智能不断與互联網相链接。

人工智能智能、算法和數據

如今,无處不在的智能手机、街道监控、地铁安检等設备都不同程度地集成了人工智能技术。事实上,當前的“人工智能”僅僅是基於线性规划規則下算法的大數据高效“检索”的結果,並通過深入學習不斷改進“检索模式”和“反馈模式”。它没有真正獨立思考的能力,所以也被称為“弱人工智能”或“輕人工智能”。

然而,即使是沒有思考能力的人工智能,在分析和處理海量数据方面仍然比人力有“革命性”的優勢。然而,数據、算法和计算力是数據驅動的“準人工智能”的三大要素,它们决定了人工智能的能力和價值的上限空。其中,算法和计算力是數據載體。如果人工智能算法與引擎相比较,那么數據本身就是人工智能的“燃料”。

對於大數據,百度百科这样定義:“它指的是在一定時間範圍内无法用常規軟件工具捕捉、管理和处理的數據集。这是一項庞大、高增長和多樣化的信息資产,需要一种新的处理模式來拥有更強的决策、洞察和發现能力以及流程优化能力。”IBM使用5V来表示大数據的特征,即:容量、速度、多样性、价值和真实性。

人工智能與數據尤其密切相关。一方麵,大数據為人工智能提供了數据資源,使其能夠持續增长和发展。另一方麵,人工智能通过数学模型分析来分析和搜索龐大的數据庫,以充分挖掘数据背后的潜在价值。維克多·迈尔-勋伯格(Victor Mayr-schoenberg)在“大數据时代”這样描述:“大数据并不提供最终答案,而只是指答案,为我們提供暂时的帮助,以便等待更好的方法和答案出现。這也提醒我們,在使用這个工具时,我們應该謙虚,记住人性的本質。”

“数據人工智能”與個人隱私的“二元对立”

毫无疑問,今天逐漸應用的“数據人工智能”技術在很大程度上為我們的生活创造了极大的便利,如離线人脸識别支付系統的便利体验、人工智能人臉识别在安全领域的应用以有效提高安全检查效率、基於用戶数據肖像的數字营銷等。基于“数據人工智能”,人们可以实現有效的风险控制和行为预测。隨著“数據人工智能”的商業應用,人們在享受便利的同时,也在承擔隱私泄露的風险和擔憂。

想象一下,在数据世界中,你習慣使用的社交軟件可能是最了解你的家庭和社會關系的軟件,你常用的支付軟件可能是最了解你的财務狀況的软件,而你经常在網上购買的平台是最了解你的購物習惯和购买力的軟件。如果您將这些數據結合起来,它就是数据的完整和准确的描述。如果這些数据被泄露,你将完全暴露在数据世界中,被陌生人监視,甚至被用于非法商业交易。

此前,据《華爾街日报》報道,一家英國集团子公司的首席執行官接到“老板”的电話,要求他在一小時內將錢转交給“供應商”。他成功地被罪犯利用人工智能語音技术詐骗了22万歐元。

人工智能语音不仅存在隱私和安全問題,事實上,人工智能视频变臉也存在隱私安全漏洞。以最近在屏幕上閃现的人工智能面板应用程序ZAO為例。隨着人气的高涨,其广受批評的用户协议和变脸合成视频的隐私和安全问題也使其陷入輿論漩涡。原因是變脸合成視频觸及了人们心中的隐私紅線:当视频也可以偽造時,有什么樣的證据来辨别真相呢?

目前,人工智能技术的发展要求人们公開他们的數據。另一方面,在现實中,個人數据的開放将不可避免地导致数據泄露的风險。目前,大多数公司必须通知用戶并獲得他們的同意,才能通過他們的軟件收集用戶信息。根據一項调查,如果他们想完全閱读隱私政策,這意味著消費者每年需要花费200多個小時。显然,沒有人愿意在这件事上浪费时间。

本质上,数據开放和隐私保护原本是二元对立的。一方的利益必然意味著另一方的风險和損失。然而,在現階段,还沒有有效的“數据黑匣子”机製来确保個人数据的绝对安全。對於刚剛進入人工智能时代的人來說,数据开放也成为一种“趋勢”。在數據生产力时代,以數据集成、流通和数據反饋為主導的“数据价值創造”將带来效率的飛跃。

數據价值与隐私權的動態平衡“妥协”

人們對數據泄露的擔忧源于他們对自身利益的担忧。事实上,开放数據的人也可以获得人工智能帶来的便利服務。一项调查显示,相当多的人願意分享涉及隱私的相关数據,條件是他們對自己沒有影响,並且能夠確保数据的绝对安全。

另一方麵,对于一些不愿意分享自己数据的人来说,路人的無意识行为也可能導致人工智能技術下个人數據泄露的可能性。例如,在广場上有牌照的人可以捕捉一些路人的面部數據,而在面部识別技术下,這些路人将被識別,数据將被存儲。對他們來说,在未知情况下创建的數據將決定未來數據泄露的風險。

此外,數据本身的价值已經成为数據泄漏的原因之一。事实上,基於智能手機的信息收集比其他方法更容易。通過智能手機的后門软件,你可以收集你的手機號碼和地址簿等信息。如果用户没有足夠的安全意識,许多軟件安装默認會收集各種信息。通過智能手机的唯一識別信息,可以輕鬆整合數據和定位身份信息。

由於人工智能時代数据資源的性质,大量的用户數據是企事业单位廣告优化的关键。因此,数據开放意味着巨大的商业价值。在生態布局下,巨人可以通過全鏈数据路徑获得准确完整的用戶肖像,巨人也更容易将数據商业化。

对於人工智能技術的提供者來說,在數据价值的指導下收集數据是非常必要的。开始的時候,人們會感到不安,因为數據被第三方使用,从而保護了他们的隐私。事實上,如果數据本身的應用不会给用户帶來麻煩並帶来方便的服務,那么此时一些用户会願意接受共享數据。因此,人工智能技術的提供者应该对數据价值的商业應用持更加謹慎的態度。

我认为,在人工智能数據時代,数據的商业價值和用戶的隱私权之间需要有一個动態的平衡,也就是說,在法律範圍的临界點内,需要有一個数據收集器和用户之间的連接機製,以确保在数据生產者的控制下,數据的商业价值能够得到有限的利用,並且能夠在隱私保护和人工智能技术的便利性之间达成妥協。然而,在隐私法、財产法等相關法律对数據所有權權益没有明确立法的现狀下,數据的有限使用仍然需要依靠企业的自覺意識。

数据算法偏差下的“人工智能判別”

在大數據時代,数据的存储成本非常低,這也意味着在數据驱动人工智能时代,一旦數據生成,就很難完全消除它。在降低數據存储成本規模的作用下,完全刪除數據的成本更高。因此,數据存在的時间更长,甚至超過了創造者本人的壽命。隨着存儲成本的进一步降低,个人数據可能在不久的将来被无限期地存储。

大數據的意義在于直接应用數据分析結論,而不是探究事物的“規律性”。因此,大数據通常用于結果预测。事實上,基于数据的預測结果也是时間敏感的,而時間敏感故障的結果是基於數據分析的人工智能交互失真。

換句话說,如果收集的數據本身有一定的趨勢,那麽从它训練出來的人工智能自然也有这種趋势。美国的一项调查證明了这一点。在基于数據分析的族群預测算法中,该算法通常在預測族群时预测那些生活在有黑人歧視曆史的地区的人,但事實並非如此。

另一个例子是在STEM(科学、技術、工程、數學)招聘廣告中,廣告商發現这個广告很少针对女性,而實際上廣告商希望这个广告是中性的。然而,在“雙曲線貼現”效應下,数据的及時性導致數據“不准确”,进而导致“算法歧視”。

雙曲線贴現,也称为非理性贴现,是行為经济学中的一个概念。这种现象描述了贴现率不是一個常数,具体地说,人们在评估未来收入的价值时,傾向于在较近的時期使用較低的贴现率,在較远的時期使用較高的貼现率。

例如,大多數人可能更喜欢一年后取今天的60元而不是100元,因為今天的60元收入可能更有價值,而如果人们可以选择一年后取60元或兩年後取100元,大多數人会在兩年後选擇100元。也就是說,人們會因为收入时间的不同而做出不同的决定。

因此,在雙曲線贴現的情況下,人们的短期决策行為所产生的數据会導致數据本身不準确,从而在數據偏差导致算法偏差后更容易在應用层麵造成“算法歧視”。因此,對于數據人工智能的用户来说,算法的應用需要更加谨慎和小心。

結束:

無论是數据人工智能時代的個人隐私还是数據偏見下的“算法歧视”,都是大数據人工智能发展中不可避免的問題。對人們来说,无论是在数據收集端侵犯隐私,还是在人工智能應用层面的“算法歧视”,这都是對道德甚至法律的边缘探索。对於仍處於“嬰儿期”的人工智能技術来說,如何根據人類价值观和道德标准正確引导和影響其發展,創造更大的價值,是一個值得人工智能創造者深入思考的问題。

本文為專欄作者授權创業邦發表,版权归原作者所有。文章系作者個人观點,不代表創業邦立场,转载請聯系原作者。如有任何疑問,請联係editor@cyzone.cn。
免责声明:非本网注明“禁止转载”的信息,皆为程序自动获取互联网,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责;如此页面有侵犯到您的权益,请给站长发送邮件,并提供相关证明,站长将在收到邮件24小时内删除。